第十七屆 CIO價值學院 第三堂課 AI & DATA 會後報導
綜觀企業私有化 LLM 訓練流程,需要歷經資料、資料前處理、持續微調、指令微調、抗毒性 AI、時效性資料更新、持續搜集資料訓練模型等眾多關卡;而 APMIC 提供的 CaiGunn 如同百寶箱,完整涵蓋每一個通關需求。
文/明雲青
不少企業都想推動 LLM 私有化,而亞太智能機器(APMIC)提出解方。APMIC 共同創辦人Eli Lin 指出,該公司成立逾 7 年,在 NLU 與 NLP 累積深厚 Know-how,如今推出「CaiGunn」(台語「聊天」之意)企業 AI 工具箱,可助力企業實現私有 LLM,讓企業內人人都是 AI 開發者。
回顧稍早 COMPUTEX 2024 期間,NVIDIA 共同創辦人暨執行長黃仁勳在發表演說時,後方背板三度出現 APMIC,深究其因,在於 NVIDIA 推出 NIM 推論微服務架構,APMIC 不僅將模型成功安裝於 NIM,更搭配 TensorRT SDK 把推論速度加快 2.5 倍,因而被 NVIDIA 視為深具推廣 LLM 實力的 ISV 夥伴。毫無疑問,現在大部分產業面臨的最大難題正是人力短缺,加上可預見基本工資勢必持續調漲,所以迫切需要透過 AI 工具來改變這般態勢,好讓企業持續順暢運行既有的作業流程。因此 APMIC 致力發展 CaiGunn 產品,使企業能將內部的文檔、圖檔、Email、PowerPoint…通通丟到系統,再由 LLM 幫忙分析箇中重點;而 CaiGunn 與 ChatGPT 不同之處,在於 APMIC 可針對特定垂直領域進行 Fine Tuning,更適切地滿足相關廠商的實際需求。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球 CIO 同步獲取精華見解 ]
總括來說,APMIC 做的是 LLM 一條龍服務,綜觀企業私有化 LLM 的訓練流程,從資料、資料前處理、持續微調、指令微調、抗毒性 AI、時效性資料更新直到持續搜集資料訓練模型,CaiGunn AI 工具箱備有不同模組,對應不同階段要求。
如一開始的爬蟲,可直接從官網或內部網頁匯集資料。再來由 ADP 模組執行 Data Preprocessing,滿足資料清洗、隱私保護任務。接著登場的是 CVM,針對單一垂直領域做深層研究,然後執行 Fine Tuning、Instruction Tuning、Prompt Tuning 等微調工作。
爾後藉由 RGAI 來防堵諸如 Prompt Injection 等風險,確實保護輸入與輸出的資料,協助企業實現 Responsible AI。接下來利用 C-RAG 執行文件處理,乃至整合 OCR 做文字的光學影像辨識,並化解最麻煩的 Excel 表格查閱問題,讓 LLM 順利完成查詢,甚至將內容儲存到 VectorDB。最後透過 RLHF(Reinforcement Learning from Human Feedback)不斷調整 LLM,可實現沉浸式客服、市場分析與預測、工作流程優化、知識管理與資訊檢索、專業諮詢服務等企業用途。
(本文授權非營利轉載,請註明出處:CIO Taiwan)