打造可信任 AI,催 TAIDE 模型問世
目前問世的商用版 TAIDE LX-7B 模型、學研版 TAIDE LX-13B 模型,整體表現與 ChatGPT 3.5 模型相去不遠,已累積 10 多個應用案例問世。
採訪/林振輝、施鑫澤‧文/林裕洋‧刊期/2024.11
在資訊力等於國家競爭力的趨勢下,2017 年行政院即著手推動「數位國家‧創新經濟發展方案」(DIGI+),做為引領數位發展與創新施政藍圖,並於 2018 年發布臺灣 AI 行動計畫,將 AI 列入臺灣發展重點。國家科學及技術委員會(國科會,前身為科技部)即依此政策鼓勵學研機構投入 AI 技術與應用研究,建構臺灣 AI 科研環境。在前科技部部長陳良基推動下,分別在臺、清、交、成四所大學,成立四大 AI 創新中心,臺大以 AI 核心技術和智慧健康照護為主,清大鎖定智慧製造,陽明交大聚焦於智慧服務,成大則以生技醫療為主。
隨著 AI 技術持續進化,早已成為推升全球經濟發展的重要核心。為延續臺灣 AI 行動計畫的成果,行政院推動臺灣 AI 行動方案 2.0(2023~2026),期盼持續精進、擴大 AI 研發與應用,強化國家科技實力及對外表現,重視 AI 倫理法制、落實可信任 AI,讓整體社會皆能受益於 AI。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球 CIO 同步獲取精華見解 ]
長庚大學智慧運算學院院長暨臺灣人工智慧卓越中心 (Taiwan AICoE) 副總召集人許永真說,因應臺灣 AI 行動方案 2.0,2023 年在國科會支持下「臺灣 AI 卓越中心」正式成立。中心目標在提升 AI 核心與重點技術發與產業資源,並推動跨國合作,發展符合國際趨勢的 AI 治理規範。除此之外,我們也致力於科研技術和人才培育,期盼提高臺灣在 AI 領域的國力,使其成為國際 AI 研發的重要中心。
三大面向著手 全力推動臺灣 AI 行動方案 2.0
臺灣 AI 行動方案 2.0 目標實現「以 AI 帶動產業轉型升級、以 AI 協助增進社會福祉、讓臺灣成為全球 AI 新銳」為願景。從產業端出發,透過深耕 AI 技術與發展 AI 產業及產業應用 AI,帶動我國整體產業轉型升級,並建構兼顧科技創新及風險治理的可信任 AI 發展環境,包括人才優化及留才攬才、重視 AI 倫理法制、推動資料治理及流通。因應 AI 衍生的各項社會衝擊,並以 AI 科技發展具包容性的數位經濟,協助解決社會面臨重大挑戰,增進全民福祉。
許永真表示,臺灣人工智慧卓越中心將攜手相關部會,分別從三大面向著手,在人才部分與臺灣人工智慧學校 (AIA)建立合作 ,並舉辦 MLSS 機器學習夏令營、主辦 SIGIR 國際頂尖 AI 學術研討會等,藉此建立關鍵核心 AI 人才樞紐、提升人才影響力。在治理部分,則積極參與國際組織 GPAI 資料治理小組,也擬訂行政院及所屬機關使用生成式 AI 參考指引,並已於 2023 年 10 月由行政院頒布,落實 AI 倫理與法制、全力發揮國際影響力 。
許永真指出,在科研技術方面,則著手打造臺灣專屬之大型語言模型 -TAIDE(Trustworthy AI Dialogue Engine,可信任生成式AI對話引擎), 展開智慧聯網主題之臺美科技合作對話。我們期盼藉由推動 AI 主題研究專案方式,全力厚植 AI 核心技術能量,擴大跨域應用效益、強化技術影響力。儘管國際市場上已有眾多開源大型語言模型,但是訓練資料大多以英文為主,中文部分則以簡體中文為大宗,因此常發生回應內容與臺灣文化、價值觀不符的情形。在保護在地文化、確保臺灣「數位主權」的前提下,2023 年 4 月國科會啟動「TAIDE 計畫」,以帶動生成式 AI 應用及產業發展,提升國際競爭力。
借重國際基礎模型力量 選定 LLaMA 模型
近年生成式人工智慧(GenAI;Generative AI)掀起熱潮,各類 GenAI 應用服務紛紛出現,並帶來廣泛且巨大的影響,已有愈來愈多行業導入運用進行各種創新,如 ChatGPT 的問世,亦讓許多國家及科技巨頭積極投注資源發展大型語言模型。臺灣半導體實力領先世界,未來為維持關鍵戰略地位,必須結合當前 AI 發展趨勢、擴大 AI 基礎建設,而打造臺灣專屬的大型語言模型,即是其中一項重要的工作。
TAIDE 模型以具臺灣主體性的文本為訓練素材,內容涵蓋政府及民間多元領域的資料,包括大量通用文本如中央社、光華雜誌、公共電視、各部會公開資料、法規資料庫、國家文化記憶庫等,以及字辭典(如臺灣語料庫及各領域常用字辭典)及民間出版社提供之文本等。
「訓練大語言模型沒有捷徑,就得向教養孩子一樣, 需要餵養各種知識。我們策略是站在巨人的肩膀上,選擇英文母語的 LLaMA 模型,以中文資料進行訓練。」 許永真解釋:「儘管 GenAI 功能非常強大,但是在資源有限的狀況下,我們優先選擇辦公室日常生產力任務,如中英翻譯、自動摘要、寫 Email 、給題目寫文章等,期盼以有限資源創造最大效益。」
商業發展 TAIDE 模型遇挑戰
在各團隊協同努力下,2023 年 6 月 14 日臺灣人工智慧卓越中心公布第一版 TAIDE-7B 模型,可做到自動摘要、翻譯文本、寫信、寫文章等四個面向,也可用寫信方式推薦臺灣旅遊的 5 個必去景點。儘管初試啼聲的表現不錯,但 TAIDE 模型若要扮演協助臺灣產業發展的推手,勢必要朝向商用模型發展。
許永真指出,大語言模型要成為可商用模型必須符合三大條件,首先是基礎模型需要可商用,其次,中文 CP(Chinese Pile)資料必須有可商用授權或不限使用方式,最後則是中文 FT(Fine-Tuning) 資料必須可商用授權。
許永真說,我們最早推出的 TAIDE-7B 模型,專案初期並沒有考慮到商用模型的三大條件,因此無法在該基礎上進行商用模型研發。前面提到,TAIDE-7B 模型採用 LLaMA 基礎模型,而 Meta 已預先表明無法用於商業環境。其次,先前模型中使用的中央社、其他新聞、政府研究資訊、正體維基、學術會議論文摘要等十種,而且其中新聞為網路爬文而來,並未獲得正式授權。而在中文 FT 資料部分,部分也是源自於 ChatGPT 產生,不符合商用條款。因此,如何解決這三大挑戰成為 TAIDE 團隊最大課題。
LLaMA2 基礎模型問世 助攻 TAIDE 模型商業化
在推出 TAIDE-7B 模型,團隊成員累積不少技術與經驗,也重新檢視發展可商用模型的條件,即需大量資料、大量算力相互搭配,英文基礎模型必須超過 1T tokens 、中文資料量則需超過 1B tokens。由於商用模型尋覓不易,因此團隊原本預計等 AI 預算下來之後,先建立由 72 張 NVIDIA H100 卡組成的 AI 算力後,再來從頭訓練中文商用模型。
沒想到,2023 年 7 日 19 日 Meta 推出可商用的 LLaMA2 基礎模型,TAIDE 模型解除第一條限制。在算力部分,先期已建置 9 台(72 片)最新 NVIDIA H100 晶片運算資源,並整合國家高速網路與計算中心的超級電腦「臺灣杉二號」。至於最重要的高品質授權臺灣中文資料,目前掌握涵蓋開放文本(大量通用文本、中英文對照文本、公部門資料、書籍)、字辭典、特定專用(認識臺灣、教育場域應用、法律影率應用)等超過 100B Tokens 資料。
許永真指出,2024 年 4 月 15 日我們公開釋出商用版 TAIDE LX-7B 模型及學研版 TAIDE LX-13B 模型,是以 Meta 開源模型 Llama 2 為基礎,透過完整收集繁體中文及在地文本訓練資料,進行開發預訓練模型,兩項模型在寫文章、寫信、摘要、英翻中、中翻英等方面表現優異,並具備多輪對話及阻絕產生不恰當回應之能力。在任務測驗分數部分,TAIDE LX-7B 模型獲得 7808、學研版 TAIDE LX-13B 模型獲得 8652,與 ChatGPT 3.5 的 8676 相去不遠。
符合可信任要求 TAIDE 模型快速被採用
一般其他大型語言模型不同之處,TAIDE-LX-7B 模型在其繁體中文的文本生成能力非常強,關鍵在於模型透過額外擴充繁體中文字元、字詞,使得生成的文本更加流暢、精準,並且更具有臺灣味。能有如此亮眼表現,在於訓練模型所使用的文本資料,都經由 TAIDE 團隊與政府機構和民間出版社合法取得授權之文本資料進行訓練,此過程確保透過「可信任」的文本協助 TAIDE-LX-7B 模型加強臺灣在地文化、用語與國情等知識,從而產生豐富多樣的文本內容。
另外,TAIDE-LX-7B 模型針對自動摘要、寫信、寫文章、中翻英、英翻中等辦公室常用任務做加強進行開發,提升業務執行效率外,並開發出多輪問答的對話能力,讓模型可以透過已生成的文本內容,接續使用者的指令,產出更符合需求的文本,這一文本也展示模型的「適用性」,因此綜觀現今多種類已經釋出的大型語言模型,目前 TAIDE-LX-7B 可說是回答最為「臺灣味」、資料安全最為「可信任」、工作型態「適用性」最佳。這些成果充分展現 TAIDE 團隊的努力。隨著 Meta 最新對外釋出的新一代大型語言模型 Llama 3,TAIDE 開發團隊也於 2024 年 4 月 29 日對外釋出「升級版」Llama 3-TAIDE-LX-8B-Chat-Alpha1模型,快速回應外界期待。
「目前已有很多以 TAIDE 模型為核心的案例出現。如臺南大學的臺語對話生成式 AI 機器人,即是將 TAIDE 模型導入中小學臺語教學,協助學生進行臺語主題式對話,已在臺南仁德國小進行實證,並在日本、馬來西亞等海外進行場域驗證。」許永真解釋:「而高雄大學的 Kuwa GenAI OS,則是本土開發且開放源碼的新一代 GenAI 應用,其預載 TAIDE 模型,讓個人及各行各業皆可輕鬆在地端使用 TAIDE GenAI 服務或開發創新應用。」
至於教育部的 AI CUP 競賽報告檢查系統,則可自動審查參賽報告,確保符合學術標準。過往僅有前 25% 報告可進行實質審查,現可透過 TAIDE 全面審查,有助提升報告品質,並加強公平性與專業性。
神農 TAIDE 受好評 答案可信、提供來源出處
至於中興大學推出的農業知識檢索系統—神農 TAIDE,則是基於 Retrieval-Augmented-Generation(RAG)、Generation-Augmented-Retrieval(GAR)、萃取式閱讀模型(Extractive Reading Model)、農委部資訊中心 13,000+ 篇之農業文獻庫等成,具備模型自有、答案可信、提供來源出處等三大特色。開發團隊為避免發生「一本正經的胡說八道」,已經預先設定「神農 TAIDE」僅回答知識庫中所包含資料,藉此確保回答的正確性。
許永真指出,神農 TAIDE 最大特色在於結合檢索模型、萃取式閱讀模型和 TAIDE 模型優勢,可提供準確、全面且易於理解的農業知識答案,而不會有 ChatPT 胡亂回答、且沒有資料來源等問題。使用者不再需要付費查詢,且經過TAIDE 過濾和摘要的答案準確且易懂,協助使用者節省成本、時間,嘉惠農業研究人員、青農等。
(本文授權非營利轉載,請註明出處:CIO Taiwan)