免費的最好？

企業可以免費下載開源生成式 AI 模型，大規模使用也不會增加 API 呼叫成本，並且可在企業防火牆內安全地運行模型。但千萬不要放鬆警戒，風險依然存在，不僅有些風險變得更為嚴重，還有生成式 AI 特有的新風險浮現，成為新的挑戰。

文／Maria Korolov·譯／曾祥信

如今，似乎任何人都可以製作 AI 模型。即使你沒有訓練模型的資料或程式設計能力，依然可以採用你最喜歡的開放源碼模型，對其進行調整，然後以新的名稱發布。根據史丹佛大學 2024 年 4 月發布的 AI 指數報告，2023 年全世界共發布了 149 個基礎 AI 模型，其中三分之二來自開源碼專案，而且還有數量驚人的變形版本。

Hugging Face 公司目前光在文字生成領域追蹤的大型語言模型（LLM）就超過 8 萬個，所幸，他們提供一份排行榜，讓你能根據模型在不同基準上的積分，快速排序所有的模型。這些開源模型雖然比不上大型的商業模型，但它們正在迅速進步中。

安永美洲（EY Americas）生成式 AI 主管 David Guarrera 表示，在探索開源生式成 AI 時，排行榜是一個很好的起點，Hugging Face 做的基準排行尤其出色。「但是千萬不要低估這些開源模型的價值」，他說道，「因為它們是開放源碼，所以很容易取得、使用並替換」。他補充，開源模型與其封閉、商業模型替代方案之間的性能差距，正在縮小當中。

[ 熱門精選：如何安全地將公司資料送進生成式 AI？ ]

「開放源碼太棒了」，Uber Freight 工程主管 Val Marchevsky 補充道，「我發現開放源碼極有價值。它們不只在效能方面迎頭趕上商業專有模型，而且有些模型提供封閉源碼所無法比擬的透明度」，他如此說道。「有些開源模型讓你可以看到什麼被用來訓練 AI 的推理能力、什麼沒有被使用。要防止 AI 帶給人類錯誤資訊，審查能力極為重要」。

當然，還有價格優勢。「如果你有資料中心且恰巧還有充裕的容量，何必要花錢請別人代勞呢？」，他說道。企業界已非常熟悉使用開放源碼。根據 Synopsys 在二月發表的開源安全與風險分析報告，所有商業程式碼庫當中，高達 96% 包含開源軟體元件。

基於所有這些經驗，企業應當清楚該做什麼以確保他們使用適當授權的程式碼、如何檢查軟體弱點，以及如何持續套用修補程式碼、將軟體維持在最新狀態。不過，在 AI 開源模型方面，其中一些規則和最佳實踐作法，存在著企業可能會忽略的特殊細微差異。以下是最重要的項目。

內容目錄 隱藏

三、越獄

一、怪異的新授權條款

不同開源授權類型的情況本身就已夠複雜了，專案對於商業用途是否安全？還是僅適用於非商業應用？開放源碼可以修改並重新發布嗎？是否能夠安全地合併到專有程式碼庫之中？現在，隨著生成式 AI 的到來，原本複雜的情勢又出現新的難題。首先，有些新的授權類型，僅在定義非常含糊的情況下才算是開放源碼。

以 Llama 授權許可為例，Llama 系列模型是目前最好的大型語言模型之一，但 Meta 公司的官方說明對此模型的描述是，「客製化的商業授權，在模型的開放存取與責任和保護之間取得平衡，以助於解決潛在的濫用問題」。

企業可以在商業用途上使用這些模型，也可以讓開發人員在基本 Llama 模型上建立和發布額外的程式碼，但不允許他們利用 Llama 的輸出來改善其他大型語言模型，除非它們本身是 Llama 的衍生模型。如果企業或是其附屬機構的每月用戶人數超過 700 人，就必須向 Meta 公司申請授權，且不保證能取得授權。此外，如果企業用的是 Llama 3，必須在軟體顯著之處加上「Built with Llama 3」的字眼。

[ 熱門精選：得安全ＡI 系統者得天下 ]

同樣地，Apple 公司最近以「樣本程式碼授權（Apple Sample Code License）」公開了 OpenELM，該授權也是為相同理由而生，僅涵蓋授權許可，但不包括專利權。無論 Apple 還是 Meta，都沒有使用普遍接受的開放源碼授權，但是事實上，程式碼本身是開放源碼。

Apple 實際上不僅發布程式碼，還公開模型權重、訓練資料集、訓練日誌和訓練前的組態設定。這些狀況為我們帶來開源授權的另一個面向。傳統的開源軟體，就只是程式碼，開放源碼意謂著，你可以明確看到程式碼做了什麼事情，以及其中是否存在潛在問題或安全漏洞。

然而，生成式 AI 不只是程式碼，它還包括訓練資料、模型權重與細部微調。所有這些項目，對於了解模型的運作原理及辨識出潛在的偏差來說，都極為重要。舉例來說，如果模型是根據地平說陰謀論的資料檔案訓練而成的，將無法正確回答科學問題，或者由北韓駭客調整過的模型，可能就無法正確地辨識出惡意軟體。問題來了，開源的大型語言模型會公開這些資訊嗎？答案是取決於模型，或甚至取決於某個模型的特定版本，因為這件事情沒有標準可言。

卡內基美隆大學人工智慧教授、PwC 前人工智慧主管 Anand Rao 表示：「有時候生成式 AI 模型開發者會提供程式碼，但若沒有進行微調，你可能得花費大量資金，才能讓模型發揮有競爭力的效能」。

二、技能短缺

開放源碼通常需要親力親為。企業可以下載原始碼，但接著他們需要企業內部專業技術或聘請顧問，才能使一切順利運作。這是生成式 AI 領域的一大問題，沒有任何人擁有多年經驗，因為這項技術太新了。Rao 表示，如果公司剛開始運用生成式 AI，或者想要快速發展，那麼從專有平台開始，是比較可靠的作法。

「下載開源版本需要專業知識」，他說道，一旦公司完成了概念驗證，將模型部署到生產線上，帳單開始累積時，可能就是時候該考慮開源碼的替代方案。缺乏產業專業知識，也為開源生成式 AI 領域帶來另一個問題。開放源碼的主要優勢之一是，有很多人可以看到程式碼，一起找出程式碼中的錯誤、安全漏洞與其他弱點。但是這種解決開源安全問題的「千眼」方法，只有在眾人有能力理解他們所見到程式碼的前提下才管用。

三、越獄

眾所周知，大型語言模型很容易受到越獄（jailbreaking）的影響，即使用者給出巧妙的提示，誘導它違反其指導原則，例如產生惡意軟體（malware）。對於商業專案，企業背後有主動積極的供應商，可以辨識出這些漏洞，並在它們出現時及時填補漏洞。此外，供應商可以存取用戶發送到模型公用版本的提示，以利他們監控可疑活動的跡象。

惡意行為者不太可能購買運行在私有環境中的企業版本產品，在私有環境裡，用戶提示不會被分享給供應商用來改善模型。而在開源專案中，團隊中很可能沒有任何人的職責是負責尋找越獄跡象。惡意使用者可以免費下載這些模型，在他們自己的環境裡執行模型，以測試可能的駭客行為。壞人還能在越獄上取得先機，因為他們可以看到模型使用的系統提示，以及模型開發人員建立的任何其他護欄。

[ 加入 CIO Taiwan 官方 LINE 與 Facebook ，與全球 CIO 同步獲取精華見解 ]

Rao 說：「這不僅是試誤法（trail and error）」。例如，駭客可以分析訓練資料，找出讓模型錯誤辨識影像的方法，或是在遇到看起來無害的提示時產生失控行為。如果 AI 模型在其輸出加上浮水印，惡意行為者可能會分析程式碼，對程式流程進行逆向工程（reverse-engineering），以去除浮水印。攻擊者還能透過分析模型本身或支援模型的程式碼與工具，來找到安全弱點區域。

全球數位轉型顧問公司 Nortal 的資深資料科學家 Elena Sügis 表示，「你可以透過請求來癱瘓基礎設施，即使這些請求不會造成模型不堪負荷。當模型是更大系統的一部份，而且其輸出被系統的另一部份使用時，如果我們可以攻擊模型產生其輸出的方式，就會破壞整個系統，這對企業來說是一大風險」。

四、訓練資料的風險

「這是一個潛在的問題，目前沒有人真正知道一些懸而未決的訴訟會如何發展」，安永公司的 Guarrera 說道。一個可能的走向是，企業必須為訓練資料集付出補償。「大型科技公司更有能力在這方面投入資金，以度過版權問題可能帶來的風暴」。

[ 熱門精選：AI 的雙面刃與管理 ]

Sügis 表示，大型商業供應商不僅有錢購買訓練資料和打官司，他們也有錢可以用在品質優良的資料集。免費的公用資料集不但包含未經使用許可的受版權保護內容，同時也充斥不準確和帶有偏見的資訊、惡意軟體與其他降低模型輸出品質的各種內容。

「許多模型開發人員都在談論使用精選資料」，她說道。「這比你用整個網際網路來訓練模型還要昂貴得多」。

五、暴露新的弱點

Sügis 表示，由於生成式 AI 專案包含的不只是程式碼，因此也就暴露更多可能被攻擊的區域。大型語言模型在多個面向都有可能遭受惡意行為者的攻擊。駭客可以滲透到管理欠佳專案的開發團隊之中，在軟體本身加入惡意程式碼。此外，他們也可能汙染訓練資料、微調設定或模型權重。

「駭客可能會使用惡意程式碼樣本來重新訓練模型，從而入侵用戶基礎設施」，她說道。「或者是用假新聞和錯誤資訊來訓練模型」。另一種攻擊媒介是模型的系統提示（system prompt）。

[ 推薦文章：從「零信任」到「雙零安全」 ]

「系統提示通常被隱藏起來不讓用戶看到」，她補充道。「系統提示可能具有護欄或安全規則，讓模型有能力辨別有害或不道德的行為」。她說，專有模型不會揭露其系統提示，有辦法存取系統提示就會讓駭客有機可乘，找出攻擊模型的方法。

六、缺少護欄

Nortal 公司的 Sügis 表示，某些開源團體可能以哲學觀點，反對在他們的 AI 模型上設置護欄，或是認為在沒有任何限制的情況下，模型能夠表現得更好。甚至有些模型是專門為了惡意用途而創造的。

想要嘗試大型語言模型的企業，未必知道他們找的模型屬於哪種類別。目前還沒有獨立機構專門評估開源生成式 AI 模型的安全性。歐洲的《人工智慧法案》將要求提供這類的文件，但其大部份條款要到 2026 年才會生效。她說：「我會設法取得所有可能的文件、測試與評估模型，並在公司內部實現一定的護欄措施」。

七、缺乏標準

用戶驅動的開源專案通常會基於標準來開發，因為企業用戶偏好擁有標準和系統之間的互通性。事實上，根據 Linux 基金會去年公佈的一份針對近 500 名科技專業人士所做的調查顯示，71% 的人較喜好開放標準，只有 10% 的人偏好封閉標準。另一方面，專門生產專用軟體的公司則寧可讓客戶陷入他們的生態系統。但是，如果你期望開源生成式 AI 專案全都基於標準，你可就錯了。

事實上，當人們在談論 AI 標準時，他們談的大多是道德、隱私與可解釋性等問題。這項領域的工作確實正在進展，例如去年 12 月發布的人工智慧管理系統 ISO/IEC 42001 標準。此外，美國國家標準暨技術研究院（NIST）在 4 月 29 日發布的人工智慧計畫草案，涵蓋許多面向，首先是建立討論 AI 時的共同語言。這項草案也相當關注風險和治理問題，但仍未觸及太多與技術標準相關的內容。

[ 推薦文章：從「零信任」到「雙零安全」 ]

雲端原生運算基金會（Cloud Native Computing Foundation）資訊長兼生態系統負責人 Taylor Dolezal 表示：「 AI 標準是一個令人難以置信的未成熟領域。我看到一些很不錯的對話，話題關於資料分類，以及為訓練資料、程式應用介面、系統提示制訂標準格式。但到目前為止，這些都還只是討論階段」。

他說，我們已經有向量資料庫（vector database）的通用資料標準，卻還沒有標準的查詢語言，更不用說，我們也沒有自主代理人（autonomous agent）的標準。「我還沒看到這些標準，但我非常樂於見到」，他說。「我們必須找出方法，不只是讓自主代理人能夠執行特定的任務，還要讓它們能夠結合起來運作」。

他表示，創造自主代理人最常用的工具 LangChain，比較像是一個框架而非標準。而用戶企業，也就是致使我們需要標準的公司企業，則尚未作好準備。他說，「大部份終端用戶在開始嘗試 AI 技術以前，都不知道自己想要的是什麼」。

他進一步表示，人們反而更可能將 OpenAI 等主要供應商提供的 API 與介面，視為初期的實際標準，「這就是我看到人們正在做的事情」。

八、缺乏透明度

就本質而言，你可能認為開源模型會比較開放、透明，但事實並非總是如此。Vero AI 是提供分析引擎與記分版平台的公司，其執行長 Eric Sydell 表示，大型商業專案也許擁有更多資源可用在創造文件。該公司近期公布一份報告，根據可見度、完整性、法規準備程度與透明度等項目，計算主流生成式 AI 模型的分數，Google 的 Gemini 與 OpenAI 的 GPT-4 獲得最高的記分排名。

「單純因為開放源碼，並不一定代表它們會提供與傳統開源專案相同的透明資訊，你可能無法得知模型的背景及其開發方式」，Sydell 說道。「目前，大型商業模型在這方面做得比較好」。以偏見為例。「我們發現，排名前兩名的封閉模型都有非常多的文件，投入大量時間探索 AI 的偏見問題」，他說。

九、血統問題

網路安全供應商 Sonatype 產品資深副總裁 Tyler Warden 表示，在開源專案領域，分支（fork）是很常見的作法，但在面對生成式 AI 時，你會遭遇傳統軟體所沒有的風險。舉例來說，某個基礎模型使用了有問題的訓練資料集來訓練模型，今天有人根據此模型建立分支，創造出一個新模型，那麼新模型就會繼承相同的問題。

[ 推薦文章：深偽即將與你糾纏不清 ]

他說，「模型的權重與調整裡面有太多黑盒子的內容」。事實上，這類問題可能會回溯到好幾層分支，在最終模型的程式碼中根本無法看到問題。當一間公司下載開源模型來自行使用時，源頭甚至無法追蹤此分支的模型。也就是說，最原本的基礎模型可能修正了問題，但取決於透明度與分支家族的溝通程度，最終模型的開發人員甚至很可能沒有意識到問題已被修正。

十、新的「地下 IT」

在軟體開發環節中使用開源軟體元件的企業，通常具有適當的流程，用來審查軟體函式庫並確保軟體元件處於最新狀態。他們能確保專案擁有充份支援、安全問題獲得解決，且軟體具有適當的許可條款。

然而，在生成式 AI 專案裡，負責審查的人可能不知道該檢查什麼項目。更糟的是，有時候生成式 AI 專案根本不在標準軟體開發流程之中，它們可能來自資料科學團隊或臭鼬工廠（skunkworks）。開發人員可能只是下載模型來玩玩看，卻無意間讓模型獲得公司廣泛使用。或是企業用戶照著線上教學，自行設定生成式 AI，完全繞過 IT。

生成式 AI 最新的發展 – 自主代理人（autonomous agent），有潛力將巨大的力量交到這些 AI 系統手上，將這種「地下 IT」的潛在風險提升到全新高度。Corelight 公司開源資深總監 Kelley Misata 表示，「如果你打算試驗某個模型，請建立一個容器（container），以對組織安全無虞的方式進行試驗」。

她認為，這種問題應屬於公司風險管理團隊的責任，而負責確保開發人員與公司整體都清楚了解這項流程的人，就是資訊長。「資訊長是最有能力塑造文化的人」，她說道。「讓我們充份運用開源碼提供的創新能力和一切美好之處，但要睜大眼睛，留意危險」。

兩全其美的方法？

有些公司希望追求開源碼帶來的低成本、透明度、隱私與控制等好處，但同時又希望有供應商能提供治理和長期支援。在傳統的開源世界裡，有很多供應商在扮演這樣的角色，例如 Red Hat、MariaDB、Docker、Automattic 等。

AArete 資料科學和分析副總裁 Priya Iragavarapu 說，「這些供應商為大型企業提供一定程度的安全與防護保障，這幾乎可說是降低風險的重要手段」。她表示，在生成式 AI 領域，這類供應商並不多，但情況正開始改變。

(本文授權非營利轉載，請註明出處：CIO Taiwan)

標籤: AI 模型 Llama 安全生成式AI 開源模型

開源生成式 AI 必須注意的 10 大重點

國科會創新館開幕展示手術機器人、人機協作機器人

【電力公司】 AES 尋求 AI 協助推動永續能源業務

相關文章

RAG 解決方案規劃與實作

政院拚半導體產值增 2.66 兆專家：配合美國國防

資訊長與財務長同心，合力打造 RevOps

【電力公司】 AES 尋求 AI 協助推動永續能源業務

追蹤我們的 Facebook

近期文章

📈 CIO點閱文章週排行

ROG Zephyrus G16神助攻！華碩電競筆電上半年稱霸

華碩Copilot+ PC新規上市中華電信獨家優惠最低0元

IFA矚目焦點輕靈美力ASUS Zenbook S 14開放預購

中華電信引領無人機智慧飛航管理

【專訪】數位發展部部長黃彥男

【專訪】Q Burger 饗樂餐飲創辦人暨董事長鄭瑞賓

Copilot 優化檢查報告流程

Lenovo登場IFA 2024於Lenovo Innovation World 2024揭示多款創新AI PC

華碩IFA發表多款搭載全新Intel處理器Copilot+ PC

精誠集團提供「生成式AI一條龍服務」導入政府、醫療、金融與製造產業

數位及平面

關注社群

合作夥伴

關於我們

CIO Taiwan 歡迎你回來！

歡迎註冊 CIO Taiwan 網站會員

找回密碼

7/28 活動延期通知

蔚藍雲推量化框架排定資安專案順序

善用 Citrix ZTNA 保護混合環境安全

AI應用發威 SAS 台灣持續成長

互動資通：協同平台需求大私有雲成首選

解決進入中國市場痛點摩速科技GMA效益佳

專訪趨勢科技首席技術策略長 David Chow

文章分類

熱門標籤

活動

影音

開源生成式 AI 必須注意的 10 大重點

免費的最好？

一、怪異的新授權條款

二、技能短缺

三、越獄

四、訓練資料的風險

五、暴露新的弱點

六、缺少護欄

七、缺乏標準

八、缺乏透明度

九、血統問題

十、新的「地下 IT」

兩全其美的方法？

國科會創新館開幕 展示手術機器人、人機協作機器人

【電力公司】 AES 尋求 AI 協助推動永續能源業務

相關文章

近期文章

📈 CIO點閱文章週排行

數位及平面

關注社群

合作夥伴

關於我們

CIO Taiwan 歡迎你回來！

歡迎註冊 CIO Taiwan 網站會員

找回密碼

7/28 活動延期通知

您已閒置超過 3 分鐘了，為您推薦其他文章！點擊空白處、ESC 鍵或關閉回到網頁

文章分類

熱門標籤

活動

影音

國科會創新館開幕展示手術機器人、人機協作機器人