免費的最好?
企業可以免費下載開源生成式 AI 模型,大規模使用也不會增加 API 呼叫成本,並且可在企業防火牆內安全地運行模型。但千萬不要放鬆警戒,風險依然存在,不僅有些風險變得更為嚴重,還有生成式 AI 特有的新風險浮現,成為新的挑戰。
文/Maria Korolov·譯/曾祥信
如今,似乎任何人都可以製作 AI 模型。即使你沒有訓練模型的資料或程式設計能力,依然可以採用你最喜歡的開放源碼模型,對其進行調整,然後以新的名稱發布。根據史丹佛大學 2024 年 4 月發布的 AI 指數報告,2023 年全世界共發布了 149 個基礎 AI 模型,其中三分之二來自開源碼專案,而且還有數量驚人的變形版本。
Hugging Face 公司目前光在文字生成領域追蹤的大型語言模型(LLM)就超過 8 萬個,所幸,他們提供一份排行榜,讓你能根據模型在不同基準上的積分,快速排序所有的模型。這些開源模型雖然比不上大型的商業模型,但它們正在迅速進步中。
安永美洲(EY Americas)生成式 AI 主管 David Guarrera 表示,在探索開源生式成 AI 時,排行榜是一個很好的起點,Hugging Face 做的基準排行尤其出色。「但是千萬不要低估這些開源模型的價值」,他說道,「因為它們是開放源碼,所以很容易取得、使用並替換」。他補充,開源模型與其封閉、商業模型替代方案之間的性能差距,正在縮小當中。
[ 熱門精選:如何安全地將公司資料送進生成式 AI? ]
「開放源碼太棒了」,Uber Freight 工程主管 Val Marchevsky 補充道,「我發現開放源碼極有價值。它們不只在效能方面迎頭趕上商業專有模型,而且有些模型提供封閉源碼所無法比擬的透明度」,他如此說道。「有些開源模型讓你可以看到什麼被用來訓練 AI 的推理能力、什麼沒有被使用。要防止 AI 帶給人類錯誤資訊,審查能力極為重要」。
當然,還有價格優勢。「如果你有資料中心且恰巧還有充裕的容量,何必要花錢請別人代勞呢?」,他說道。企業界已非常熟悉使用開放源碼。根據 Synopsys 在二月發表的開源安全與風險分析報告,所有商業程式碼庫當中,高達 96% 包含開源軟體元件。
基於所有這些經驗,企業應當清楚該做什麼以確保他們使用適當授權的程式碼、如何檢查軟體弱點,以及如何持續套用修補程式碼、將軟體維持在最新狀態。不過,在 AI 開源模型方面,其中一些規則和最佳實踐作法,存在著企業可能會忽略的特殊細微差異。以下是最重要的項目。
一、怪異的新授權條款
不同開源授權類型的情況本身就已夠複雜了,專案對於商業用途是否安全?還是僅適用於非商業應用?開放源碼可以修改並重新發布嗎?是否能夠安全地合併到專有程式碼庫之中?現在,隨著生成式 AI 的到來,原本複雜的情勢又出現新的難題。首先,有些新的授權類型,僅在定義非常含糊的情況下才算是開放源碼。
以 Llama 授權許可為例,Llama 系列模型是目前最好的大型語言模型之一,但 Meta 公司的官方說明對此模型的描述是,「客製化的商業授權,在模型的開放存取與責任和保護之間取得平衡,以助於解決潛在的濫用問題」。
企業可以在商業用途上使用這些模型,也可以讓開發人員在基本 Llama 模型上建立和發布額外的程式碼,但不允許他們利用 Llama 的輸出來改善其他大型語言模型,除非它們本身是 Llama 的衍生模型。如果企業或是其附屬機構的每月用戶人數超過 700 人,就必須向 Meta 公司申請授權,且不保證能取得授權。此外,如果企業用的是 Llama 3,必須在軟體顯著之處加上「Built with Llama 3」的字眼。
[ 熱門精選:得安全 AI 系統者 得天下 ]
同樣地,Apple 公司最近以「樣本程式碼授權(Apple Sample Code License)」公開了 OpenELM,該授權也是為相同理由而生,僅涵蓋授權許可,但不包括專利權。無論 Apple 還是 Meta,都沒有使用普遍接受的開放源碼授權,但是事實上,程式碼本身是開放源碼。
Apple 實際上不僅發布程式碼,還公開模型權重、訓練資料集、訓練日誌和訓練前的組態設定。這些狀況為我們帶來開源授權的另一個面向。傳統的開源軟體,就只是程式碼,開放源碼意謂著,你可以明確看到程式碼做了什麼事情,以及其中是否存在潛在問題或安全漏洞。
然而,生成式 AI 不只是程式碼,它還包括訓練資料、模型權重與細部微調。所有這些項目,對於了解模型的運作原理及辨識出潛在的偏差來說,都極為重要。舉例來說,如果模型是根據地平說陰謀論的資料檔案訓練而成的,將無法正確回答科學問題,或者由北韓駭客調整過的模型,可能就無法正確地辨識出惡意軟體。問題來了,開源的大型語言模型會公開這些資訊嗎?答案是取決於模型,或甚至取決於某個模型的特定版本,因為這件事情沒有標準可言。
卡內基美隆大學人工智慧教授、PwC 前人工智慧主管 Anand Rao 表示:「有時候生成式 AI 模型開發者會提供程式碼,但若沒有進行微調,你可能得花費大量資金,才能讓模型發揮有競爭力的效能」。
二、技能短缺
開放源碼通常需要親力親為。企業可以下載原始碼,但接著他們需要企業內部專業技術或聘請顧問,才能使一切順利運作。這是生成式 AI 領域的一大問題,沒有任何人擁有多年經驗,因為這項技術太新了。Rao 表示,如果公司剛開始運用生成式 AI,或者想要快速發展,那麼從專有平台開始,是比較可靠的作法。
「下載開源版本需要專業知識」,他說道,一旦公司完成了概念驗證,將模型部署到生產線上,帳單開始累積時,可能就是時候該考慮開源碼的替代方案。缺乏產業專業知識,也為開源生成式 AI 領域帶來另一個問題。開放源碼的主要優勢之一是,有很多人可以看到程式碼,一起找出程式碼中的錯誤、安全漏洞與其他弱點。但是這種解決開源安全問題的「千眼」方法,只有在眾人有能力理解他們所見到程式碼的前提下才管用。
三、越獄
眾所周知,大型語言模型很容易受到越獄(jailbreaking)的影響,即使用者給出巧妙的提示,誘導它違反其指導原則,例如產生惡意軟體(malware)。對於商業專案,企業背後有主動積極的供應商,可以辨識出這些漏洞,並在它們出現時及時填補漏洞。此外,供應商可以存取用戶發送到模型公用版本的提示,以利他們監控可疑活動的跡象。
惡意行為者不太可能購買運行在私有環境中的企業版本產品,在私有環境裡,用戶提示不會被分享給供應商用來改善模型。而在開源專案中,團隊中很可能沒有任何人的職責是負責尋找越獄跡象。惡意使用者可以免費下載這些模型,在他們自己的環境裡執行模型,以測試可能的駭客行為。壞人還能在越獄上取得先機,因為他們可以看到模型使用的系統提示,以及模型開發人員建立的任何其他護欄。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球 CIO 同步獲取精華見解 ]
Rao 說:「這不僅是試誤法(trail and error)」。例如,駭客可以分析訓練資料,找出讓模型錯誤辨識影像的方法,或是在遇到看起來無害的提示時產生失控行為。如果 AI 模型在其輸出加上浮水印,惡意行為者可能會分析程式碼,對程式流程進行逆向工程(reverse-engineering),以去除浮水印。攻擊者還能透過分析模型本身或支援模型的程式碼與工具,來找到安全弱點區域。
全球數位轉型顧問公司 Nortal 的資深資料科學家 Elena Sügis 表示,「你可以透過請求來癱瘓基礎設施,即使這些請求不會造成模型不堪負荷。當模型是更大系統的一部份,而且其輸出被系統的另一部份使用時,如果我們可以攻擊模型產生其輸出的方式,就會破壞整個系統,這對企業來說是一大風險」。
四、訓練資料的風險
世界各地的藝術家、作家和各類版權所有者,正在起訴大型 AI 公司。但是,如果他們認為自己的智慧財產權受到開源模型的侵犯,而唯一財力雄厚的公司,是那些已將開源模型融入其產品或服務的企業,他們該怎麼辦?企業用戶會被起訴嗎?
「這是一個潛在的問題,目前沒有人真正知道一些懸而未決的訴訟會如何發展」,安永公司的 Guarrera 說道。一個可能的走向是,企業必須為訓練資料集付出補償。「大型科技公司更有能力在這方面投入資金,以度過版權問題可能帶來的風暴」。
[ 熱門精選:AI 的雙面刃與管理 ]
Sügis 表示,大型商業供應商不僅有錢購買訓練資料和打官司,他們也有錢可以用在品質優良的資料集。免費的公用資料集不但包含未經使用許可的受版權保護內容,同時也充斥不準確和帶有偏見的資訊、惡意軟體與其他降低模型輸出品質的各種內容。
「許多模型開發人員都在談論使用精選資料」,她說道。「這比你用整個網際網路來訓練模型還要昂貴得多」。
五、暴露新的弱點
Sügis 表示,由於生成式 AI 專案包含的不只是程式碼,因此也就暴露更多可能被攻擊的區域。大型語言模型在多個面向都有可能遭受惡意行為者的攻擊。駭客可以滲透到管理欠佳專案的開發團隊之中,在軟體本身加入惡意程式碼。此外,他們也可能汙染訓練資料、微調設定或模型權重。
「駭客可能會使用惡意程式碼樣本來重新訓練模型,從而入侵用戶基礎設施」,她說道。「或者是用假新聞和錯誤資訊來訓練模型」。另一種攻擊媒介是模型的系統提示(system prompt)。
[ 推薦文章 :從「零信任」到「雙零安全」 ]
「系統提示通常被隱藏起來不讓用戶看到」,她補充道。「系統提示可能具有護欄或安全規則,讓模型有能力辨別有害或不道德的行為」。她說,專有模型不會揭露其系統提示,有辦法存取系統提示就會讓駭客有機可乘,找出攻擊模型的方法。
六、缺少護欄
Nortal 公司的 Sügis 表示,某些開源團體可能以哲學觀點,反對在他們的 AI 模型上設置護欄,或是認為在沒有任何限制的情況下,模型能夠表現得更好。甚至有些模型是專門為了惡意用途而創造的。
想要嘗試大型語言模型的企業,未必知道他們找的模型屬於哪種類別。目前還沒有獨立機構專門評估開源生成式 AI 模型的安全性。歐洲的 《人工智慧法案》將要求提供這類的文件,但其大部份條款要到 2026 年才會生效。她說:「我會設法取得所有可能的文件、測試與評估模型,並在公司內部實現一定的護欄措施」。
七、缺乏標準
用戶驅動的開源專案通常會基於標準來開發,因為企業用戶偏好擁有標準和系統之間的互通性。事實上,根據 Linux 基金會去年公佈的一份針對近 500 名科技專業人士所做的調查顯示,71% 的人較喜好開放標準,只有 10% 的人偏好封閉標準。另一方面,專門生產專用軟體的公司則寧可讓客戶陷入他們的生態系統。但是,如果你期望開源生成式 AI 專案全都基於標準,你可就錯了。
事實上,當人們在談論 AI 標準時,他們談的大多是道德、隱私與可解釋性等問題。這項領域的工作確實正在進展,例如去年 12 月發布的人工智慧管理系統 ISO/IEC 42001 標準。此外,美國國家標準暨技術研究院(NIST)在 4 月 29 日發布的人工智慧計畫草案,涵蓋許多面向,首先是建立討論 AI 時的共同語言。這項草案也相當關注風險和治理問題,但仍未觸及太多與技術標準相關的內容。
[ 推薦文章 :從「零信任」到「雙零安全」 ]
雲端原生運算基金會(Cloud Native Computing Foundation)資訊長兼生態系統負責人 Taylor Dolezal 表示:「 AI 標準是一個令人難以置信的未成熟領域。我看到一些很不錯的對話,話題關於資料分類,以及為訓練資料、程式應用介面、系統提示制訂標準格式。但到目前為止,這些都還只是討論階段」。
他說,我們已經有向量資料庫(vector database)的通用資料標準,卻還沒有標準的查詢語言,更不用說,我們也沒有自主代理人(autonomous agent)的標準。「我還沒看到這些標準,但我非常樂於見到」,他說。「我們必須找出方法,不只是讓自主代理人能夠執行特定的任務,還要讓它們能夠結合起來運作」。
他表示,創造自主代理人最常用的工具 LangChain,比較像是一個框架而非標準。而用戶企業,也就是致使我們需要標準的公司企業,則尚未作好準備。他說,「大部份終端用戶在開始嘗試 AI 技術以前,都不知道自己想要的是什麼」。
他進一步表示,人們反而更可能將 OpenAI 等主要供應商提供的 API 與介面,視為初期的實際標準,「這就是我看到人們正在做的事情」。
八、缺乏透明度
就本質而言,你可能認為開源模型會比較開放、透明,但事實並非總是如此。Vero AI 是提供分析引擎與記分版平台的公司,其執行長 Eric Sydell 表示,大型商業專案也許擁有更多資源可用在創造文件。該公司近期公布一份報告,根據可見度、完整性、法規準備程度與透明度等項目,計算主流生成式 AI 模型的分數,Google 的 Gemini 與 OpenAI 的 GPT-4 獲得最高的記分排名。
「單純因為開放源碼,並不一定代表它們會提供與傳統開源專案相同的透明資訊,你可能無法得知模型的背景及其開發方式」,Sydell 說道。「目前,大型商業模型在這方面做得比較好」。以偏見為例。「我們發現,排名前兩名的封閉模型都有非常多的文件,投入大量時間探索 AI 的偏見問題」,他說。
九、血統問題
網路安全供應商 Sonatype 產品資深副總裁 Tyler Warden 表示,在開源專案領域,分支(fork)是很常見的作法,但在面對生成式 AI 時,你會遭遇傳統軟體所沒有的風險。舉例來說,某個基礎模型使用了有問題的訓練資料集來訓練模型,今天有人根據此模型建立分支,創造出一個新模型,那麼新模型就會繼承相同的問題。
[ 推薦文章 :深偽即將與你糾纏不清 ]
他說,「模型的權重與調整裡面有太多黑盒子的內容」。事實上,這類問題可能會回溯到好幾層分支,在最終模型的程式碼中根本無法看到問題。當一間公司下載開源模型來自行使用時,源頭甚至無法追蹤此分支的模型。也就是說,最原本的基礎模型可能修正了問題,但取決於透明度與分支家族的溝通程度,最終模型的開發人員甚至很可能沒有意識到問題已被修正。
十、新的「地下 IT」
在軟體開發環節中使用開源軟體元件的企業,通常具有適當的流程,用來審查軟體函式庫並確保軟體元件處於最新狀態。他們能確保專案擁有充份支援、安全問題獲得解決,且軟體具有適當的許可條款。
然而,在生成式 AI 專案裡,負責審查的人可能不知道該檢查什麼項目。更糟的是,有時候生成式 AI 專案根本不在標準軟體開發流程之中,它們可能來自資料科學團隊或臭鼬工廠(skunkworks)。開發人員可能只是下載模型來玩玩看,卻無意間讓模型獲得公司廣泛使用。或是企業用戶照著線上教學,自行設定生成式 AI,完全繞過 IT。
生成式 AI 最新的發展 – 自主代理人(autonomous agent),有潛力將巨大的力量交到這些 AI 系統手上,將這種「地下 IT」的潛在風險提升到全新高度。Corelight 公司開源資深總監 Kelley Misata 表示,「如果你打算試驗某個模型,請建立一個容器(container),以對組織安全無虞的方式進行試驗」。
她認為,這種問題應屬於公司風險管理團隊的責任,而負責確保開發人員與公司整體都清楚了解這項流程的人,就是資訊長。「資訊長是最有能力塑造文化的人」,她說道。「讓我們充份運用開源碼提供的創新能力和一切美好之處,但要睜大眼睛,留意危險」。
兩全其美的方法?
有些公司希望追求開源碼帶來的低成本、透明度、隱私與控制等好處,但同時又希望有供應商能提供治理和長期支援。在傳統的開源世界裡,有很多供應商在扮演這樣的角色,例如 Red Hat、MariaDB、Docker、Automattic 等。
AArete 資料科學和分析副總裁 Priya Iragavarapu 說,「這些供應商為大型企業提供一定程度的安全與防護保障,這幾乎可說是降低風險的重要手段」。她表示,在生成式 AI 領域,這類供應商並不多,但情況正開始改變。
(本文授權非營利轉載,請註明出處:CIO Taiwan)