現行的雲端安全做法、平台,以及工具,在保護組織避免因使用大型語言模型(LLM)而產生的威脅上,能發揮的作用可能十分有限。
文/Evan Schuman·譯/Frances
大型語言模型在企業環境大規模應用,已經成為 CISO 新一輪的頭痛來源。大型語言模型本身就存在資安風險,尤其是資料外洩的問題;另一方面,雲端平台也會有資安漏洞,而供應商經常在未告知客戶的情況下就進行更新。當大型語言模型和雲端平台的資安這兩個大問題碰在一起,只會帶來更嚴重的後果。
多雲 LLM 與地下 LLM 更增風險
最大的問題是當企業在一個或多個雲端環境上託管迭代的 LLM 時。無論 CISO 和 CIO 怎麼做,他們都會面臨 LLM 雲端風險。不論是在雲端或在本地託管 LLM,對在威脅程度差別方面可能影響不大。
因為安全性仍然主要取決於 LLM 系統本身的技術設計,企業在評估和規劃 LLM 部署時,不需要過於擔心雲端部署會帶來額外安全隱患,因為就算是採用本地部署,威脅也不會比較小。重點是要確保 LLM 系統本身安全可靠。
即使企業本地託管端點,並由供應商負責模型訓練,此時 LLM 的另一端幾乎肯定會在雲端。簡而言之,無論 CISO 如何決定,LLM 都將廣泛暴露於雲端。
目前我們都集中關注在擁有授權的 LLM 版本,但就算企業有政策和規定,shadow IT 的情境絕對也會延伸到 LLM。員工和部門主管將隨時都可以使用公開模型,包括 ChatGPT 和 Bing Chat/Co-Pilot。然後他們會用這些公開模型來生成圖片、進行分析、撰寫報告與程式,甚至做出業務決策,例如「我們的下一間商店目前有 128 個可能的選擇,投資哪一個將帶來最大效益?」
當員工和承辦人使用那些公開模型並進行資料分析時,會將公司內部資料餵給那些模型。那些公開模型會從這些資料學習,並可能洩漏商業機密給提出相似問題的競爭對手。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球 CIO 同步獲取精華見解 ]
「要降低 LLM 未經授權使用的風險,特別是有意/無意輸入專用、機密或重要非公開資料到大型語言模型中是很困難的」,BigID 網路安全策略師 George Chedzhemov 說。這方面雲端安全平台可以提供幫助,尤其是在存取控制和使用者驗證、敏感資料加密、資料外洩防護,以及網路安全等方面,更有其他工具可以協助進行資料盤點(data discovery),從結構化、非結構化和半結構資料庫中找出敏感資訊。
組織如果已經搞丟了資料,或者已經給出了逾越的權限,或者甚至連資料存在都沒意識到,那麼更別說想保護這些資料了。所以,任何資料風險補救策略的第一步,包括要降低 AI/LLM 風險的策略,都應該是資料盤點。Chedzhemov 如此說道。
安永(EY)網路安全與資料隱私董事總經理 Brian Levine 指出,最終使用者(無論是員工、承辦人還是擁有特權的第三方)使用地下大型語言模型(shadow LLM)對資訊安全造成了巨大的問題,也很難管制。
他說:「如果員工使用公司的設備,現有的工具可以偵測員工瀏覽未經授權的 LLM 網站或應用程式,甚至可以封鎖這些網站。但是如果員工在自己的設備上使用未經授權的 AI,公司會面臨更大的挑戰,因為目前很難有效地區分由 AI 生成的內容和由使用者生成的內容。」
目前為止,假設企業沒有部署自己研發的 LLM,將依賴授權使用 LLM 所內建的安全控制。Levine 說:「重要的是企業要對 AI 技術供應商和產品進行適當的第三方風險管理。隨著 AI 面臨的威脅不斷擴增,補救的方法也會不停發展。目前,大部分的補救措施必須存在於 AI/LLM 演算法本身,或者依賴使用者和企業政策來偵測威脅。」
安全測試和決策必須加入 AI 的考量
理想的情況是,資安團隊需要確保將 AI 意識融入每一個資安決策中,尤其是在考慮現今的零信任環境。Chedzhemov 說:「傳統的 EDR 端點偵測回應、XDR 跨端點偵測回應和 MDR 受管理偵測回應工具,主要是為了偵測和回應傳統 IT 基礎設施和終端的安全威脅而設計的。」這使得它們無法適當處理雲端或本地部署的 AI 應用程式(就像 LLM 大型語言模型)所帶來的安全挑戰。
[ 推薦文章:AI 角力 智慧的較量]
「現在,安全測試必須著重在 AI 特定的漏洞,確保資料安全,以及資料保護合規,」Chedzhemov 補充說明。「舉例來說,對於提示劫持(prompt hijacking)、有意破壞 AI 系統目標和人類價值觀的一致性(intentional breaking of alignment),以及資料外洩等存在額外的風險和疑慮。為了解決偏差或偏見,有必要不斷重新評估調整 AI 模型。」
Chedzhemov 建議安全開發流程應在整個開發生命週期中嵌入 AI 安全考慮因素,以促進 AI 開發人員和安全團隊之間更密切合作。 「風險評估應該考慮到與 AI 相關的獨特挑戰,例如資料外洩和有偏誤的輸出,」他說。
匆促整合 LLM 到雲端 導致成為攻擊者目標
Prompt Security 的執行長 Itamar Golan 指出,現今企業求快的心態是一大關鍵隱憂。許多開發這些模型的公司,都因求快而省略了許多安全驗證步驟,讓工程師和資料科學家得以不受限制地建構他們的 AI 應用程式。
Golan 說:「這種求快的心態,讓安全驗證被擺到一旁,只為儘速交付令人印象深刻的功能。我們看到越來越多 AI 語言模型被整合到公司內部的雲端服務,像是資料庫、運算資源等。」
[ 推薦文章:為何高階主管應永遠遵守網路安全政策?]
「令人擔憂之處在於這些整合,通常沒有完整的權限設定或配置不當,直接從外界能接觸的聊天介面造成雲端環境核心資料的攻擊向量。簡單來說,我們認為幾個月內就會看到透過 GenAI 介面執行的重大攻擊,導致帳戶被盜取、資料被非法取得等等。由於自然語言的非結構化特性,以及 GenAI 應用程式周圍的新架構和體系結構,我們必須說–目前的安全技術將不足以防範這種提示注入攻擊。」
LLM 將成為靶心
還有一個人工智慧 LLM 的恐懼是,這些系統將成為攻擊者極為誘人的目標。GreyNoise Intelligence 公司的資料科學副總裁 Bob Rudis 認為,這些攻擊成功的機率很高。
「無論是內部部署的,還是雲端提供的 GPU/AI 運算節點,都將成為攻擊者的首要目標,他們會利用這些資源來進行非法挖礦,就像過去攻擊者利用大型 CPU 和高階端點 GPU 來挖掘加密貨幣一樣。攻擊者會很樂意使用你沒有妥善保護的基礎設施來訓練和運行他們的模型。此外,他們也可能會利用這些基礎設施,從內部的電子郵件、SharePoint 和檔案伺服器中挖掘數據,用於進階的魚叉式網路釣魚攻擊。」
「攻擊者也會很快發現哪些 GPU/AI 運算系統是組織依賴的關鍵商務功能,並找出方法使其癱瘓,以進行敲詐或勒索軟體攻擊。而且,他們的攻擊方式可能不會是傳統的完全癱瘓,因為可以透過多種方式降低這些環境的運算能力而不必完全關閉它們。」
Semperis 的首席科學家 Igor Baikalov 則有其他的觀點。他認為企業裡任何形式的敏感智慧財產權都必須加以保護。當然更要包括生成式 AI 在內的語言模型,因為它只是「容易產生幻覺的愚蠢轉換器(Transformer)」。如果模型洩漏敏感資料,那麼就應該要保護它訓練所用的敏感資料,當然,也要像任何 SaaS 服務一樣,確保連接這個應用程式本身的安全。他說:「不管部署在內部機房、晶片上或雲端,都適用相同的安全原則。」
(本文授權非營利轉載,請註明出處:CIO Taiwan)