文/洪為璽
隨著人工智慧(AI)相關技術的迅速發展,企業不得不在在各行各業中廣泛應用它,特別是機器學習(Machine Learning, ML)、大型語言模型(Large Language Model, LLM)和生成式 AI(Generative AI),正在改變企業的經營方式。
人工智慧對資料的需求
機器學習(Machine Learning, ML)主要研究如何讓電腦系統能夠從資料中學習並作出決策,而無需明確地編程指令。機器學習的核心是算法和統計模型,它們可以分析和學習大量的資料,以識別模式並進行預測。這些技術在各種應用中廣泛使用,如圖像識別、語音識別、推薦系統、金融風險管理等。根據學習方式的不同,機器學習可以分為監督式學習、非監督式學習和強化式學習等類型。
大型語言模型(Large Language Model, LLM)大型語言模型是一類基於深度學習的自然語言處理模型,它們通過訓練大量文本數據來理解和生成自然語言。這些模型通常具有數十億甚至數千億個參數,能夠處理語言理解、語言生成、翻譯、摘要等複雜任務。OpenAI 開發的 GPT 系列(如 GPT-3 和 GPT-4)就是典型的大型語言模型。
[推薦文章:【專訪】數位發展部部長黃彥男 ]
生成式 AI(Generative AI)是一類能夠創造新內容的人工智慧技術,生成包括文本、圖像、音樂、視頻等資料。生成式 AI 利用訓練資料的技術來學習資料的分佈,從而能夠生成與訓練數據類似的全新資料。生成式 AI 的應用非常廣泛,從藝術創作、遊戲設計到自動文本生成、虛擬助手等領域,人工智慧(AI)技術的迅速發展已經在企業中取得了廣泛的應用。隨著AI技術的普及,企業能夠利用大數據分析、機器學習和自動化技術,快速獲取市場洞察,實現更精準的決策。
AI 雖具有巨大利益,然而,也相對伴隨著巨大的潛在風險,近期最受到關注的隱患則是資料隱私。現今很多公司依賴著生成式 AI,生成式 AI 需要蒐集與處理大量資料,才能回應使用者的問題。要使生成式人工智慧可以學習並提供更好的回應,需要向 AI 系統提供資料與數據,讓生成式 AI 可以學習。
然而,當 AI 提示要你提供更進一步的資料時,你就有可能將隱私或敏感資訊,上傳至生成式 AI 的資料庫當中,因而導致資料外洩或是遺失智慧財產權,這些對於以研發為核心的企業至為重要,例如:台積電、NVIDIA。因此,如何在利用 AI 技術的同時,有效應對這些資料隱私的風險,成為企業必須面對的重要議題。
資料隱私風險對企業的影響
一般人對於資料隱私風險可能較為陌生,不過,AI 所帶來的「資料隱私」風險與我們的日常息息相關。在醫療、金融等各領域大量使用 AI 的過程中,勢必會讓 AI 處理到許多重要甚至敏感的資訊,尤其像是 ChatGPT 等普及又熱門的生成式 AI,就很容易讓人一不小心就洩漏重要資訊,並儲存至資料庫。資料隱私風險對企業的影響是深遠的,資料隱私風險對企業的影響有以下幾個方面。
第一,品牌形象受損:資料洩露會對企業的品牌形象造成嚴重損害。消費者越來越關注他們的個人資料如何被蒐集、存儲和使用。如果企業無法妥善保護這些資料,將會導致消費者的不信任,進而損害企業聲譽。品牌形象的損害不僅會影響到現有客戶的忠誠度,還會影響到潛在客戶的購買決策。例如日本 SONY 公司的 PlayStation Network 遭到駭客入侵,導致一億多筆用戶個人資料被盜取,包括姓名、地址、電子郵件和信用卡資訊。這次事件對 SONY 的品牌信譽和市場信任度造成了重大打擊。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球 CIO 同步獲取精華見解 ]
第二,經濟損失:除了資料洩露事件可能導致客戶流失,進而影響企業的銷售收入外,處理資料洩露事件需要企業投入大量資源,包括調查事件、通知受影響的客戶、提供補救措施(如信用監控服務)等,這些都會帶來額外的財務負擔。
第三,市場競爭力下降:企業投入大量資源進行研發,以保持技術領先。然而,當這些成果被有心人士竊取甚至被競爭對手利用時,企業的創新力會被削弱,導致市場競爭力下降。例如:去年韓國三星電子允許員工在工作中使用 ChatGPT,以提高工作效率和解決技術問題。然而,在實施不到 20 天後,便爆出了機密資料洩露的重大意外。據報導,三星員工在使用 ChatGPT 時,將半導體設備的測量數據、產品良率等敏感信息輸入系統,這些資料因此被存儲在 ChatGPT 的數據庫中,使公司的機密資料被公開。
企業應對資料隱私風險的策略
為了有效應對資料隱私風險,企業必須採取全面的資料安全策略。特別是針對AI 技術中的資料外洩(Data Leakage)、模型竊取及 AI 幻覺等(Hallucination)潛在風險。
首先,保護機密資料,當模型在生成輸出結果時,無意中包含了不應該被公開或未經授權的機密資料時,就可能發生資料外洩。這不僅可能導致輸出結果的不正確,還會引發機密資料的非授權存取,進而使企業違反隱私權規定、損失商業機密與智慧財產權。企業需要建立嚴謹的資料治理政策、存取控制與監控系統、定期評估風險,並且透過教育訓練讓員工或使用者明建立相關資安意識,讓他們了解哪些資料可以與不可以和AI共享,以確保資料的安全性。
第二,保護模型設計,AI 模型的竊取是一個重大風險,因為這些模型通常包含企業的機密資料與重要資產,攻擊者可能通過簡單的檔案複製或進階的查詢攻擊來竊取模型。為防止模型竊取,除了可以使用資料加密外,企業可以使用模型混淆與模型水印技術。
模型混淆是透過添加雜訊、隨機化或壓縮等手段來混淆模型的輸出結果,降低逆向工程的可行性,這種方法可以增加攻擊者逆向工程的難度和成本,並提高模型的安全性。模型水印技術則是模型訓練過程中嵌入不可見的水印訊號,以便在模型被盜用時追蹤其來源,這種方法可以幫助我們追回被盜用的模型。
[推薦文章:金融產業資安解析 ]
第三,防範資料下毒,除了模型竊取以外,資料下毒是另一種常見的攻擊形式,指的是攻擊者通過操控模型的訓練資料來影響輸出結果。有研究指出攻擊者僅需控制 0.01% 的模型資料集就足以下毒,這表示若沒有防護措施,攻擊者非常容易就能改變 AI 認知與輸出結果,此外透過對抗式訓練也能增強模型的韌性以應對資料下毒攻擊。
資料下毒的主要問題在於它不容易修復,為防止資料下毒,企業應仔細審查資料來源、實施嚴格的資料控制措施,並持續監控匯入的資料。例如,Google 釋出 TensorFlow Privacy 工具,Google 在 TensorFlow 中嵌入了差別隱私技術,主要功能是在訓練模型時,可以保護隱私資料的機器學習演算法,作法是自動過濾與演算法資訊無關的內容。
第四,避免 AI 幻覺,AI 幻覺是指 AI 模型生成的內容或結果是不正確、荒謬、或虛構的,甚至讓 AI 聊天機器人做出規範以外的行為,例如洩露個資或企業智財等等。這些生成的內容可能看似合理,但實際上毫無邏輯。
AI 幻覺與資料下毒的差別在於,AI 幻覺通常是由於模型本身的設計或訓練問題導致的虛假或錯誤輸出,可能由於訓練資料不足或質量不高、模型設計不良等。資料下毒則是由於惡意攻擊者故意引入有害訓練數據,從而導致模型產生偏差或有害的結果。
為避免 AI 幻覺,企業需要從可信賴的來源獲取訓練資料,提高訓練資料質量。此外,應適當結合人力監察,消除模型生成過程中的偏見,確保生成內容的準確性與可靠性。例如:微軟開發出能防止提示注入與偵測幻覺的 Azure AI 工具,微軟開發的工具能偵測文字結果的真實性,可防範 AI 模型幻覺問題。另外,微軟也即將在 Azure AI Studio 及 Azure OpenAI Service 加入安全的系統訊息範本,讓 AI 應用開發人員能建立安全的系統訊息,使訓練模型時,導引模型使用訓練資料及正確的行為。
結論
隨著生成式 AI 的爆發,企業紛紛將自家的機密資料投入訓練 AI 模型。根據市調機構麥肯錫的估計,生成式 AI 每年可能為全球經濟增加多達 4.4 兆美元的價值。因此全球各地的企業都在積極將生成式 AI 整合到自己的業務中,希望以此加速業務發展並提高效率。生成式 AI 將能夠為金融服務、醫療保健、製造等領域的成千上萬客戶提供其所需的運算和服務。
然而,隨著技術的發展,資料隱私攻擊的手法也愈來愈多,如何預防不同的攻擊與風險將成為企業可持續發展的重要課題。無論是防範資料外洩、保護模型設計、避免資料下毒,還是應對 AI 幻覺,都需要建立嚴謹的資料治理政策、存取控制與監控系統及定期評估風險,並且開發或使用工具來保護公司使用的 AI 模型,以確保在利用 AI 帶來的創新和效率提升的同時,仍能夠有效保護客戶和自身的數據安全。
總結來說,未來運用大量的資料在 AI 應用上是不可避免的,而且會越來越普及化,資料隱私風險會變得愈加重要,尤其是越來越多的人員會接觸到 AI 資料的使用,若是沒有適當的安全意識教育訓練,將會造成更多的隱私與機密外洩的漏洞。所以,企業在享受 AI 帶來的效率提升和創新動力時,只有通過嚴謹的資料治理、先進的技術防護和持續的監控,企業才能穩步前進,確保其數據資產的安全性與完整性,並在市場競爭中立於不敗之地。
(本文授權非營利轉載,請註明出處:CIO Taiwan)