第十七屆CIO價值學院 第四堂課數位轉型與AI創新 會後報導
生成式 AI 強大威力正改變 AI 技術發展趨勢,其具備自動生成多層次特徵,並適應各種場景需求,已在在圖像、語音識別中等展現非常優異成績。可預期 GPT-5 模型的推理能力和多模式能力, 將徹底改變人類與 AI 互動的方式。
文/林裕洋
早在1950年代科學家即投入 AI 發展,只是早期受限於電腦運算能力有限,AI 發展並沒有太大進展。直到2016年,在高速電腦運算能力與 GPU 等加持下,Google 推出 AlphaGo 系統,並連續多次擊敗世界頂尖圍棋棋手之後,正式開啟全球 AI 蓬勃發展時代,也催生出智慧交通、智慧醫療等創新應用服務。
早期傳統模式識別方法依賴於人工設計的特徵進行分類,不僅有成本高昂、難以應對複雜場景變化等挑戰。現今在生成式 AI 技術不斷演進,正推動各行業的應用范愁予創新,在從圖像生成、文本生成,到多模態資料處理等領域,已展現出強大適應能力和發展潛力。
美國紐澤西理工大學教授施永強指出,2022年底 OpenAI 推出 ChatGPT 服務,讓人見識到生成式 AI 的強大威力,也自此改變 AI 技術發展趨勢。隨著自動化特徵工程進化、AutoML 技術成熟,生成式 AI 能夠在不依賴手工設計特徵的情況下自動生成多層次特徵,並適應各種場景需求,GPT-4、LLaMA 系列等生成式 AI 模型,不僅在語言生成方面有非常驚人表現,還能通過多層次特徵學習,在圖像、語音識別中等展現非常優異成績。可預期 GPT-5 模型推理能力和多模式能力,將徹底改變人類與人工智慧互動的方式。
生成式 AI 助攻 圖像標註大幅進步
圖像解析是種為特定圖像生成自然語言描述技術,在人機互動、圖像檢索、視覺輔助等方面具有廣泛應用價值,當 AI 應用於圖像解析時,可展現出絕佳的效益。其中視覺特徵提取,是提取圖像中的區域特徵、網格特徵、上下文特徵等,至於上、下文注意力機制,則是 捕捉目標特徵和上下文特徵之間的互動關係。目前圖像解析常用評估指標,有 BLEU、METEOR、ROUGE、CIDEr、SPICE 等傳統指標,以及 BERTScore、CLIP-S、RefCLIP-S、PAC-S、RefPAC-S 等新興指標。。
目前生成式 AI 已被廣泛應用於圖像標註,在 CLIP、BLIP 等 VLM(Vision Language Models,視覺語言模型)技術協助,讓 AI 系統能自動生成與圖像內容匹配的語意描述,可大幅減少人力負擔。此類技術應用在電子商務和媒體等應用情境中,系統能自動標註商品或內容的特徵,提升圖像檢索和數據處理效率。
施永強說,若圖像描述技術應用於醫學影像分析,自然也能自動生成各種醫學影像報告,幫助醫生迅速解讀影像內容,為病患進行合適的診斷和治療。我們開發一套基於深度學習的醫學圖像描述系統,並在 MedTrinity-25M 資料集上進行實驗,也展現了令人非常滿意的成果。
在施永強教授推動的 MedTrinity-25M 專案中,生成式 AI 可為醫療影像生成標準化的醫學描述,並將專業術語轉換為病人易於理解的語言。這項技術發展不僅提升診療過程中的溝通效率,也幫助患者可更全面地理解自身病情。如此ㄌ一來,醫療人員可透過易於理解的語言,更好地與患者溝通、縮短疑慮。
防止深度偽造 仰賴 Multi-attentional Framework
隨著生成式 AI 效益逐漸展現,犯罪組織也將其用於深度偽造之中,也帶來真假訊息辨識的需求。目前深度偽造檢測方法主要將問題,作為簡單的二元分類任務 (真與假) 來處理,由於真、假面孔之間差異非常小,並且發生在侷部區域,傳統 Preliminary Framework 不足以捕捉這些細微的差異。
為此,科學家發展出 Multi-attentional Framework,為細粒度圖像進行分類工作,為此圖像判別提供全新視角,有助於解決深度偽造偵測作為細粒度分類問題。Multi-attentional Framework 可對多個區域進行細緻的特徵分析,於多個臉部區域來捕捉局部判別特徵 ,尤其在識別面部、聲音偽造時顯現出較強效果,如針對媒體內容驗證能檢測圖片中細微的差異。根據大量測試顯示,Multi-attentional Framework 在 FaceForensics++、CelebDF 等資料集中取得優異表現,幫助提高圖像可信度。
「自主監督學習也是生成式 AI 預訓練的重要環節,主打能在缺乏標記數據的情況下學習各種特徵。」施永強解釋:「自監督學習的應用尤其適合醫療、金融等敏感數據場景,通過學習未標記數據中的特徵模式,生成式 AI 可在低資源情境中,取得高效的學習效果。隨著資料隱私的重要性提升,自監督學習將在資料密集型行業中,獲得更廣泛應用。」
目前生成式 AI 在視覺識別領域正透過對比學習與增強技術提高準確率,主打能針對同一圖像的不同增強版本,進行深入對比與學習,對於物體分類、檢測等應用特別有效。例如,在自動駕駛的目標識別中,通過自動對比學習可大幅增強 AI 對於快速移動物體的辨識能力,確保車主與用路人的安全。
借鏡以色列 全力發展 AI
AI 快速發展不光在醫療影像診斷、教育訓練、虛擬場景生成等多場景創造出價值,也帶來全新戰爭概念。現代戰爭早已不是在物理空間中進行,而是在網路上進行,如透過網路攻擊使敵方衛星雷達癱瘓,乃至於干擾 GPS、關閉 Internet 網路等,讓敵方失去協同合作的能力。美國軍方正嘗試開發 GameBreaker 的 AI 系統,輔助各級指揮官做決策。這套系統是利用電腦模擬戰爭遊戲,利用機器學習來訓練最佳的戰場決策能力,並提供各種情況下的最佳戰術,供各級指揮官選擇與參考。
施永強指出,以 AI 技術為核心的武器,涵蓋無人船、無人飛機、無人坦克、機器人、自動化武器等,能依照預先輸入的指令,自動判斷與尋找合適攻擊目標。以色列是全球最積極積極投入 AI 研發的國家之一,根據 Oxford Insights 調研機構公布的2021年政府 AI 整備度指數報告,在160個國家中排名第 20 名。以色列 AI 產業發展作法可分為個三個主要方面,分別是發展 AI 必須的基礎設施、完善建立 AI 基礎設施的最佳環境、打造跨領域可持續的生態系統。台灣可以學習以色列的發展模式,同透過雙方之間的幾樓
施永強也積極參與台灣人工智慧協會(Taiwan Artificial Intelligence Association),期盼透過與海外國家交流,推動人工智慧產業化、擴大產業之人工智慧應用,在促進產業 AI 化之外,同時致力於推動 AI 產業化之目標。
(本文授權非營利轉載,請註明出處:CIO Taiwan)