AI 融入營運 創造資料新商機
企業內部推動的前導式 AI,將逐漸走向營運化 AI。然 AI 專案能否成功落地的重點,應該是從部署移至協作管理、從開發到流程自動化,才能打造出高效模型生命週期。
採訪/施鑫澤‧文/林裕洋
在 AI 技術蓬勃發展下,不僅催生眾多智慧服務,也改變資料分析模式,催生驚人的資料商機。在「AI 經濟的策略思維」一書中提到,企業應該善用人工智慧的預測威力,進而做出最佳商業決策,即是將公司內部大量資料透過分析,轉變成智慧資訊,並透過行動及決策才能創造價值。根據 Gartner 公布的 2021 年研究報告指出,未來 3 年內 75% 的企業組織,將從試驗性的「前導式 AI」走向「營運化 AI」。然而經統計,現今企業辛苦產出的分析模型,卻有超過 50% 從未部署於營運環境。
此外,在 Gartner 公布的 2021 資料分析 10 大趨勢中,有 5 點值得注意,「Smarter, Responsible, Scalable AI- 運用較少量的資料執行分析、具擴充性、 可解釋與稽核」、「Composable Data and Analytics-整合性的資料與 AI 分析技術,運用容器化並整合開源技術,具備容易上手的特性」、「XOps-資料分析營運化 (DataOps、MLOps、ModelOps、PlatformOps)」、「Engineering Decision Intelligence-以分析為導向的自動化決策,提供更精準、 透明、可稽核的業務流程與決策」、「The Rise of the Augmented Consumer-制式報表及儀表板無法滿足使用者需求,必須具備自主性、自動化、互動式的分析工具以有效拓展企業分析運用」。
[ 2022年度CIO大調查報告下載 ]
SAS 台灣業務顧問部副總經理陳新銓說,AI 原本的意思是人工智慧,但是我們認為從廣義的角度來看,當人工智慧結合流程、自動化之後,也可被解釋為智慧自動化(Automated Intelligence)。我們認為 AI 成功落地的重點,應該是從部署移至協作管理、從開發到流程自動化,才能打造出高效模型生命週期。
業務變動頻繁 AI 模型落地不易
儘管 AI 技術已非常成熟,但是真正能夠運用 AI 創造價值的企業並不多。根據根據 Gartner 調查,受訪企業原本預期一年之內能完成 AI 計畫部署的比例約有 23% ,但一年後卻僅有 5% 真正完成部署。SAS 深入研究箇中問題後發現,關鍵在於 AI 專案初期從情境確認、資料分析,乃至於後續 AI 模型部署上線,企業內部都得花費大量的時間溝通。當 AI 模型上線後,往往又會因為應用情境需求改變,乃至於後續增加資料量日增,最終讓模型執行環境變得不符合需求,陷入必須重新修正的困境。
SAS 認為現今資料分析團隊的管理挑戰有三點,分別是需求管理、過程管理、知識管理等。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球CIO同步獲取精華見解 ]
在需求管理方面,主要在於業務需求變更頻繁,導致難以有效追蹤管理,以及掌握分析成果交付時間與品質掌握,造成業務單位的需求不被滿足。其次,在過程管理方面,有看不清的分析「黑箱」,無法充分了解分析的步驟、人工/手工作業過多 (分析結果難以驗證及確保正確性),分析結果錯誤時難以追溯原因、分析作業的管理則是沒有標準化作業及管理平台。至於知識管理方面,則是分析程式或產出難以重複使用或整合、分析經驗難以在團隊中分享與累積 、分析工作在團隊內部交接困難。
陳新銓指出,試想一下,若客戶有 10 個產品類別,想要針對 5 個客戶群、5 個接觸通路設計 AI 模型時,最終將會產生 250 個分析模型。當其中有一個資料改變,勢必會導致 AI 模型需要重新建立,在此狀況之下,資料團隊勢必會陷入無窮止盡的修正。因此,我們認為透過 ModelOps 流程對 AI 模型進行生命週期管理,這是基於 DevOps 的開發精神,將模型(Model) 和營運流程(Ops) 之間緊密連結,持續地驗證、部署、更新至營運層面,輔以應用 AutoML 提升建模速度及對模型持續監控與自動訓練,即可滿足企業打造 AI 模型的需求。
AutoML 問世 縮短建立 AI 模組時間
SAS 認為隨著 AutoML 問世,加上低程式碼開發平台技術進步,被討論多時的平民資料科學家時代即將到來。簡單來說,即是透過 AutoML 系統自動化建模,可節省了資料科學家的時間,讓不具資料科學背景的一般產業專家,也能自行建構符合應用情境的 AI 模型,讓企業享受到 AI 技術的效益。
一般來說,機器學習建立 AI 模型流程,可分成從最初資料取得、資料前處理(資料清理、特徵工程)、模型最佳化(參數最佳化及結構最佳化)、到實際應用(進行預測與模型解釋)等四大步驟。在此流程中,往往讓讓資料科學家們耗費最多時間、精力的部分,便是資料前處理與模型最佳化。
根據富比士研究報告指出,在資料分析過程中,資料科學家往往得花費約 80% 時間,在進行資料的處理和清理上。因為只有乾淨、良好的資料,才能用於機器學習之中,進而確保建造的 AI 模型,預測出有價值的資訊,也凸顯出資料前處理步驟非常重要。正因如此,當企業在推動 AI 專案時,往往會花費相當多資源取得訓練用的資料上。
「過往若有資料不夠乾淨或是有差距極大的狀況,資料科學家們只能自行觀察,不是得預先剔除異常數字,就是得透過校正與轉換的流程,確保資料的可用性與一致性。只是這些繁瑣工作,往往得花上許多時間才能完成,尤其當資料量越大時,後續花費時間就越長。」陳新銓解釋:「所幸藉由 AutoML 中的 Auto Clean、 Auto Feature Engineering 等功能,就可快速診斷出每個特徵變數的問題。且系統也會提出最佳建議的清理、轉換方式,自然有助於讓資料品質一致化,加快機器學習建立 AI 模型的時間。」
培育產學專家 轉型資料工程師
由於 AutoML 讓建置 AI 模型變得快速、容易上手,成為推動企業 AI 應用發展的一大助力。在傳統由資料科學家進行建模時,很容易出現人為誤差或偏頗等問題,因為不同資料科學家對方法論的理解不同,當反覆進行錯誤嘗試時,很容易因為主觀意識導致 AI 建模的方向混亂。而改用 AutoML 之後,由於是系統自動化作業,因此自然可以將人為因素降到最低。
正因如此,當 2018 年 Google 發布 Cloud AutoML 技術後,也帶動市場上出現不同品牌的 AutoML 解決方案。儘管有助於降低企業導入機器學習的門檻,但實際上,但許多公司在導入過程中,還是面臨許多問題與挑戰。SAS 認為,雖然 AutoML 可加速完成資料前處理與模型最佳化的步驟,但是若缺乏產業知識,仍然不足以建立合適的 AI 模型。因此,SAS 推廣資料科學平民化概念,其實是訴求由產業專家操作 AutoML,以便解決企業面臨的真正問題。
陳新銓指出,在傳統機器學習流程中,要將特徵工程結合產業知識結合的難度極高,因為資料科學家的產業知識深度比不上產業專家。而機器學習應用的複雜度、資料前處理和模型最佳化程序等,不僅有曠日廢時、易有人為誤差等諸多挑戰,也讓領域專家不易轉型資料科學家。所幸,現今 AutoML 克服前述挑戰,可替產業專家省去自行寫程式碼、理解各種方法論的作業時間,即便領域專家不具資料科學相關背景,也能根據自身業務情境快速推動機器學習模型。
SAS 建議企業,除可將模型建立工作交給 AutoML 外,也可思考培育內部領域專家的技術能力,透過實際執行資料分析專案以轉型為資料工程師。當遇到無法解決的應用情境時,再交由資料科學家執行,進而創造 AI 應用的最大效益。
三個面向著手 選擇合適方案
由於低程式碼平台概念逐漸被企業所接受,因此市面上愈來愈多廠商推出 AutoML 解決方案,只是各家產品的運算邏輯不盡相同,因此企業若要推動平民資料科學的目標,SAS 建議可從三個方向進行選擇。
首先,是確認能否提供多元層次的自動化機制。因為,各家 AutoML 自動化程度不同,因此應該要先了解不同品牌產品在自動化程度上的差異,如是否可自動清洗、產出高品質資料。以及在建模初期、中期到後期模型解釋,是否有相應的自動化流程。
陳新銓表示,建模初期階段,可讓特徵工程生成速度更為快速與自動化,唯有挖掘並建構數據之間的相關特徵,甚至還要增強某些特定的特徵,才能讓模型有最優異的表現。建模中期的模型訓練和選擇階段,可評估能否從模型調參、模型訓練進行最佳化。產出最佳化模型階段,不只會自動產生流程圖、產出最佳化模型運算框架,還能解釋在模型生成時,從資料中看出各個參數間的關聯。
AI框架不同 訓練速度差異大
評選合適 AutoML 解決方案的第二個重點,則是使用者介面的友善度,這是能否快速上手、願意持續使用的關鍵。SAS 認為 AutoML 解決方案是否支援低程式碼開發,能降低人力撰寫程式的作業需求,才能讓有領域知識的人可以自行操作建模、發揮分析力。而符合企業用戶的 AutoML 解決方案,在友善介面之外,也能讓使用者選擇進行自動化資料分析的方式。
陳新銓說,第三點評估角度,則是了解系統設計是否具備效率、未來擴充性等優點。因為,在建構 ML 模型過程中, AutoML 需要重複進行運算,以便找出品質最佳、符合企業期待的 AI 模型。而訓練 AI 模型所需的時間長短,不光取決於硬體設備的規格,也與 AutoML 系統採用的學習框架有關,所以即便是同一份資料,也會出現某寫產品訓練 AI 模型只要 30 分鐘、有些卻需要長達 3 天,差距超過百倍以上的狀況。
面對 AI 成為顯學,且對企業效益正逐一浮現,SAS 認為將建構模型工作交給 AutoML 處理,有助於讓資料科學家將工作重點放在探索問題本質、問題框架、最終決策等更有價值的作業上。除此之外,也可藉此減輕對機器學習人才的需求壓力,並將具備產業知識專家轉型成為資料科學家,加快企業推動 AI 專案的速度。
(本文授權非營利轉載,請註明出處:CIO Taiwan)