資料科學蔚為風潮,很多企業進行數位轉型(Digital Transformation)的過程中,漸漸導入資料科學(Data Science),並且開始採用資料驅動決策(Data-Driven Decision Making)。然而,對於資料科學的基本觀念沒有透徹了解,可能會陷入各種陷阱,導致公司蒙受財物損失。
[ 敬邀參與2022年度CIO大調查活動,掌握IT脈動缺你不可 ]
[ 下載 2020-21 CIO大調查報告,掌握資料分析最新趨勢 ]
什麼都無法斷言的資料分析結果
資料分析簡單來說,就是要從資料中看出一些特徵,來幫助公司做決策。然而,並不是每一次待分析的資料,都可以透過分析看出具有意義的特質。因此,資料分析的結果,其實有以下三種可能。
- 資料有顯示某個特徵
- 資料無顯示某個特徵
- 從資料中無法斷言是否有某個特徵
[ ????推薦閱讀: 如何用資料分析獲得卓越成果 ]
而常常會犯的錯誤,就是在無法輕易斷言資料中是否有某種特徵的情況下,硬要說資料有或沒有含有某個特徵。資料分析師有時候不斷嘗試各種方法,甚至是一些可能沒有經過嚴謹驗證的技術,試圖找出資料中必定含有某種特徵。然而事實上,做資料分析時必須理性地去判斷「如果一些典型的分析手法,都沒辦法看出資料中是否含有某個特徵,有可能這些資料是沒辦法幫助我們做決策」。
什麼事情都想建模來預測
深度學習(Deep Learning)當道的年代,有些人可能面對很多問題的處理方式,就是直接建立神經網路(Neural Network)模型然後進行預測。比如,面對「要開發什麼樣的創新商品才能暢銷」的問題,如果直接把過去的商品做為訓練資料,嘗試建立一個模型。結果就是模型只會預測出一些跟過去差不多的商品,而不是公司想要的創新產品。
[ ????推薦閱讀: 資料治理的三大陷阱 ]
對於「要開發什麼樣的創新商品才能暢銷」,除了需要「尋找過去成功的經驗」,也許更需要「理解市場趨勢」。因此,使用理解導向建模(比如蒐集一些市場調查的問卷後,接著使用統計建模來分析市場可能的走向),而非建立應用導向的預測模型,可能會更適合處理這個問題(圖1)。
什麼問題都只建一次模型就想解決
公司投入資料分析的資源,可能會有諸多限制,比如說能蒐集到的資料有限,要在短時間得到分析結果,資料科學家的團隊人數不多等等。在這些限制之下,如果資料科學家只能趕緊分析資料、建立模型、提出結果,這時候有可能就會遇到問題。
事實上,資料分析的過程中,每一步驟都要反覆檢查,並且嘗試不同的面向來觀察問題。舉例來說,有一個發人省思的研究(註),29個研究團隊用同樣的資料,要了解「足球比賽中裁判給紅牌的標準,會不會因為球員膚色而有差異」,結果20個研究團隊認為裁判標準會不同,9個研究團隊認為不會。仔細看研究過程,都沒有發現什麼重大瑕疵。
[ 加入 CIO Taiwan 官方 LINE 與 FB ,與全球CIO同步獲取精華見解 ]
從這個案例可以得知,同樣資料、研究問題,如果換不同的角度,可能會得到不一樣的結果。如果只因為公司給的諸多限制,讓資料科學家沒有足夠的時間反覆檢查分析過程,公司可能只會得到片面的分析結果,造成公司決策錯誤(圖2)。
【註:R. Silberzahn et al. Adv. Meth. Pract. Psychol. Sci. 1(3): 337-356(2018)】
資料分析的基本流程
一個完整的資料分析,包含測量資料、預處理資料、分析建模、解讀報告、運用結果這幾個環節,每一個環節都需要反覆檢視。此外,每一個部分都有基礎的數學、統計觀念,分析人員必須掌握這些觀念,才能夠正確操作分析技術,跳出資料分析的陷阱,獲得足以給公司帶來獲益的報告(圖3)。
旗標出版的「資料科學的建模基礎 ─ 別急著coding,你知道模型的陷阱嗎?」以及「資料科學的統計實務 –探索資料本質、扎實解讀數據,才是機器學習成功建模的第一步」套書,貫通資料分析過程中所需要的觀念,讓企業走上資料驅動決策的大道。
( 本文由旗標科技提供 )