第十二屆金融業CIO高峰會秋季場
文/林裕洋
隨著全球數位資料量攀升,資料超過 30TB 的資料湖泊也快速增加,台灣約在 10~20個之間。在全球資料人才不足下, Cloudera 攜手炬識科技可助企業快速建置巨量資料分析平台,從中挖掘出大量資料價值。
相較於發展多年的資料倉儲,近來興起的資料湖泊(Data Lake),是指資料量超過 30TB 的資料集,類型涵蓋結構化、半結構化、非結構化等類型,且主要是放在低成本的儲存設備中。在資料價值攀升的當下,更追求資料存取的敏捷性。根據統計,目前台灣銀行業資料湖泊數量大約在 10~20 個左右,資料類型以非結構資料、半結構資料為主,且採取分散儲存技術,搭配平行運算技術進行處理。
[ 參與 CIO Taiwan 年度盛事 2023 CIO 大調查,就從填寫問卷開始!(survey.cio.com.tw) ]
然若要發揮資料湖泊的價值,不光得需要總部資料團隊、業務資料團隊、資料科學團隊等之間的攜手合作,還得突破分散式系統、Hadoop、Python 等門檻。這在全球資料科學家不足的狀況下,多數企業往往陷入人才、技術人才不足的困境,難以建置合適的 Big data 平台
炬識科技執行長顏良修說,「我們建議企業在建置資料湖泊前,應該要從資料治理著手,如資料盤點、資料模型盤點、資料產品盤點、資料業務定義、資料工程定義、資料品質標準等。我們炬識擁有經驗豐富的資料科學家,也熟悉 Cloudera 解決方案,可挖掘出大量資料價值。」
提供混合資料分析平台 降低企業跨入門檻
Hadoop 是可從非結構化資料中擷取價值,且最被廣泛使用的開源軟體,不過複雜的安裝與操作過程,也提高企業打造 Big data 分析平台的門檻。Cloudera 預先將各種軟體元件整合成一個套件,讓企業享有易於使用的操作介面,以及完整諮詢服務,可縮短平台建置時間與門檻。Cloudera 訴求可幫管理和分析所有類型的資料,如機器資料、結構化資料、非結構化資料等,進而從中挖掘出潛藏的商機。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球CIO同步獲取精華見解 ]
Cloudera 台灣業務總監蘇懋欣說,「我們相信資料可讓不可能變成可能,所以致力提供用戶一個轉換複雜資料的工具,隨時隨地更快、更輕鬆的挖掘資料價值。這是一個具有安全管理和便攜式雲原生資料分析的混合資料平台,可為資料分發、資料工程、資料倉庫、交易資料、資料科學和機器學習等,提供快速、有效率的分析機制。」
(本文授權非營利轉載,請註明出處:CIO Taiwan)