第十七屆 CIO 價值學院 第三堂課 AI & DATA 會後報導
伴隨 AI 大行其道,許多企業急欲將企業內部各式各樣的數據進行彙整,以便藉由統一平台來管理與分析結構化/非結構化數據。為此精誠推出 Wedel 現代化整合湖倉一體服務,幫助企業順利推動 AI 與數據分析工作。
文/明雲青
精誠資訊資深解決方案架構師林宗翰提出推動 AI/ML、LLM 或 GPT 發展時需準備,如:企業需重複將資料複製儲存到用於分析的數據平台,延伸出擴增硬體設備或資料庫軟體授權、資料庫技術多樣,使維運成本高昂、傳統資料庫面向大量數據提取的效能瓶頸、以及無法全面集中數據(包括:圖片、影音檔等)、或是面向多雲遷移複雜性挑戰。
在過去所提倡的大數據資料湖架構 DataLake(如:Hadoop),實踐需處理多種元件組成,技術複雜門檻高,日常維運不易,人才稀缺更是一大隱憂。過去不少企業嘗試結合運用資料倉儲與資料湖協作,但其間仍有難題。例如企業須將資料從源頭重複搬到倉儲或資料湖中,日後資料一旦更新,就導致資料不一致現象產生。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球 CIO 同步獲取精華見解 ]
於 2020 年知名大數據公司 Databricks 為翻轉資料湖生態,領先提出 Open Lakehouse 架構的全新概念,可稱作湖倉一體或儲算分離,如今被譽為 AI 世代必備的開放性數據平台。訴求以簡單性:將數據倉儲與 AI 應用統一至單一平台中。開放性:基於開源或開放性的標準建構。協作性:與雲原生一致的數據平台,並以 ANCHRO 定義:A(ALL Data Type)、N(Nativeon Cloud)、C(Consistency)、H(HighConcurrency)、O(One Copy of Data)、R(Real-Time),作為湖倉優勢。湖倉建構,需以開放性設計、支援多種引擎平台、並不受限廠商鎖定,為此建構開放性湖倉一體架構,儲存以基於低成本商用物件儲存庫 MinIO Enterprise(標準 S3 Object 與雲原生兼容),搭配精誠推出 Wedel Core 服務,協助企業建構私有湖倉一體架構,將數據以主流開放標準格式 Open Data Format 檔案儲存,及結合開放性資料湖元件 Open Data Table 進行整合,並根據實際的應用場景搭建所需的運算單元,如 MPP SQL 引擎或 Spark 分散式運算引擎,使分析或科學家,可在此平台中,實現探索蘊藏在企業中數據金礦及寶藏。
實踐 Wedel 現代化湖倉重點以 MinIO Enterprise 雲原生物件儲存庫為基底,並透過標準 S3 協議將資料任意雲遷移,同時藉由開放性資料湖元件,提供 SQL 的可靠性與簡易性,然後搭配主流數據引擎如:Spark 分散式運算,可將已開發的數據邏輯,快速在雲端上執行,實現 Cloud Ready。助企業建構內部的現代化數據平台支持 AI 應用發展。
(本文授權非營利轉載,請註明出處:CIO Taiwan)