大語言模型浪潮來襲 儲存設備重要性日增
面對大語言模型時代來臨,戴爾科技集團建議從高可擴充性、高效能、高可靠度、成本最佳化等角度,選擇最合適的儲存設備。
採訪/施鑫澤‧文/林裕洋
2022 年底 ChatGPT 3 問世之後,展現出前所未有的強大回應能力,也引爆第二波 AI 革命,讓生成式 AI、大語言模型等成為時下最熱門的技術。然而多數品牌業者在討論 AI 解決方案時,都將重心放在 GPU 卡的數量、等級等,卻往往忽略整體基礎架構需相互搭配的重要性,最終導致 AI 專案效益不如預期。
戴爾科技集團技術副總經理李百飛指出,大語言模型與生成式 AI 技術對於基礎設施的需求極高 ,就如汽車必須要透過引擎、底盤、方向盤等之間的相互搭配,才能發揮最大效果。一套要能滿足 AI 專案需求的基礎架構,需涵蓋算力、網路、儲存設備、管理等四大面向,在算力部分需要大量高性能的 GPU 主機與適配的 CPU 伺服器等,負責集群管理、登錄、資料預處理、模型訓練、精調、推理、資料視覺化等工作。
在網路架構部分,則需高性能 GPU 運算網路、儲存網路、管理網路等。至於儲存設備部分,則需考量儲存原始素材、訓練資料集、模型檔、訓練與精調中的過程資料等,所以必須仰賴高性能分散式並行檔案儲存系統,來滿足 TB 級到 PB 級資料的處理能力。最後在管理軟體部分,則需要 GPU 計算集群管理、資源調度、大語言模型部署、安全護欄等平台軟體解決方案協助。
大語言模型訓練資料量驚人 考驗儲存設備能耐
Open AI 投入 ChatGPT 多年,ChatGPT 3 能展現令人驚訝不已的能力,關鍵在於運用大量資料進行訓練。根據 Open AI 提供資料顯示,GPT 3 訓練資料集規模達到 8,000 億 Token 語料庫,而最近發表的 GPT 4,訓練資料集規模達到 13 兆 Token 語料庫。除此之外,市面上有不少備受推崇的開源大語言模型,Bloomberg GPT 訓練資料集規模為 7,000 億 Token 語料庫、Llama2 訓練資料集規模為 2 兆 Token 語料庫、ChatGLM2 訓練資料集規模為 1.4 兆 Token 語料庫。
[ 推薦閱讀:生成式 AI 成熟度模式 ]
換句話說,大語言模型與傳統 AI 模型相比,在訓練資料集規模更大的狀況下,很難再利用傳統 GPU 伺服器內建的快取記憶體,減少對集中儲存設備的讀取性能需求。特別是大語言模型訓練時間往往長達數星期到數個月以上,所以儲存設備需要具備定期寫入檢查點(Checkpoint),並提供集群故障恢復功能,才能確保 AI 模型訓練過程中的可靠度、穩定度與斷點可恢復性。特別是當大語言模型參數規模愈大時檢查點的數據量也會狂暴增加。
李百飛表示,一般來說,文本類的大語言模型的訓練資料集規模,大約在數十 TB, 若是多模態 AI 大模型則需要更大規模的文件/圖像/語音/視頻訓練資料。以 GPT 3 使用 1,750 億個參數為例,其文本型訓練資料量為 45TB,模型參數檢查點的一次資料儲存量達到 2.45TB。而 GPT 4 使用 100兆個參數,多模態訓練資料量是屬 EB 級別,其檢查點一次資料儲存量是 PB 級別,綜觀此等訓練資料量早已超過 GPU 伺服器的快取容量。因此,當 AI 模型訓練過程發生異常中斷狀況時,便需要透過讀取設備中的 Checkpoint 檢查點資料,才能讓 AI 模型訓練得以持續進行。因應此需求,特別推出能滿足大語言模型訓練需求的極致大數據平臺,具備極快效能、極大擴充性、極高可用性、開放與開源、極致性價比等特性。
以 Dell PowerScale 為核心
李百飛指出,戴爾極致大數據平台是以 Dell PowerScale 數據湖儲存解決方案為核心,具備整合資料收集、保存、分析與保護等功能,提供多雲環境中佈署的能力,可以有效整合不同來源的資料,並透過清洗、過濾、建模等步驟後,再依照不同資料屬性與安全性進行分類與處置,滿足後續大語言模型訓練之用。這套儲存架構平台,符合 Gartner 最新定義的 Data Fabric 框架,讓資料流程得以簡化,進而提高資料的價值與降低基礎架構維運成本支出。
Dell PowerScale 數據湖儲存解決方案是市場上少數同時完整支援 NFS、SMB/CIFS、S3/SWIFT/REST API、FTP 乃至 HDFS 等所有協定的產品,能夠有效整合不同來源的資料型態,完全抹除資料孤島的問題。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球 CIO 同步獲取精華見解 ]
「大語言模型資料量非常驚人,訓練資料集規模往往超過數千億Token 語料庫以上,因此儲存設備需要擁有極大的擴充能力與資料讀寫速度。」李百飛解釋:「Dell PowerScale 最多可擴充到 252 台節點,以F900 節點為例儲存總容量可達到 186PB,資料讀取速度可達到 2,347GBps,若結合 Auto ILM 功能總儲存量可達 EB 級別,絕對能滿足大語言模型的訓練需求。」
可靠度達到99.999%
PowerScale 數據湖儲存解決方案採用網格、多節點、多冗餘與 Auto ILM 的設計架構,提供高性能分散式並行檔案儲存系統,單一儲存集群可混搭高性全快閃節點與大容量磁碟節點,支援獨一的全節點全域資料消重壓縮功能,主打能支撐在邊緣、資料中心或雲端中 的工作負載,具備優異效能與龐大容量,可滿足 現今與未來的現代化工作負載需求。換句話說,PowerScale 非常適合儲存及管理不同種類的非結構化資料,在 Big Data 分析、HPC、基因組學、多媒體等應用都有大量使用案例。前面提到,PowerScale 支 援 NVIDIA GPUDirect Storage 功能,可加速大模型語言的訓練速度。根據集團內部測試結果顯示,NFS over RDMA 相較於 TCP 協定,整體效能可提升 10~25%,而用戶端 CPU 負載可下降 5~30%。
李百飛指出,另外,這款產品具備自動化資料生命週期管理的功能,透過資料分層政策,兼顧資料讀寫性能、儲存容量與降低儲存成本的需求。特別是 PowerScale 儲存平台的可靠度達到 99.9999%,在硬體設備擴充、軟體升級時,可透過 Failover 機制享有資料服務不中斷的優點。值得一提,我們也與 AWS 平台合作,推出 APEX Storage for AWS 服務,讓企業儲存成本可創造 3~4 倍的效能等。
(本文授權非營利轉載,請註明出處:CIO Taiwan)