全新問世的 AMD Instinct MI100 GPU,採用全新 AMD Compute DNA (AMD CDNA)架構、為HPC設計的全新 Matrix Core 技術,主打以領先業界的運算效能,為HPC與AI帶來顛覆性改變。
文/林裕洋
隨著AI演算法日益成熟,加上強大運算能力的加持,根據PwC公布抓緊AI商機研究報告指出,預估2030年AI將為市場帶來15.7兆美元的營收,推升全球GDP成長達14%,成為快速變動市場中最龐大商機。AI演算法能否展現預期效益,GPU晶片扮演極為重要的關鍵,因此包含Intel、AMD、高通等晶片業者,都推出不同類型的AI晶片,企圖挑戰霸主地位。
AMD投入GPU領域多年且有不錯表現,除有深受許多遊戲玩家、專業影像處理用戶喜愛的 AMD Radeon 系列外,該公司也有推出專為深度學習、人工智慧設計的 AMD Radeon Instinct 系列GPU。以全球首個 7nm FinFET 技術工藝設計 Radeon Instinct MI50 GPU,採用Vega20架構,是目前AMD主打的加速器產品之一,在FP16模式下可提供26.5TFLOPS、FP32模式下可13.3TFLOPS,以及浮點效能以及INT8支援,並結合16GB高頻寬 HBM2 ECC 記憶體,可讓企業用戶能在兼顧成本下,建構能滿足用於培訓複雜神經網路的運算平台。
FP64運算力 11.5 TFLOPS 專對AI、HPC設計
雖然在7nm製程加持下,AMD Radeon Instinct 系列GPU在運算效能上有不錯表現,只是受制於 Vega 20 架構限制,在效能、功耗上仍有進步的空間。為此,AMD一直有計劃推出全新架構GPU解決方案,而在剛落幕AMD超級運算年度盛會SC20線上活動中,發表由 ROCm 4.0 開放產業體系全力支援的全新 AMD Instinct MI100 GPU,主打以領先業界的運算效能,為HPC與AI帶來顛覆性改變。
AMD全球資深副總裁暨資料中心與嵌入式解決方案事業群總經理 Forrest Norrod 表示,在高效能運算領域中,不同企業的用戶需求都不同,AMD致力提供一個時下最先進的技術與功能,協助支援其HPC工作,能滿足小型運算叢集、雲端平台上的虛擬機器,以及exascale等級超級電腦。AMD Instinct MI100 GPU結合 AMD EPYC 處理器,搭配關鍵應用軟體與開發工具,讓AMD能為各種HPC工作負載提供領先業界的效能。
AMD Instinct MI100 GPU採用全新 AMD Compute DNA (AMD CDNA) 架構、為HPC設計的全新 Matrix Core 技術,根據AMD提供資料顯示,AMD Instinct MI100 GPU在FP64尖峰狀況下可提供 11.5 TFLOPS 效能,在FP32尖峰狀況下可提供 23.1 TFLOPS 效能,能協助科學家與研究人員,加快在生命科學、能源、金融、學術、政府、國防等領域的各項專案。
專對運算量身打造 CDNA架構強化學習力
雖然針對機器學習、深度運算市場,推出採用 Vega 20 架構的AMD Radeon Instinct系列GPU多年。但是AMD Radeon晶片系列基本上是款通用型的GPU,雖然號稱可同時應付影像處理與計算使用,但這也代表無法將兩項工作做到最好,自然難以滿足HPC需求。為此,AMD提出全新概念,其中採用 AMD RDNA 架構的GPU,將針對遊戲、圖形處理進行最佳化,主打能以最佳化每秒可呈現的影像張數,而 AMD CDNA 架構則將主打針對計算進行最佳化,因具備較少的Graphics-bits,所以在影像繪圖功能相對有限,反而著重強化機器學習、深度學習的能力、降低功耗,能提供exascale等級所需的運算效能。
AMD CDNA 架構除針對運算最佳化之外,也引進AMD第2代 Infinity Fabirc 架構,相較PCIe要快上不少,可改善GPU之間的頻寬,主打可針對機器學習和高效能運算應用進行最佳化,有利於加速資料中心的各種運算工作負載。
另外,因應市面上各種人工智慧演算法特性推出的Matrix Core技術,這項技術可針對全範圍單精度與混合精度矩陣運算特性,如FP32、FP16、bFloat16、Int8、以及Int4等,給予最合適的資料位置,藉此達到提高運算效能的目的。
ROCm 4.0平台 改善GPU效能
AMD Instinct MI100 GPU問世之際,AMD也同步發表 ROCm 4.0 平台,可exascale等級運算提供基礎。ROCm 4.0 是為高效能運算、機器學習以及人工智慧程式開發者量身打造的最新方案,讓他們開發高效能的可移植軟體。目前 ROCm 4.0 已將編譯器升級至支援開源,並統一支援 OpenMP 5.0 與HIP ,且PyTorch與Tensorflow框架均已針對此架構0進行最佳化,能為 AMD Instinct MI100 GPU系統提供大規模運算的效能。
橡樹嶺國家實驗室領導運算中心科學總監 Bronson Messer 表示,我們已經率先使用 AMD Instinct MI100 GPU,初步使用效果讓人非常振奮,相比其他GPU高出達2到3倍。我們也同樣意識到軟體對效能影響的重要性,開源的ROCm開放軟體平台以及HIP開發者工具能在各種平台上運行,這是我們自推出首款混合CPU/GPU系統時,最關切的特點。