NVIDIA 創辦人暨執行長黃仁勳於 GTC 2025 大會上發表主題演說,展現了人工智慧與加速運算的未來藍圖。另一方面他也揭露了多項針對資料中心、邊緣運算以及各產業應用的突破性技術與合作,預示著 AI 將更深入地融入企業 IT 基礎架構與應用服務之中。
文/編輯部
AI 的發展離不開強大的基礎設施。黃仁勳指出,過去 AI 的發展始於雲端,正是因為雲端資料中心具備所需的運算資源與先進的電腦科學研究。然而,AI 的應用將會普及至各個角落。為了滿足未來 AI 無所不在的需求,NVIDIA 持續投入於資料中心等級的創新。
在資料中心領域的創新
本次演講中,Blackwell 架構及其相關產品線成為資料中心領域的焦點。過去 NVIDIA 透過 HGX 系統實現了單一伺服器的效能擴展(scale up),而全新的 Blackwell 架構目的在於將效能擴展提升至新層級。黃仁勳展示了 GB200 NVL72 機架級解決方案,這是一個包含 72 個 Blackwell GPU 和 36 個 Grace CPU 的龐大系統,可視為一個單一巨型 GPU。這種極致的效能擴展能力,是處理擁有數兆參數的下一代 AI 模型的關鍵。
此外,黃仁勳公開了 Blackwell Ultra AI 工廠平台(AI Factory)。作為 Blackwell 架構的進一步演進,Blackwell Ultra 旨在提升 AI 的推理(inference)能力,特別是在測試階段進行更大規模的運算以提高準確性(test-time scaling inference)。這對於需要複雜推理和決策的「代理 AI」和「實體 AI / 物理 AI」 應用非常重要。
AI 工廠是用來生產智慧的工廠,可以理解為是一種專門設計和最佳化的資料中心基礎設施,其核心目標是生成大量的 AI 語言所需的詞彙 ─ 「tokens」,模型如何將文本分解成 tokens 取決於其使用的 tokenizer (分詞器)演算法。這個概念是相對於過去以資料檢索為主的運算模型而言,現在的 AI 透過理解上下文和需求來生成答案和內容。因此,這些 AI 工廠的主要任務不再是儲存和檢索數據,而是產生(generate)智慧。為了產生更智能的回應,模型可能需要生成更多的 tokens 進行「思考」。這也就關係到效能與散熱的需求。
為了因應 Blackwell 等高效能硬體帶來的散熱挑戰,液體冷卻技術成為新的資料中心標準。MVLink 是一種由 NVIDIA 向上擴展而設計的 GPU 互連技術,使其能夠像一個大型的單一 GPU 一樣協同工作,由於 MVLink 架構的分離以及每個機架中組件數的大幅增加(從約 6 萬個到 60 萬個),傳統的氣冷方式已經無法有效地散熱。因此,NVIDIA 轉向採用完全液體冷卻技術。同時,將原先整合在計算節點中的 MVLink 交換器分離出來,放置在機箱的中央。黃仁勳強調,透過液體冷卻,能夠將更多的運算節點壓縮到單一機架中,大幅提升能源效率和運算密度。這對於雲端服務供應商在有限的電力資源下提供更強大的 AI 服務至關重要。
Blackwell 架構創新
黃仁勳深入解析了 Blackwell 架構的關鍵創新。他指出,Blackwell 將兩個 GPU 晶片整合在一個封裝中,每個 GPU 都具備第五代 Tensor Core 和 FP4 支援,可提供高達 每秒 1,000 兆次(trillion) 的 AI 運算效能。Blackwell 採用 NVLink-C2C 互連技術,實現 CPU 和 GPU 之間記憶體模型的連貫性,其頻寬是第五代 PCIe 的五倍。這種高頻寬、低延遲的互連對於記憶體密集型的 AI 開發工作負載非常關鍵。
相較於前一代的 Hopper 架構,Blackwell 在同等功耗下可實現 25 倍的效能提升。他強調,在未來電力受限的資料中心中,「能源效率」將成為決定營收的關鍵因素。Blackwell 的 FP4 精度支援,能在降低能耗的同時維持甚至提升 AI 模型效能,這對於追求更高吞吐量和更高品質 AI 的企業極其重要。
NVIDIA 發布 DGX B300 系統。作為 Blackwell 架構的伺服器產品,DGX B300 專為處理從開發到部署的各種 AI 工作負載而設計,將成為企業部署高效能 AI 應用的核心。
此外,針對超大規模 AI 工作負載,NVIDIA 推出了 DGX GB300 系統,這款機櫃級解決方案搭載 Grace Blackwell Ultra 超級晶片,進一步擴展了 AI 的運算邊界。
高效能網路創新
高效能的 AI 運算需要同樣強大的網路基礎設施。黃仁勳說,NVIDIA 的 InfiniBand 和 Spectrum X 乙太網路 在 AI 工廠中扮演著非常重要的角色。Spectrum X 目的在於將 InfiniBand 的優勢(如擁塞控制和低延遲)帶入乙太網路,使其更易於部署和管理。
本次演講中,特別強調了增強型的 NVIDIA Spectrum-X 800G 乙太網路。透過 ConnectX-8 SuperNIC,系統中的每個 GPU 都能擁有 800 Gb/s 的資料吞吐量,並提供最佳的遠端直接記憶體存取(RDMA)功能,消除了 AI 推理模型中的瓶頸。
本次 GTC 發布了 NVIDIA 在矽光子學(Silicon Photonics)的重大進展。他展示了 NVIDIA 首款矽光子交換器,並預計在今年下半年開始出貨。這款交換器採用微環諧振器調變器(micro ring resonator modulator,MRM)技術,並採用台積電(TSMC)的製程技術。這樣的技術能夠在交換器內部直接進行光纖互連,無需傳統的收發器。這種共封裝光學(co-packaged optics,CPO)技術將能實現 512 埠的超高密度,並大幅降低功耗和成本,為未來數十萬甚至數百萬 GPU 的大規模擴展奠定了基礎。黃仁勳預估,採用矽光子技術的 Reuben Ultra 機架,相較於傳統方案,每個機架可以節省數十兆瓦的電力。
說明一下 MRM,這是一種利用微小的光學諧振環來調製光信號的技術。MRM 的核心是一個微小的環狀結構(ring),這個環與一條波導(waveguide)相鄰。波導是光信號傳輸的路徑。當特定波長的光進入波導並經過這個環時,如果光的波長(或頻率)也恰好滿足環形結構的共振條件,那麼這種特定波長的光就會在環內被放大和持續循環,形成光學共振現象。因此 MRM 能夠將連續的雷射光束調製成代表數位資訊的「1」和「0」。
基於 Grace Blackwell 的 AI 超級工作站
為了將強大的 AI 運算能力帶給更多開發者和研究人員,NVIDIA 宣布了 DGX Spark 和 DGX Station AI 工作站。
DGX Spark 搭載的是 NVIDIA GB10 Grace Blackwell Superchip,被稱為世界最小的 AI 超級電腦,主要目標用戶是研究人員、資料科學家、機器人開發者和學生,旨在推動生成式 AI 和 Physical AI(實體 AI 或物理AI)的發展。它更側重於原型設計、微調和推論大型模型。
DGX Station 搭載的是 NVIDIA GB300 Grace Blackwell Ultra Desktop Superchip,其定位是將資料中心等級的效能帶到桌面上,主要用於 AI 開發。它特別強調加速大規模訓練和推論工作負載的能力。DGX Station 則是由 OEM 合作夥伴如華碩、戴爾和 HP 製造。
這些個人 AI 超級電腦將加速本地 AI 開發和實驗,無需完全依賴雲端資源。
代理型 AI 的重大突破
黃仁勳強調,未來的企業將廣泛採用 AI 代理作為數位勞動力的一部分。這些 AI 代理將具備推理、規劃和自主執行複雜任務的能力。代理型 AI 的多項新突破精簡要點如下:
‧核心能力提升:代理型 AI 的關鍵在於具備代理性,能夠感知環境、進行推理、規劃行動並使用工具。現在的 AI 已經可以進行逐步推理,使用多種技術來更有效地解決複雜問題。例如:傳統 AI 可能一次性給出婚禮座位安排的答案,但容易出錯。新的代理型 AI 可以逐步思考、嘗試不同方案、驗證答案,最終找到更優的解決方案。
‧運算需求劇增:由於需要進行大量推理和產生更多代表推理步驟的 token,代理型 AI 所需的計算量大幅增加。也就是說, 傳統 AI 可能只生成一個回應的 token,但代理型 AI 會生成一系列的 token 來代表思考和推理的過程。
‧訓練方法進步:NVIDIA 採用強化學習,利用已知答案的問題訓練 AI 逐步解決問題,並結合合成數據生成。
‧新的硬體平台支持:NVIDIA Blackwell Ultra AI 工廠平台專為需要複雜推理的代理型 AI 應用而設計,從而解決更複雜的多步驟問題。
‧開放推理模型 Llama Nemotron:NVIDIA 推出了開放的 Llama Nemotron 模型家族,具備推理能力,為企業開發 AI 代理提供基礎。這些模型以 NVIDIA NIM 微服務的形式提供。Nemotron 模型是開源的,方便企業根據自身需求進行調整和部署,為企業構建客製化的 AI 代理平台提供了基礎。例如:SAP 正在使用 Llama Nemotron 模型來增強其 AI 代理,使其更準確和有效率地處理用戶查詢。
‧NVIDIA AI Enterprise 新工具:NVIDIA 提供了新的代理型 AI 建構模組,例如 NVIDIA AI-Q Blueprint (連接知識到 AI 代理)和 NVIDIA AgentIQ toolkit (用於代理和數據連接、最佳化和透明度)。
實體 AI 與機器人的重大進展
黃仁勳指出,實體 AI 將使機器具備感知、學習和推理的能力。NVIDIA 的 Omniverse 平台是發展實體 AI 的核心。它是一個虛擬環境,工程師可以在其中設計、模擬和協作開發機器人、自動駕駛汽車等實體系統。
本次演講中,NVIDIA 詳細介紹了 Cosmos,這是一個利用 Omniverse 條件化的生成模型。Cosmos 能夠產生無限多樣、照片級真實且實體上精確的虛擬環境。這對於訓練 AI 模型在各種真實世界場景中運作不可或缺,尤其是在收集真實數據成本高昂或難以實現的情況下。透過 Omniverse 和 Cosmos,開發者可以生成大量的合成數據,用於訓練和測試自動駕駛汽車和機器人的感知、規劃和控制策略。
在機器人領域,黃仁勳重磅宣布了 NVIDIA Isaac GR00T N1,這是全球首個開放、完全可客製化的人形機器人通用基礎模型 GR00T N1 的目標是讓人形機器人能夠輕鬆地操作常見物體,執行多步驟的協作任務其「雙系統架構」模仿人類的認知處理過程,分為慢速思考系統(System 2,用於審慎、有條理的決策)和快速思考系統(System 1,用於反映人類反射動作或直覺)。
為了加速機器人的開發,NVIDIA 還推出了相關的模擬框架和藍圖,例如 NVIDIA Isaac GR00T Blueprint 用於生成合成數據。此外,NVIDIA 公開與 Google DeepMind 和 Disney Research 共同開發的開源實體引擎 Newton。Newton 專為開發具備觸覺回饋和精細運動技能的機器人而設計,並針對 GPU 加速進行了最佳化。透過 Isaac、Omniverse、Cosmos 和 Newton 的結合,NVIDIA 正在打造一個完整的平台,加速下一代具身 AI 和機器人的發展。
多產業領域的進展
(1)科學領域:CUDA-X 函式庫
黃仁勳再次強調了 CUDA-X 函式庫 對於加速各個科學領域的重要性。這些函式庫針對不同的科學計算領域提供了最佳化的加速方案,例如:
‧cuNumeric:為 NumPy 提供零程式碼更改的加速。NumPy 是 Python 中最廣泛使用的數值計算函式庫。
‧cuLitho:加速計算光刻技術,這對於晶圓製造舉足輕重。黃仁勳預計,在五年內,每一片光罩的處理都將在 NVIDIA GPU 上完成。
‧cuOpt:用於數學最佳化,可應用於航班排程、庫存管理、供應鏈最佳化等。NVIDIA 宣布將 cuOpt 開源,預計將大幅加速各行業的決策最佳化進程。
‧其他函式庫如 cuSpatial、cuFDTD、cuQuantum、Parabricks(基因分析)、MONAI(醫學影像)、Earth-2(氣候預測)等,持續推動各科學領域的進展。
(2)汽車製造與導航
公開宣布 NVIDIA 將與通用汽車(GM)展開廣泛合作,GM 將採用 NVIDIA 從雲端到汽車的加速運算平台,打造專屬的 AI 系統。合作範圍涵蓋 AI 在製造流程的最佳化、企業營運的提升以及下一代車輛內部的先進功能。Omniverse 和 Cosmos 將在 GM 的自動駕駛開發和虛擬工廠模擬中扮演關鍵角色。
(3)電信業
NVIDIA 的 Aerial 函式庫已經能夠將 GPU 轉變為 5G 無線電基站,許多 6G 的研究和發展都是在 5G 的基礎上進行演進和擴展。黃仁勳指出,透過在無線電網路中深度整合 AI(AI RAN),有望突破目前資訊理論的頻寬限制,為下一代 6G 網路的發展帶來新的可能性。
進軍量子運算領域
本次 GTC 也將舉辦 首次的量子日(First Quantum Day at GTC)。黃仁勳除了提到了用於量子運算的 CUDA-Q 函式庫(C Quantum and Cuda Q),NVIDIA 正在利用其在加速運算方面的經驗,來推動量子運算的發展。他也表示,NVIDIA 正與量子運算生態系統中的各個夥伴合作,共同研究量子架構、量子演算法,並構建經典加速的異構量子運算系統。
另外,在演講中黃仁勳雖然並沒有直接提到邊緣運算,然而許多提到的部分都與邊緣運算密切相關。像是實體人工智慧、機器人技術和自動駕駛等主題,以及 NIMS 提供的彈性部署能力,都說明了邊緣運算在 NVIDIA 的技術願景和產品策略中的重要性。這些應用場景通常需要在資料產生的本地或靠近本地的地方進行計算和決策,這正是邊緣運算的關鍵特徵。
(本文授權非營利轉載,請註明出處:CIO Taiwan)