NVIDIA推出用於生成互動式人工智慧 (AI) 虛擬化身的 NVIDIA Omniverse Avatar 技術平台。Omniverse Avatar 串連 NVIDIA 在語音 AI、電腦視覺、自然語言理解、推薦引擎和模擬的技術。在該平台上打造的虛擬化身,是由光線追蹤 3D 繪圖所創造出的互動角色,能看、能說、能就各種主題進行對話,並能理解自然語意。
Omniverse Avatar 為打造 AI 助理開啟一扇門,並能輕易地為各行各業量身打造。這些虛擬化身可以協助處理每天數十億筆的客戶服務互動內容,如餐廳訂單、銀行交易和個人預約等,進而帶來更大的商機並提高客戶滿意度。
NVIDIA 創辦人暨執行長黃仁勳表示:「智慧虛擬助理的發展已嶄露曙光。Omniverse Avatar 結合 NVIDIA 的基礎繪圖、模擬及 AI 技術,創造出一些史上最複雜的即時應用程式。協作機器人和虛擬助理的應用令人驚艷,且對未來影響深遠。」
Omniverse Avatar 是 NVIDIA Omniverse 的一部分,而 Omniverse 是一個用於 3D 工作流程的虛擬世界模擬和協作平台,目前為公開測試階段,並擁有超過 7 萬個用戶。執行長黃仁勳在 NVIDIA GTC 的主題演講中,分享了關於 Omniverse Avatar 的多個應用案例,包含用於客戶支援的 Project Tokkio、用於 24 小時支援汽車智慧服務的 NVIDIA DRIVE Concierge,以及用於視訊會議的 Project Maxine。
執行長黃仁勳在 Project Tokkio 的第一個展示中,展示與一個由複製他本人而做成的玩具虛擬化身與同事進行即時對話,談論包括生物學和氣候科學等主題。
在 Project Tokkio 的第二個展示中,執行長黃仁勳將重點聚焦在餐廳自助服務機內的客服虛擬化身,當有兩位顧客在點素食漢堡、薯條和飲料時,虛擬化身能夠看見他們、進行對話,進而理解他們的需求。這些展示由 NVIDIA AI 軟體與 Megatron 530B 提供支援,Megatron 530B 為當今全球最大的可客製化語言模型。
在 DRIVE Concierge AI 平台上的展示中,位於儀表板中間螢幕上的數位助理能協助駕駛選擇最佳的駕駛模式,以準時抵達目的地,接著將能依照駕駛的需求設定提醒通知,於汽車限速低於 100 英里時提醒駕駛。
另外,執行長黃仁勳展示了 Project Maxine 為虛擬協作和內容創作應用程式,加入最先進的影音功能。當一位講英語的人在一間吵雜的咖啡廳進行視訊通話時,依舊能讓對方聽清楚她說的話,並且不被背景噪音干擾。當她說話時,她的一字一句皆會被轉錄成文字,並且翻譯成德語、法語和西班牙語,且和她的聲音及語調相同。
Omniverse Avatar 的關鍵元素
Omniverse Avatar 使用了語音 AI、電腦視覺、自然語言理解、推薦引擎、臉部動畫與繪圖的元素,這些元素透過以下技術支援:
- 語音辨識功能以 NVIDIA Riva 為基礎,該軟體開發套件可以辨識多種語言的語音。Riva 還能透過文字轉語音的功能,生成類似人類的語音回應。
- 自然語言理解是以 Megatron 530B 大型語言模型為基礎,能夠辨識、理解並生成人類語言。Megatron 530B 是一個經過預先訓練的模型,可以在很少或沒有訓練的情況下完成句子、回答不同主題的大量問題、總結長篇且複雜的內容、翻譯成其它語言,以及處理多個未經過專門訓練的領域。
- 推薦引擎由 NVIDIA Merlin 提供,企業可以使用此框架建立能處理大量資料的深度學習推薦系統,藉以提出更明智的建議。
- 感知能力由用於影像分析的電腦視覺框架 NVIDIA Metropolis 提供。
- 虛擬化身的動畫透過採用 NVIDIA Video2Face 與 Audio2Face、由 AI 驅動的 2D 和 3D 臉部動畫,以及渲染技術製作而成。
NVIDIA 將這些技術組成一個應用程式,並且透過 NVIDIA Unified Compute Framework 進行即時處理。這些技術整合成具擴充性、可客製化的微服務,並且透過 NVIDIA Fleet Command 在多個地點安全地部署、管理和協調。