NVIDIA Jarvis 框架提供開發人員取得最先進且已預先完成訓練的深度學習模型和軟體工具,以建立可以輕鬆用在各產業和領域、具互動性的對話式人工智慧 (AI) 服務。
全球每天產生出數十億個小時的語音通話、網路會議和串流媒體廣播影片內容,NVIDIA Jarvis 模型提供高精準度的自動語音辨識,以及高超的語言理解能力、多種語言的即時翻譯和全新的文字轉語音等功能,用以建立能夠表達豐富內容的對話式 AI 代理程式。
利用 GPU 加速技術的端到端語音管道,可以在 100 毫秒內完成動作,這個聆聽、理解到產生回應內容的速度,比人類眨一下眼睛還要更快,並且可以部署在雲端、資料中心或邊緣,瞬間擴大觸及到數百萬名用戶。
NVIDIA 創辦人暨執行長黃仁勳表示:「對話式 AI 在很多方面都是終極的 AI。深度學習在語音辨識、語言理解及語音合成的突破性成就,已經發展出許多優秀的雲端服務。NVIDIA Jarvis 將這種最先進的對話式 AI 技術用在雲端以外的地方,讓客戶可以在任何地方託管 AI 服務。」
NVIDIA Jarvis 將帶動開發過去無法做到的新一波語言類應用程式,提高人機互動程度。它為開發數位護理師等服務打開了大門,協助他們全天不間斷地監控病人,減輕讓醫務人員疲於奔命的工作負擔;線上助理可以了解消費者的需求並推薦最佳產品;即時翻譯可以改善跨境工作場域的協同合作,觀眾還能用自己的母語觀看直播內容。
NVIDIA 使用超過十億頁的文字、六萬小時的語音資料,並以不同的語言、口音、環境和術語,耗費數百萬 GPU 小時來訓練模型,才開發出達到具世界級水準的 Jarvis 框架。開發者首次可以使用 NVIDIA TAO 框架,輕鬆在任何系統上,為各種任務及產業訓練、調整及最佳化這些模型。
開發人員可以從 NVIDIA 的 NGC 目錄中挑選一個 Jarvis 已預先訓練好的模型,用自己的資料與 NVIDIA 遷移學習工具套件對其進行微調和最佳化,以在即時語音服務中達到最高處理量與最低延遲,只要幾行程式碼就能輕鬆部署該模型,無需具備深厚的 AI 專業知識。