AI 應用 NVIDIA 推出 Nemotron 3 Nano Omni 模型

soothepain

full loading
已加入
9/17/03
訊息
23,046
互動分數
2,004
點數
113
網站
www.coolaler.com
這款業界頂尖的開放式全模態推理模型,具備最高效率與準確度,
可驅動電腦操作、文件智慧及影音推理等代理型工作流程

現今的人工智慧(AI)代理系統必須在視覺、語音與語言等不同模型之間來回切換,資料在模型間傳遞時,不僅耗費時間,也會造成情境脈絡的流失。

nvidia04301.jpg


NVIDIA 今日發表 NVIDIA Nemotron 3 Nano Omni,這是一款開放式多模態模型,將這些能力整合至單一系統,讓代理得以在影片、音訊、影像與文字之間進行進階推理,提供更快速且更智慧的回應。這款業界頂尖的模型為企業與開發人員提供一條生產路徑,用於打造更高效、更精準的多模態 AI 代理,同時保有完整的部署彈性與控制權。

Nemotron 3 Nano Omni 以領先的準確度與低成本表現,為開放式多模態模型建立效率新標竿,在複雜的文件智慧、影片理解與音訊理解等六項排行榜中名列前茅

已採用 Nemotron 3 Nano Omni 的 AI 與軟體公司包括 AibleApplied Scientific Intelligence(ASI)Eka Care、鴻海科技集團、H Company、Palantir 與 Pyler;戴爾科技集團、Docusign、Infosys、K-Dense、Lila、Oracle 與 Zefr 亦正在評估採用該模型。

H Company 執行長 Gautier Cloix 表示:「若要打造實用的代理,就不能讓模型花上數秒來解析螢幕畫面。透過採用 Nemotron 3 Nano Omni,我們的代理能快速解析 Full HD 螢幕錄影,這是過去難以實現的。這不只是速度提升,而是我們的代理在即時數位環境中感知與互動方式的根本性轉變。」


Nemotron 3 Nano Omni 實現更快速、更精簡的多模態代理

以客服 AI 代理為例,它可能需要處理螢幕錄影、分析上傳的通話音訊,並同時檢查資料記錄;金融領域的代理則可能需要解析 PDF、試算表、圖表與語音備忘錄。現今多數代理型系統會透過分別針對視覺、語音和語言的獨立模型來完成這些任務。

這種做法會因為反覆推論而增加延遲,導致跨模態的情境支離破碎,並隨時間推移增加成本與誤差。

Nemotron 3 Nano Omni 在其 30B-A3B 混合式的混合專家(mixture-of-experts)架構中整合視覺與音訊編碼器,因此不再需要獨立的感知模型,從而大幅提升推論效率。該模型將這項效率與強大的多模態感知準確度相結合,讓 AI 系統在具備相同互動性的情況下,能夠達到比其他開放式全模態模型高出 9 倍的資料輸送量。最終在不犧牲回應速度與品質的同時,降低成本並提升可擴展性。

在代理型系統中,Nemotron 3 Nano Omni 可與專有雲端模型或其他 NVIDIA Nemotron 開放式模型協同運作,例如用於高頻率執行的 Nemotron 3 Super,或用於複雜規劃的 Nemotron 3 Ultra;也能與其他供應商的專有模型搭配,驅動電腦操作(computer use)、文件智慧(document intelligence)及影音推理(audio and video reasoning)等代理型工作流程中的子代理。


電腦操作代理:Nemotron 3 Nano Omni 驅動代理在圖形使用者介面中導航、推理螢幕內容,並理解使用者介面隨時間變化的狀態。H Company 最新的電腦操作代理由 Nemotron 3 Nano Omni 驅動,採用 1920×1080 像素的原生輸入解析度,以實現高保真度(high-fidelity)的視覺推理。在 OSWorld 基準測試的初步評估中,這項整合在複雜圖形介面導航方面展現顯著躍進,並充分運用 Nemotron 3 Nano Omni 處理極高解析度影像的能力。

文件智慧:Nemotron 3 Nano Omni 可解讀文件、圖表、表格、螢幕截圖與混合媒體輸入,讓代理能在視覺結構與文字內容之間進行連貫推理。這對企業分析與合規工作流程至關重要。

影音理解:在客服、研究與監控工作流程中,Nemotron 3 Nano Omni 能維持音訊與影片的情境脈絡,將說出的內容、顯示的畫面與記錄的文件整合至單一推理流程,而非零散的摘要。



開放且可客製化,並能部署於任何環境

Nemotron 3 Nano Omni 隨開放權重、資料集與訓練技術一同發布,讓組織能對模型的客製化與部署方式擁有高度的透明度與控制權。

開發人員可使用 NVIDIA NeMo 等工具,針對特定領域的應用進行客製化、評估與最佳化。由於 Nemotron 系列模型採開放形式,組織可將其部署於符合監管、主權或資料在地化要求的環境中。

Nemotron 3 系列包含 Nano、Super 與 Ultra 模型,在過去一年中已累積超過 5,000 萬次下載。Omni 則將該系列的能力延伸至多模態與代理型領域。

該模型已於 Hugging FaceOpenRouterbuild.nvidia.com 上架,並以 NVIDIA NIM 微服務形式提供,同時也可透過 NVIDIA 雲端合作夥伴、推論平台及雲端服務供應商組成的廣泛生態系取得。

Nemotron 3 Nano Omni 開放且輕量化的架構,支援從 NVIDIA Jetson 硬體、NVIDIA DGX SparkDGX Station 等本地系統,到資料中心及雲端環境的一致部署。