AI 應用 NVIDIA 推出 Nemotron 3 Nano Omni 模型

soothepain · 4/30/26

這款業界頂尖的開放式全模態推理模型，具備最高效率與準確度，
可驅動電腦操作、文件智慧及影音推理等代理型工作流程

現今的人工智慧（AI）代理系統必須在視覺、語音與語言等不同模型之間來回切換，資料在模型間傳遞時，不僅耗費時間，也會造成情境脈絡的流失。

NVIDIA 今日發表 NVIDIA Nemotron 3 Nano Omni，這是一款開放式多模態模型，將這些能力整合至單一系統，讓代理得以在影片、音訊、影像與文字之間進行進階推理，提供更快速且更智慧的回應。這款業界頂尖的模型為企業與開發人員提供一條生產路徑，用於打造更高效、更精準的多模態 AI 代理，同時保有完整的部署彈性與控制權。

Nemotron 3 Nano Omni 以領先的準確度與低成本表現，為開放式多模態模型建立效率新標竿，在複雜的文件智慧、影片理解與音訊理解等六項排行榜中名列前茅。

已採用 Nemotron 3 Nano Omni 的 AI 與軟體公司包括 Aible、Applied Scientific Intelligence（ASI）、Eka Care、鴻海科技集團、H Company、Palantir 與 Pyler；戴爾科技集團、Docusign、Infosys、K-Dense、Lila、Oracle 與 Zefr 亦正在評估採用該模型。

H Company 執行長 Gautier Cloix 表示：「若要打造實用的代理，就不能讓模型花上數秒來解析螢幕畫面。透過採用 Nemotron 3 Nano Omni，我們的代理能快速解析 Full HD 螢幕錄影，這是過去難以實現的。這不只是速度提升，而是我們的代理在即時數位環境中感知與互動方式的根本性轉變。」

Nemotron 3 Nano Omni 實現更快速、更精簡的多模態代理

以客服 AI 代理為例，它可能需要處理螢幕錄影、分析上傳的通話音訊，並同時檢查資料記錄；金融領域的代理則可能需要解析 PDF、試算表、圖表與語音備忘錄。現今多數代理型系統會透過分別針對視覺、語音和語言的獨立模型來完成這些任務。

這種做法會因為反覆推論而增加延遲，導致跨模態的情境支離破碎，並隨時間推移增加成本與誤差。

Nemotron 3 Nano Omni 在其 30B-A3B 混合式的混合專家（mixture-of-experts）架構中整合視覺與音訊編碼器，因此不再需要獨立的感知模型，從而大幅提升推論效率。該模型將這項效率與強大的多模態感知準確度相結合，讓 AI 系統在具備相同互動性的情況下，能夠達到比其他開放式全模態模型高出 9 倍的資料輸送量。最終在不犧牲回應速度與品質的同時，降低成本並提升可擴展性。

在代理型系統中，Nemotron 3 Nano Omni 可與專有雲端模型或其他 NVIDIA Nemotron 開放式模型協同運作，例如用於高頻率執行的 Nemotron 3 Super，或用於複雜規劃的 Nemotron 3 Ultra；也能與其他供應商的專有模型搭配，驅動電腦操作（computer use）、文件智慧（document intelligence）及影音推理（audio and video reasoning）等代理型工作流程中的子代理。

電腦操作代理：Nemotron 3 Nano Omni 驅動代理在圖形使用者介面中導航、推理螢幕內容，並理解使用者介面隨時間變化的狀態。H Company 最新的電腦操作代理由 Nemotron 3 Nano Omni 驅動，採用 1920×1080 像素的原生輸入解析度，以實現高保真度（high-fidelity）的視覺推理。在 OSWorld 基準測試的初步評估中，這項整合在複雜圖形介面導航方面展現顯著躍進，並充分運用 Nemotron 3 Nano Omni 處理極高解析度影像的能力。

文件智慧：Nemotron 3 Nano Omni 可解讀文件、圖表、表格、螢幕截圖與混合媒體輸入，讓代理能在視覺結構與文字內容之間進行連貫推理。這對企業分析與合規工作流程至關重要。

影音理解：在客服、研究與監控工作流程中，Nemotron 3 Nano Omni 能維持音訊與影片的情境脈絡，將說出的內容、顯示的畫面與記錄的文件整合至單一推理流程，而非零散的摘要。

開放且可客製化，並能部署於任何環境

Nemotron 3 Nano Omni 隨開放權重、資料集與訓練技術一同發布，讓組織能對模型的客製化與部署方式擁有高度的透明度與控制權。

開發人員可使用 NVIDIA NeMo 等工具，針對特定領域的應用進行客製化、評估與最佳化。由於 Nemotron 系列模型採開放形式，組織可將其部署於符合監管、主權或資料在地化要求的環境中。

Nemotron 3 系列包含 Nano、Super 與 Ultra 模型，在過去一年中已累積超過 5,000 萬次下載。Omni 則將該系列的能力延伸至多模態與代理型領域。

該模型已於 Hugging Face、OpenRouter 與 build.nvidia.com 上架，並以 NVIDIA NIM 微服務形式提供，同時也可透過 NVIDIA 雲端合作夥伴、推論平台及雲端服務供應商組成的廣泛生態系取得。

Nemotron 3 Nano Omni 開放且輕量化的架構，支援從 NVIDIA Jetson 硬體、NVIDIA DGX Spark 與 DGX Station 等本地系統，到資料中心及雲端環境的一致部署。

搜尋

AI 應用 NVIDIA 推出 Nemotron 3 Nano Omni 模型

soothepain

full loading