Компания NVIDIA объявила о запуске новой версии своего семейства мультимодальных моделей — Nemotron 3 Nano Omni. Ключевая идея разработки заключается в том, чтобы объединить в одном “движке” сразу несколько типов восприятия: зрение, слух и работу с языком. Такой подход особенно важен для AI-агентов, которым нужно не просто отвечать текстом, а понимать данные из разных источников и выполнять задачи в цифровой среде.
Что представляет собой Nemotron 3 Nano Omni
Nemotron 3 Nano Omni — это открытая мультимодальная модель, нацеленная на работу как единая система для AI-агентов. Она обрабатывает входные данные разных форматов и в результате формирует текстовый ответ. В отличие от схем, где восприятие реализуется отдельными модулями, в этой архитектуре используется единый подход к объединению визуальной и аудио-информации.
Архитектура: 30B-A3B и гибридный Mixture-of-Experts
Модель построена на основе гибридной архитектуры с параметрами 30B-A3B и механизмом mixture-of-experts (Mixture of Experts, “смесь экспертов”). В таких системах часть вычислений направляется на специализированные подсети (“экспертов”) в зависимости от типа входных данных. В данном случае NVIDIA интегрирует видеозрительные и аудиопроцессоры в единую конструкцию — это, по заявлению компании, позволяет убрать необходимость в отдельной модели восприятия.
Отдельный акцент сделан на производительности: NVIDIA утверждает, что при сопоставимом уровне интерактивности Nemotron 3 Nano Omni может обеспечивать до 9-кратного роста пропускной способности по сравнению с другими открытыми omni-моделями.
Какие данные модель умеет “понимать”
Разработчики позиционируют Nemotron 3 Nano Omni как универсальный интерфейс восприятия. В качестве входных данных модель может работать с:
- текстом;
- изображениями;
- аудио;
- видеоматериалами;
- документами;
- диаграммами и графиками;
- графическими интерфейсами.
На выходе модель формирует текст. Такой формат удобен для систем-посредников: агент может получать визуальную или аудиоинформацию, интерпретировать ее и затем выдавать командные действия, резюме или объяснения в текстовом виде.
Длинный контекст: окно 256K
Важный технический параметр — размер контекстного окна 256K. Контекстное окно (context window) — это объем данных, который модель способна учитывать “за один проход” при генерации ответа. Чем оно больше, тем проще системе работать с длинными документами, многоэтапными задачами и сценариями, где требуется удерживать в памяти большой фрагмент входа.
Кроме того, в модели используются технологии Conv3D и EVS. Conv3D — это разновидность свёрточных нейросетей, применяемая для обработки многомерных данных (часто для видео и “объемных” представлений). EVS в данном контексте относится к внутренним компонентам архитектуры, отвечающим за эффективную обработку сигналов и представлений.
Результаты на тестах и лидерборды
NVIDIA сообщает, что Nemotron 3 Nano Omni заняла верхние позиции сразу на шести лидербордах, связанных с задачами документной аналитики, а также пониманием видео и аудио. Подобные соревнования обычно измеряют качество распознавания, извлечения смысла и устойчивость модели к разным сценариям — от чтения документов до анализа мультимедийных материалов.
Кто внедряет модель и для каких сценариев
Среди компаний, которые уже используют или планируют внедрение Nemotron 3 Nano Omni, NVIDIA называет Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir и Pyler. Одновременно проводится оценка со стороны Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle и Zefr.
Пример применения: “агент, который читает экран”
Глава H Company Готье Клуа (Gautier Cloix) отметил, что модель помогает агентам быстро интерпретировать записи экрана в Full HD — то есть видеоролики, снятые с разрешением 1920×1080. В предварительных тестах на бенчмарке OSWorld агент компании по работе с компьютером, работающий на базе Nemotron 3 Nano Omni, использовал нативное разрешение 1920×1080 пикселей для визуального рассуждения.
Смысл подобных сценариев в том, что агенту не требуется “перерисовывать” интерфейс в отдельные форматы: он может анализировать происходящее на экране как визуальный вход и затем действовать в рамках программной среды.
Место в “семействе” Nemotron и режим работы с агентами
NVIDIA подчеркивает, что Nemotron 3 Nano Omni рассчитана на совместную работу с другими моделями Nemotron — в частности Nemotron 3 Super и Nemotron 3 Ultra. Также допускается использование в связке с проприетарными решениями других поставщиков.
В компании отдельно выделяют агентные (agentic) сценарии — то есть такие рабочие процессы, где система не просто отвечает на запрос пользователя, а выполняет последовательность действий: взаимодействует с компьютером, анализирует документы и рассуждает на основе аудио-видео материалов.
Открытые веса и кастомизация
Nemotron 3 Nano Omni выходит с открытыми весами, наборами данных и тренировочными техниками. Это означает, что организации могут адаптировать модель под собственные задачи — например, дообучить ее на специфичных датасетах или настроить под требования отрасли.
Для кастомизации NVIDIA рекомендует использовать собственные инструменты, включая NVIDIA NeMo. После настройки модель можно развернуть в средах, которые соответствуют регуляторным ограничениям или требованиям локализации данных.
Отдельно отмечается масштаб интереса к семейству Nemotron 3: по данным NVIDIA, за последний год оно набрало более 50 миллионов загрузок.
Где доступна модель
Nemotron 3 Nano Omni доступна во вторник (Tuesday) сразу на нескольких площадках: на Hugging Face, OpenRouter и build.nvidia.com. Кроме того, модель предлагается как NVIDIA NIM microservice — то есть как формат развертывания, ориентированный на подключение моделей к прикладным сервисам. Еще один канал — NVIDIA Cloud Partners, а также инфраструктурные inference-платформы и облачные сервис-провайдеры.
Таким образом, NVIDIA делает акцент на доступности модели для разных типов пользователей — от исследовательских команд до компаний, которым важны требования к развертыванию, производительности и интеграции в агентные рабочие процессы.
