На выставке Google Cloud Next в Лас-Вегасе компания NVIDIA и Google Cloud объявили о расширении сотрудничества, сделав акцент на двух направлениях: агентном ИИ и «физическом» ИИ, то есть системах, которые могут не только анализировать данные, но и взаимодействовать с реальным миром через робототехнику и вычислительные контуры. В рамках договоренностей стороны представили новое облачное оборудование и сервисы, ориентированные на более эффективный запуск моделей и ускорение обучения.
Новые мощности: A5X на базе NVIDIA Vera Rubin
Ключевым элементом анонса стали серверные инстансы NVIDIA Vera Rubin-powered A5X bare-metal — решения, работающие на «голом железе» в облачной среде. Их особенность — масштабирование до очень больших кластеров с использованием ускорителей NVIDIA Rubin.
В заявленной конфигурации A5X может разрастаться в многосайтовом кластере до 960 000 NVIDIA Rubin GPU. При этом внутри одного площадочного кластера предусмотрена поддержка до 80 000 NVIDIA Rubin GPU.
За сетевую связность в таких конфигурациях отвечают связка аппаратных сетевых контроллеров NVIDIA ConnectX-9 SuperNIC и инфраструктурных компонентов Google Virgo. В совокупности это должно помочь справляться с передачей данных между большим числом узлов, что особенно важно для распределенного инференса и обучения.
Экономика инференса и производительность
Согласно заявлению компаний, новые системы позволяют сократить стоимость инференса — то есть выполнения уже обученных моделей — до 10 раз в расчете на токен. Токен (token) — минимальная единица текста, с которой работает языковая модель, например фрагмент слова или отдельный символ в рамках используемой токенизации.
Одновременно заявлен рост пропускной способности: до 10 раз выше токенов на мегаватт (token throughput per megawatt) по сравнению с предыдущим поколением. Этот показатель отражает, насколько эффективно вычислительная инфраструктура «конвертирует» потребляемую электроэнергию в полезную вычислительную работу.
Портфель NVIDIA Blackwell в Google Cloud
Расширение касается не только A5X. Google Cloud также развивает линейку решений на базе платформы NVIDIA Blackwell и связанных конфигураций.
- Виртуальные машины A4 VMs с системами NVIDIA HGX B200.
- Rack-scale A4X VMs с NVIDIA GB200 NVL72 и A4X Max NVIDIA GB300 NVL72.
- Fractional G4 VMs с ускорителями NVIDIA RTX PRO 6000 Blackwell Server Edition.
Отдельно стоит отметить, что в таких категориях «rack-scale» обычно подразумевает размещение вычислительных ресурсов в пределах стойки или близких по смыслу архитектурных блоков — это помогает добиваться предсказуемой производительности и эффективной интеграции подсистем.
Как эту инфраструктуру используют компании
Среди практических примеров — крупномасштабный инференс, который уже выполняется на системах NVIDIA GB300 и NVIDIA GB200 NVL72 в Google Cloud для части задач, включая поддержку ChatGPT.
Thinking Machines Lab, в свою очередь, масштабирует Tinker API на инстансах A4X Max с системами GB300 NVL72. Речь идет о расширении сервиса, ориентированного на программные вызовы и работу модели через прикладной интерфейс.
Gemini в режиме превью и Confidential G4 VMs
Google Gemini-модели, работающие на ускорителях NVIDIA Blackwell и Blackwell Ultra, теперь доступны в режиме preview на Google Distributed Cloud. «Preview» означает, что функциональность находится на стадии предварительного запуска и может быть доступна ограниченному кругу клиентов или с отдельными условиями.
Кроме того, стороны представили Confidential G4 VMs с GPU NVIDIA RTX PRO 6000 Blackwell. Это позиционируется как первый облачный вариант конфиденциальных вычислений для GPU в семействе NVIDIA Blackwell. Конфиденциальные вычисления (confidential computing) обычно подразумевают аппаратные и программные механизмы защиты данных в процессе обработки — когда информация защищается не только при хранении и передаче, но и «внутри» вычислений.
Инструменты для агентного ИИ и обучение с подкреплением
В экосистеме агентного ИИ NVIDIA Nemotron 3 Super теперь доступна на Gemini Enterprise Agent Platform. Nemotron — это семейство моделей, ориентированных на диалоговые и языковые задачи в корпоративных сценариях.
Параллельно Google Cloud и NVIDIA представили новый управляемый API для обучения с подкреплением (reinforcement learning). Он построен с использованием NVIDIA NeMo RL и направлен на ускорение обучения в масштабах инфраструктуры. Обучение с подкреплением — подход, при котором модель учится выбирать действия на основе сигналов вознаграждения, а не только на примерах разметки.
Синтетические данные и кибербезопасность: кейс CrowdStrike
Компания CrowdStrike использует открытые библиотеки NVIDIA NeMo для генерации синтетических данных, а затем применяет их для дообучения Nemotron и других открытых больших языковых моделей в задачах кибербезопасности.
Работы выполняются на Managed Training Clusters в рамках Gemini Enterprise Agent Platform, используя GPU NVIDIA Blackwell. Синтетические данные помогают расширять обучающие выборки и моделировать сценарии угроз, которые сложно собирать в достаточном объеме в реальных условиях.
Интеграции для индустрии: Cadence, Siemens и инструменты NVIDIA
Решения Cadence и Siemens Digital Industries Software теперь доступны в Google Cloud с ускорением на базе NVIDIA AI-инфраструктуры. Кроме того, библиотеки NVIDIA Omniverse и среда робототехнического моделирования NVIDIA Isaac Sim размещены в Google Cloud Marketplace — это упрощает доступ к симуляции и разработке цифровых прототипов.
Награды партнерству
В завершение стороны отметили признание со стороны Google Cloud: NVIDIA получила награду Partner of the Year сразу в двух категориях — AI Global Technology Partner и Infra Modernization Compute. Это подчеркивает, что партнерство развивается не только в области моделей и приложений, но и в направлении модернизации вычислительной инфраструктуры.
