Google Gemma 4: открытые ИИ-модели Apache 2.0 и их запуск

Компания Google объявила о выходе Gemma 4 — нового семейства открытых моделей искусственного интеллекта. Примечательно, что доступ к разработке и распространению организован на условиях лицензии Apache 2.0, то есть проект ориентирован на сообщество разработчиков и позволяет использовать модели в собственных продуктах и исследованиях.

Что представляет собой Gemma 4 и почему это важно

Gemma 4 — это продолжение линейки Gemma, где компания делает ставку на открытые веса и воспроизводимость. Ранее Google уже выводила первое поколение Gemma, и теперь в пресс-релизе подчеркнула масштаб интереса: с момента старта первой версии модели Gemma были загружены более 400 миллионов раз. Кроме того, в экосистеме накопилось свыше 100 тысяч модификаций (вариантов) — это означает, что разработчики не просто скачивают модели, но и адаптируют их под конкретные сценарии: от чат-ассистентов до задач классификации, извлечения данных и помощи в программировании.

Состав семейства: четыре размера моделей

В линейку Gemma 4 входят четыре конфигурации по размеру и назначению:

Effective 2B
Effective 4B
26B Mixture of Experts
31B Dense

Для понимания терминов: Mixture of Experts (MoE) — архитектура, где модель может задействовать разные “эксперты” в зависимости от запроса, что часто позволяет эффективнее расходовать вычисления. Dense означает более “равномерную” обработку без переключения экспертов — модель задействует весь набор параметров более предсказуемо.

По оценкам на лидерборде Arena AI для текстовых задач: модель 31B заняла третье место среди открытых моделей в мире, а 26B расположилась на шестой позиции. При этом Google отмечает, что обе модели опираются на ту же исследовательскую и технологическую базу, что и Gemini 3.

Возможности: от рассуждений до мультимодальности

Google позиционирует Gemma 4 как систему, рассчитанную не только на ответы в режиме “вопрос—ответ”. Модели поддерживают:

Улучшенные рассуждения (advanced reasoning) — способность точнее выстраивать логические цепочки при решении задач.
Агентные сценарии (agentic workflows) с вызовом функций — когда модель может работать как “оркестратор” и обращаться к инструментам, передавая параметры.
Структурированный вывод в формате JSON — это полезно для интеграции с приложениями, где данные нужно обрабатывать программно.
Генерацию кода — создание фрагментов программного кода по запросу.
Обработку видео, изображений и аудио “на уровне модели” (native processing), то есть мультимодальные данные учитываются непосредственно в вычислительном процессе.

Отдельно заявлен параметр контекстного окна — это максимальный объем текста/данных, который модель способна “держать в голове” за один проход. В линейке есть:

Edge-модели с контекстным окном 128K
Более крупные модели — до 256K

Также указано, что обучение проводилось на более чем 140 языках, что важно для международных приложений и локализации.

Железо и режим работы: от одного GPU до офлайн-настройки

Особое внимание в описании уделено развертыванию. Google сообщила, что не-квантизированные веса в формате bfloat16 для моделей 26B и 31B помещаются на одном NVIDIA H100 с объемом памяти 80GB.

Под unquantized bfloat16 обычно понимают веса в 16-битном формате с плавающей точкой bfloat16 без агрессивного сжатия (квантизации). Это часто сохраняет качество, но требует больше вычислительных ресурсов и памяти.

Для устройств “на краю” (edge) — то есть для сценариев, где вычисления выполняются ближе к пользователю, а не в дата-центре — предназначены Effective 2B и Effective 4B. Эти модели рассчитаны на мобильные устройства и устройства интернета вещей. Google подчеркивает, что они могут работать в офлайн-режиме на оборудовании, включая:

телефоны
Raspberry Pi
NVIDIA Jetson Orin Nano

По словам Google, edge-модели создавались совместно с командами и партнерами: Pixel team, Qualcomm Technologies и MediaTek. Смысл такого партнерства обычно в том, чтобы адаптировать модели под возможности конкретных чипов и программных стеков, а также повысить эффективность работы на устройстве.

Где получить Gemma 4 и как развернуть

Доступность Gemma 4 заявлена сразу в нескольких средах:

Google AI Studio
Google AI Edge Gallery
Android Studio

При этом “под ключ” поддерживаются и популярные инструменты сообщества и инфраструктуры, включая Hugging Face, vLLM, llama.cpp, MLX, Ollama и NVIDIA NIM. Важный момент: Google также указывает, что веса можно загрузить через Hugging Face, Kaggle или Ollama.

Для развертывания в облаке предусмотрены варианты на платформе Google Cloud: Vertex AI, Cloud Run, GKE, а также сервисы с ускорением через TPU (Google Cloud’s TPU-accelerated serving). Это позволяет выбирать подход по задаче: от быстрых прототипов до масштабируемых производственных развертываний.

Контекст: почему именно открытые модели сейчас в центре внимания

Открытые модели вроде Gemma 4 становятся особенно заметными на фоне того, как компании и разработчики стремятся к контролю над технологиями: от возможности проверять качество и дорабатывать ответы под свои нужды до снижения зависимости от “закрытых” платформ. Лицензия Apache 2.0 и широкая совместимость с популярными стеками помогают быстрее запускать эксперименты и интеграции — как в облаке, так и на устройствах.