Компания Google объявила о выходе Gemma 4 — нового семейства открытых моделей искусственного интеллекта. Примечательно, что доступ к разработке и распространению организован на условиях лицензии Apache 2.0, то есть проект ориентирован на сообщество разработчиков и позволяет использовать модели в собственных продуктах и исследованиях.
Что представляет собой Gemma 4 и почему это важно
Gemma 4 — это продолжение линейки Gemma, где компания делает ставку на открытые веса и воспроизводимость. Ранее Google уже выводила первое поколение Gemma, и теперь в пресс-релизе подчеркнула масштаб интереса: с момента старта первой версии модели Gemma были загружены более 400 миллионов раз. Кроме того, в экосистеме накопилось свыше 100 тысяч модификаций (вариантов) — это означает, что разработчики не просто скачивают модели, но и адаптируют их под конкретные сценарии: от чат-ассистентов до задач классификации, извлечения данных и помощи в программировании.
Состав семейства: четыре размера моделей
В линейку Gemma 4 входят четыре конфигурации по размеру и назначению:
- Effective 2B
- Effective 4B
- 26B Mixture of Experts
- 31B Dense
Для понимания терминов: Mixture of Experts (MoE) — архитектура, где модель может задействовать разные “эксперты” в зависимости от запроса, что часто позволяет эффективнее расходовать вычисления. Dense означает более “равномерную” обработку без переключения экспертов — модель задействует весь набор параметров более предсказуемо.
По оценкам на лидерборде Arena AI для текстовых задач: модель 31B заняла третье место среди открытых моделей в мире, а 26B расположилась на шестой позиции. При этом Google отмечает, что обе модели опираются на ту же исследовательскую и технологическую базу, что и Gemini 3.
Возможности: от рассуждений до мультимодальности
Google позиционирует Gemma 4 как систему, рассчитанную не только на ответы в режиме “вопрос—ответ”. Модели поддерживают:
- Улучшенные рассуждения (advanced reasoning) — способность точнее выстраивать логические цепочки при решении задач.
- Агентные сценарии (agentic workflows) с вызовом функций — когда модель может работать как “оркестратор” и обращаться к инструментам, передавая параметры.
- Структурированный вывод в формате JSON — это полезно для интеграции с приложениями, где данные нужно обрабатывать программно.
- Генерацию кода — создание фрагментов программного кода по запросу.
- Обработку видео, изображений и аудио “на уровне модели” (native processing), то есть мультимодальные данные учитываются непосредственно в вычислительном процессе.
Отдельно заявлен параметр контекстного окна — это максимальный объем текста/данных, который модель способна “держать в голове” за один проход. В линейке есть:
- Edge-модели с контекстным окном 128K
- Более крупные модели — до 256K
Также указано, что обучение проводилось на более чем 140 языках, что важно для международных приложений и локализации.
Железо и режим работы: от одного GPU до офлайн-настройки
Особое внимание в описании уделено развертыванию. Google сообщила, что не-квантизированные веса в формате bfloat16 для моделей 26B и 31B помещаются на одном NVIDIA H100 с объемом памяти 80GB.
Под unquantized bfloat16 обычно понимают веса в 16-битном формате с плавающей точкой bfloat16 без агрессивного сжатия (квантизации). Это часто сохраняет качество, но требует больше вычислительных ресурсов и памяти.
Для устройств “на краю” (edge) — то есть для сценариев, где вычисления выполняются ближе к пользователю, а не в дата-центре — предназначены Effective 2B и Effective 4B. Эти модели рассчитаны на мобильные устройства и устройства интернета вещей. Google подчеркивает, что они могут работать в офлайн-режиме на оборудовании, включая:
- телефоны
- Raspberry Pi
- NVIDIA Jetson Orin Nano
По словам Google, edge-модели создавались совместно с командами и партнерами: Pixel team, Qualcomm Technologies и MediaTek. Смысл такого партнерства обычно в том, чтобы адаптировать модели под возможности конкретных чипов и программных стеков, а также повысить эффективность работы на устройстве.
Где получить Gemma 4 и как развернуть
Доступность Gemma 4 заявлена сразу в нескольких средах:
- Google AI Studio
- Google AI Edge Gallery
- Android Studio
При этом “под ключ” поддерживаются и популярные инструменты сообщества и инфраструктуры, включая Hugging Face, vLLM, llama.cpp, MLX, Ollama и NVIDIA NIM. Важный момент: Google также указывает, что веса можно загрузить через Hugging Face, Kaggle или Ollama.
Для развертывания в облаке предусмотрены варианты на платформе Google Cloud: Vertex AI, Cloud Run, GKE, а также сервисы с ускорением через TPU (Google Cloud’s TPU-accelerated serving). Это позволяет выбирать подход по задаче: от быстрых прототипов до масштабируемых производственных развертываний.
Контекст: почему именно открытые модели сейчас в центре внимания
Открытые модели вроде Gemma 4 становятся особенно заметными на фоне того, как компании и разработчики стремятся к контролю над технологиями: от возможности проверять качество и дорабатывать ответы под свои нужды до снижения зависимости от “закрытых” платформ. Лицензия Apache 2.0 и широкая совместимость с популярными стеками помогают быстрее запускать эксперименты и интеграции — как в облаке, так и на устройствах.
