Google представила Gemini 3.1 Flash Live: живое аудио

Google объявила о запуске Gemini 3.1 Flash Live — нового аудио- и голосового решения, ориентированного на общение в режиме реального времени. Главная цель разработки — сделать диалоги с ассистентом точнее и «живее» за счёт более низких задержек, чтобы пользователь не чувствовал паузы между вопросом и ответом.

Что представляет собой Gemini 3.1 Flash Live

Gemini 3.1 Flash Live — это модель, которая работает со звуком и голосом и предназначена для сценариев, где важны скорость реакции и качество понимания речи. Под «низкой задержкой» обычно понимают сокращение времени от момента, когда пользователь произнёс фразу, до момента, когда система начала отвечать: именно этот параметр чаще всего определяет, насколько разговор ощущается естественным.

Доступ к новинке организован в нескольких форматах:

Для разработчиков — превью через Gemini Live API в Google AI Studio.
Для бизнеса — через Gemini Enterprise for Customer Experience (решение для задач клиентского взаимодействия).
Для пользователей — через Search Live и Gemini Live.

Результаты тестов: точность и устойчивость к «шуму»

Компания оценила производительность Gemini 3.1 Flash Live на ряде специализированных испытаний.

На ComplexFuncBench Audio, бенчмарке для проверки многошагового вызова функций с ограничениями, модель показала 90,8%. В таких тестах система должна не просто распознавать речь, а корректно выполнять цепочку действий и следовать заданным правилам.

Дополнительно Gemini 3.1 Flash Live участвовала в Audio MultiChallenge от Scale AI — это проверка сложного следования инструкциям и рассуждений на длинном горизонте, причём условия приближены к реальным: учитываются перерывы в аудио и посторонние факторы. В этом испытании модель набрала 36,1%, при включённом режиме “thinking”. Под этим обычно подразумевается механизм, который позволяет модели глубже обрабатывать задачу перед формированием ответа.

Роль обратной связи от компаний

Оценку модели уже обсуждают и в прикладных сценариях. Среди организаций, которые поделились положительными впечатлениями о работе Gemini 3.1 Flash Live в своих процессах, названы Verizon (NYSE:VZ), LiveKit и The Home Depot (NYSE:HD).

Отдельно отмечены улучшения в понимании оттенков речи и звучания. В Google говорят о более точном «тональном» восприятии: модель должна лучше улавливать акустические нюансы — например, изменения тона, темпа и высоты голоса.

Кроме распознавания, система способна адаптировать ответы под эмоциональное состояние пользователя: при проявлениях раздражения или путаницы модель, по заявлению компании, меняет формулировки и подачу так, чтобы снизить напряжение в диалоге и помочь пользователю быстрее разобраться.

Что получат пользователи в голосовых сценариях

В потребительских приложениях Gemini Live делает ответы быстрее по сравнению с прежней моделью. Также заявлено, что диалоговый «контекст» сохраняется примерно вдвое дольше, что важно для длинных бесед, когда пользователю нужно продолжать обсуждение, не повторяя вводные.

Отдельная часть обновления связана с масштабированием Search Live. Модель поддерживает международное расширение сервиса: Search Live теперь доступен более чем в 200 странах и территориях и работает с мультиязычностью.

Защита контента: SynthID-водяной знак

Все аудиоматериалы, генерируемые Gemini 3.1 Flash Live, снабжаются SynthID-водяным знаком. Это невидимый маркер, встроенный в аудиопоток, который позволяет обнаружить, что запись была сгенерирована искусственно.

Google подчеркнула, что технология водяной маркировки предназначена для противодействия распространению недостоверной информации и для повышения прослеживаемости происхождения контента.

Коротко о предыстории

Тренд на «живые» голосовые ассистенты усилился в последние годы: пользователи всё чаще ожидают, что сервис будет вести диалог как человек — быстро, с пониманием контекста и без заметных пауз. Развитие аудиомоделей и инструментов для распознавания эмоций и нюансов речи стало ключевым направлением, поэтому релиз Gemini 3.1 Flash Live выглядит как очередной шаг к более естественному взаимодействию с голосом.