OpenAI представила три аудиомодели для голосовых агентов

7 мая OpenAI представила на платформе для разработчиков сразу три новых аудиомодели. В компании сделали акцент на одном: голосовые программные агенты должны звучать естественнее, лучше понимать собеседника и выполнять задачи почти в реальном времени — то есть реагировать на речь во время разговора, а не после его окончания.

Запуск новых моделей в виде API (программного интерфейса для разработчиков) фактически расширяет привычные сценарии работы с ChatGPT. Если раньше акцент чаще делался на текстовых диалогах и расшифровке речи, то теперь речь идет о системах, которые могут одновременно слушать, переводить и действовать в ходе живого общения.

Какие модели представила OpenAI

Новые решения получили названия GPT-Realtime-2, GPT-Realtime-Realtime-Translate и GPT-Realtime-Whisper. По словам OpenAI, их можно протестировать в developer playground — среде, где разработчики экспериментируют с возможностями моделей до внедрения в собственные продукты.

GPT-Realtime-2: голосовые агенты для сложных задач

Модель GPT-Realtime-2 нацелена на более трудные запросы и работу в динамичной устной коммуникации. В описании продукта отдельно отмечены ключевые способности:

вызов инструментов (tool calling) — когда агент обращается к внешним функциям или сервисам для выполнения действий;
обработка прерываний — способность продолжать работу, если пользователь меняет ход разговора;
удержание контекста на протяжении более длинных голосовых сессий, чтобы ответы не «сбрасывались» при продолжении диалога.

GPT-Realtime-Translate: перевод в больших языковых парах

Второй инструмент — GPT-Realtime-Translate — рассчитан на перевод речи. Модель поддерживает преобразование из более чем 70 языков в 13 языков вывода. Такой набор сценариев особенно востребован там, где важны коммуникации между разными языковыми группами:

клиентская поддержка (операторы и чат-агенты, обслуживающие аудиторию на разных языках);
образование (объяснения и обратная связь для студентов);
другие практические среды, где перевод должен происходить быстро и по ходу разговора.

GPT-Realtime-Whisper: «живые» субтитры и протоколирование

Третья модель — GPT-Realtime-Whisper — ориентирована на распознавание речи (speech-to-text) в режиме реального времени. Ее назначение — помогать фиксировать содержание разговора по мере того, как человек говорит. На практике это может выглядеть как:

создание субтитров (captions) в момент произнесения фраз;
заметки по итогам встречи (meeting notes);
обновления по рабочим процессам (workflow updates), когда информация из речи автоматически превращается в понятные для команды записи.

Кто тестирует разработки

Среди компаний, которые уже проводят проверки новых моделей, названы: Zillow (онлайн-рынок недвижимости), Priceline (онлайн-турагентство) и Deutsche Telekom (европейская телекоммуникационная компания). Для крупных сервисов подобные пилоты обычно связаны с внедрением голосовых ассистентов в поддержку клиентов, автоматизацию коммуникаций и улучшение пользовательского опыта.

Сколько стоят новые модели

OpenAI раскрыла тарифы для тестирования и использования. Стоимость зависит от типа модели и единиц измерения:

GPT-Realtime-2 — от $32 за 1 миллион аудиовходных токенов;
GPT-Realtime-Translate — $0.034 за минуту использования;
GPT-Realtime-Whisper — $0.017 за минуту использования.

Почему это важно: от распознавания к «агентам»

Термины вроде API и «аудиомодели для реального времени» означают, что разработчики получают не просто набор функций, а инструменты для построения голосовых сценариев «в потоке». В таком подходе модель должна не ждать завершения речи, а реагировать в ходе разговора: интерпретировать смысл, при необходимости переводить и запускать действия через инструменты. Именно это и является ключевой идеей релиза — приблизить голосовых помощников к более разговорному и практическому поведению.