7 мая OpenAI представила на платформе для разработчиков сразу три новых аудиомодели. В компании сделали акцент на одном: голосовые программные агенты должны звучать естественнее, лучше понимать собеседника и выполнять задачи почти в реальном времени — то есть реагировать на речь во время разговора, а не после его окончания.
Запуск новых моделей в виде API (программного интерфейса для разработчиков) фактически расширяет привычные сценарии работы с ChatGPT. Если раньше акцент чаще делался на текстовых диалогах и расшифровке речи, то теперь речь идет о системах, которые могут одновременно слушать, переводить и действовать в ходе живого общения.
Какие модели представила OpenAI
Новые решения получили названия GPT-Realtime-2, GPT-Realtime-Realtime-Translate и GPT-Realtime-Whisper. По словам OpenAI, их можно протестировать в developer playground — среде, где разработчики экспериментируют с возможностями моделей до внедрения в собственные продукты.
GPT-Realtime-2: голосовые агенты для сложных задач
Модель GPT-Realtime-2 нацелена на более трудные запросы и работу в динамичной устной коммуникации. В описании продукта отдельно отмечены ключевые способности:
- вызов инструментов (tool calling) — когда агент обращается к внешним функциям или сервисам для выполнения действий;
- обработка прерываний — способность продолжать работу, если пользователь меняет ход разговора;
- удержание контекста на протяжении более длинных голосовых сессий, чтобы ответы не «сбрасывались» при продолжении диалога.
GPT-Realtime-Translate: перевод в больших языковых парах
Второй инструмент — GPT-Realtime-Translate — рассчитан на перевод речи. Модель поддерживает преобразование из более чем 70 языков в 13 языков вывода. Такой набор сценариев особенно востребован там, где важны коммуникации между разными языковыми группами:
- клиентская поддержка (операторы и чат-агенты, обслуживающие аудиторию на разных языках);
- образование (объяснения и обратная связь для студентов);
- другие практические среды, где перевод должен происходить быстро и по ходу разговора.
GPT-Realtime-Whisper: «живые» субтитры и протоколирование
Третья модель — GPT-Realtime-Whisper — ориентирована на распознавание речи (speech-to-text) в режиме реального времени. Ее назначение — помогать фиксировать содержание разговора по мере того, как человек говорит. На практике это может выглядеть как:
- создание субтитров (captions) в момент произнесения фраз;
- заметки по итогам встречи (meeting notes);
- обновления по рабочим процессам (workflow updates), когда информация из речи автоматически превращается в понятные для команды записи.
Кто тестирует разработки
Среди компаний, которые уже проводят проверки новых моделей, названы: Zillow (онлайн-рынок недвижимости), Priceline (онлайн-турагентство) и Deutsche Telekom (европейская телекоммуникационная компания). Для крупных сервисов подобные пилоты обычно связаны с внедрением голосовых ассистентов в поддержку клиентов, автоматизацию коммуникаций и улучшение пользовательского опыта.
Сколько стоят новые модели
OpenAI раскрыла тарифы для тестирования и использования. Стоимость зависит от типа модели и единиц измерения:
- GPT-Realtime-2 — от $32 за 1 миллион аудиовходных токенов;
- GPT-Realtime-Translate — $0.034 за минуту использования;
- GPT-Realtime-Whisper — $0.017 за минуту использования.
Почему это важно: от распознавания к «агентам»
Термины вроде API и «аудиомодели для реального времени» означают, что разработчики получают не просто набор функций, а инструменты для построения голосовых сценариев «в потоке». В таком подходе модель должна не ждать завершения речи, а реагировать в ходе разговора: интерпретировать смысл, при необходимости переводить и запускать действия через инструменты. Именно это и является ключевой идеей релиза — приблизить голосовых помощников к более разговорному и практическому поведению.
