Перейти к содержимому
MarketBriefs

MarketBriefs

Новости экономики, рынка акций и фондов

Основное меню
  • О проекте
  • Редакция
  • MarketBriefs
  • Новости
  • OpenAI показала три аудиомодели для голосовых агентов в реальном времени
  • Новости

OpenAI показала три аудиомодели для голосовых агентов в реальном времени

marketbriefs 7 мая 2026, 21:28 1 мин. чтения
openai-unveils-three-audio-models-c039

7 мая OpenAI представила на платформе для разработчиков сразу три новых аудиомодели. В компании сделали акцент на одном: голосовые программные агенты должны звучать естественнее, лучше понимать собеседника и выполнять задачи почти в реальном времени — то есть реагировать на речь во время разговора, а не после его окончания.

Запуск новых моделей в виде API (программного интерфейса для разработчиков) фактически расширяет привычные сценарии работы с ChatGPT. Если раньше акцент чаще делался на текстовых диалогах и расшифровке речи, то теперь речь идет о системах, которые могут одновременно слушать, переводить и действовать в ходе живого общения.

Какие модели представила OpenAI

Новые решения получили названия GPT-Realtime-2, GPT-Realtime-Realtime-Translate и GPT-Realtime-Whisper. По словам OpenAI, их можно протестировать в developer playground — среде, где разработчики экспериментируют с возможностями моделей до внедрения в собственные продукты.

GPT-Realtime-2: голосовые агенты для сложных задач

Модель GPT-Realtime-2 нацелена на более трудные запросы и работу в динамичной устной коммуникации. В описании продукта отдельно отмечены ключевые способности:

  • вызов инструментов (tool calling) — когда агент обращается к внешним функциям или сервисам для выполнения действий;
  • обработка прерываний — способность продолжать работу, если пользователь меняет ход разговора;
  • удержание контекста на протяжении более длинных голосовых сессий, чтобы ответы не «сбрасывались» при продолжении диалога.

GPT-Realtime-Translate: перевод в больших языковых парах

Второй инструмент — GPT-Realtime-Translate — рассчитан на перевод речи. Модель поддерживает преобразование из более чем 70 языков в 13 языков вывода. Такой набор сценариев особенно востребован там, где важны коммуникации между разными языковыми группами:

  • клиентская поддержка (операторы и чат-агенты, обслуживающие аудиторию на разных языках);
  • образование (объяснения и обратная связь для студентов);
  • другие практические среды, где перевод должен происходить быстро и по ходу разговора.

GPT-Realtime-Whisper: «живые» субтитры и протоколирование

Третья модель — GPT-Realtime-Whisper — ориентирована на распознавание речи (speech-to-text) в режиме реального времени. Ее назначение — помогать фиксировать содержание разговора по мере того, как человек говорит. На практике это может выглядеть как:

  • создание субтитров (captions) в момент произнесения фраз;
  • заметки по итогам встречи (meeting notes);
  • обновления по рабочим процессам (workflow updates), когда информация из речи автоматически превращается в понятные для команды записи.

Кто тестирует разработки

Среди компаний, которые уже проводят проверки новых моделей, названы: Zillow (онлайн-рынок недвижимости), Priceline (онлайн-турагентство) и Deutsche Telekom (европейская телекоммуникационная компания). Для крупных сервисов подобные пилоты обычно связаны с внедрением голосовых ассистентов в поддержку клиентов, автоматизацию коммуникаций и улучшение пользовательского опыта.

Сколько стоят новые модели

OpenAI раскрыла тарифы для тестирования и использования. Стоимость зависит от типа модели и единиц измерения:

  • GPT-Realtime-2 — от $32 за 1 миллион аудиовходных токенов;
  • GPT-Realtime-Translate — $0.034 за минуту использования;
  • GPT-Realtime-Whisper — $0.017 за минуту использования.

Почему это важно: от распознавания к «агентам»

Термины вроде API и «аудиомодели для реального времени» означают, что разработчики получают не просто набор функций, а инструменты для построения голосовых сценариев «в потоке». В таком подходе модель должна не ждать завершения речи, а реагировать в ходе разговора: интерпретировать смысл, при необходимости переводить и запускать действия через инструменты. Именно это и является ключевой идеей релиза — приблизить голосовых помощников к более разговорному и практическому поведению.

Навигация по записям

Предыдущая: Разработчик Rave подал антимонопольный иск против Apple за удаление приложения
Следующая: Акции Hawkeye 360 выросли на 30% после IPO на $416 млн

Только опубликованные

  • Vernal Capital завершила IPO на $100 млн и начала торги на NYSE
  • Доходности U.S. Treasuries растут: Иран отверг план США по Ормузскому проливу
  • Microchip Technology повысила прогноз выручки: спрос на чипы растет
  • Акции IREN взлетели на 27% после партнёрства с Nvidia по ИИ-инфраструктуре
  • Акции Бразилии упали: Bovespa снизилась на 2,38% к закрытию торгов

Категории

  • Акции
  • Банки и финансы
  • Геополитика
  • Нефть и газ
  • Новости
  • Технологии
  • Фондовый рынок
  • Экономика
MarketBriefs 2026 - Все права защищены