OpenAI представляет обновленный голосовой режим ChatGPT с минимальными задержками для подписчиков Plus
В мае OpenAI объявила, что новый голосовой режим ChatGPT будет использовать аудиовозможности модели, позволяя общаться с пользователями практически без задержек. Эта функция станет доступна подписчикам ChatGPT Plus.
Команда OpenAI описала голосовые возможности GPT-4o как единую модель, которая обрабатывает текст, изображения и звук одной нейронной сетью.
В июне OpenAI сообщила о задержке внедрения расширенного голосового режима на месяц. Компания заявила, что требуется больше времени для улучшения способности модели обнаруживать и отклонять нежелательный контент, а также для подготовки инфраструктуры к масштабированию.
Генеральный директор OpenAI Сэм Альтман подтвердил, что альфа-версия голосового режима станет доступной на следующей неделе для подписчиков ChatGPT Plus.
Текущий голосовой режим в ChatGPT имеет задержки в 2,8 секунды у GPT-3.5 и 5,4 секунды у GPT-4.
Модель GPT-4o способна реагировать на аудиовход за 232 миллисекунды, в среднем за 320 миллисекунд, и общается голосом с интонациями, запоминая все беседы с пользователем.
Французский ИИ-стартап Kyutai представил голосового помощника Moshi, который превосходит ChatGPT по возможностям. Moshi обрабатывает запросы и отвечает на них без задержек, используя 70 различных эмоций и акцентов.