Нейросеть OpenAI обрела голос

OpenAI представила новую языковую модель GPT-4о, которая может генерировать текст, звук и изображения. Компания собирается внедрить ИИ-модель в свою продукцию. В OpenAI считают, что GPT-4o сможет улучшить работу чат-бота ChatGPT, в котором уже есть голосовой режим. Однако новая технология будет направлена на большее взаимодействие с нейросетью именно как с помощником — например, его можно будет прервать во время ответа.

Также новая технология может менять интонацию и эмоции в голосе. Кроме того, языковая модель может реагировать на аудиовход за 232 миллисекунды, а в среднем ей требуется 320 миллисекунд, что аналогично времени реакции человека в разговоре. Помимо скорости, GPT-4o показала высокие результаты в способности рассуждать. ИИ-модель получила 88,7% в бенчмарке COT MMLU, который проверяет общие знания. Технология по производительности смогла обогнать GPT-4 Turbo.  В том числе в ИИ-модели улучшена работа с изображениями. Она качественнее анализирует изображения, графики и скриншоты, в отличие от существующих технологий.  «GPT-4o также прошла обширную внешнюю переподготовку с привлечением более 70 внешних экспертов в таких областях, как социальная психология, предвзятость, а также дезинформация, для выявления рисков, которые могут появиться с появлением новых добавленных модальностей. Мы использовали эти знания для разработки наших мер по обеспечению информации», — сообщили в OpenAI. GPT-4o доступна как в платной, так и в бесплатной версии. При превышении лимита запроса у бесплатных пользователей произойдет переключение на GPT-3.5, а у платных — на GPT-4.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

Digital

AdIndex

Свежие комментарии

Прогресс

Нейросеть OpenAI обрела голос