МТС создала мультимодальную ИИ-модель

Дочерняя для МТС MWS AI выпустила первую мультимодальную модель — Cotype VL.

Она может одновременно анализировать изображения и текст. Об этом

Forbes рассказал генеральный директор MWS AI Денис

Филиппов.

Cotype VL содержит 32 млрд параметров и распознает изображения с печатным,

рукописным и смешанным текстом.

Модель также учитывает визуальный контекст при

переводе с одного языка на другой, умеет создавать краткое и развернутое

описание изображений. Также модель может отвечать на сложные вопросы, требующие

рассуждений, сравнений и выводов.

Ее обучали с помощью набора данных из различных доменов, включая финансы,

промышленность, IT, телеком и здравоохранение. Это более 150 000 документов с

визуальными данными: контракты, письма, договоры, таблицы и схемы с картами и

чертежами. Также ИИ изучал справки, открытки, чеки, билеты, грамоты,

медицинские анализы и другое.

«Cotype VL поддерживает русский, английский, китайский и другие языки,

что делает ее удобной для компаний с международным документооборотом», —

рассказали разработчики.

Также представлен первый бенчмарк для оценки качества таких моделей, — MWS

Vision Bench. Эксперты оценивают стоимость разработки в несколько сотен млн

руб.

Это не первая мультимодальная модель в России — первыми ее создали эксперты

Института искусственного интеллекта AIRI.

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

AdIndex