
Дочерняя для МТС MWS AI выпустила первую мультимодальную модель — Cotype VL.
Она может одновременно анализировать изображения и текст. Об этом
Forbes рассказал генеральный директор MWS AI Денис
Филиппов.
Cotype VL содержит 32 млрд параметров и распознает изображения с печатным,
рукописным и смешанным текстом.
Модель также учитывает визуальный контекст припереводе с одного языка на другой, умеет создавать краткое и развернутое
описание изображений. Также модель может отвечать на сложные вопросы, требующие
рассуждений, сравнений и выводов.
Ее обучали с помощью набора данных из различных доменов, включая финансы,
промышленность, IT, телеком и здравоохранение. Это более 150 000 документов с
визуальными данными: контракты, письма, договоры, таблицы и схемы с картами и
чертежами. Также ИИ изучал справки, открытки, чеки, билеты, грамоты,
медицинские анализы и другое.
«Cotype VL поддерживает русский, английский, китайский и другие языки,
что делает ее удобной для компаний с международным документооборотом», —
рассказали разработчики.
Также представлен первый бенчмарк для оценки качества таких моделей, — MWS
Vision Bench. Эксперты оценивают стоимость разработки в несколько сотен млн
руб.
Это не первая мультимодальная модель в России — первыми ее создали эксперты
Института искусственного интеллекта AIRI.
Свежие комментарии