MWS AI создала тест для оценки ИИ-моделей на русском

MWS AI выпустила первый бенчмарк для оценки мультимодальных способностей ИИ-моделей на русском языке. Компания, входящая в МТС Web Services, разработала MWS Vision Bench для объективной оценки работы с русскоязычными документами.

Новый бенчмарк стал своеобразным аналогом международных тестов OCRBench и MMMU. Разработчики отмечают, что существующие тесты плохо охватывают русский язык, из-за чего оценка моделей для работы с русскоязычными мультимодальными документами проводилась методом проб и ошибок, без должной объективности.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

MWS Vision Bench включает 800 изображений и 2580 заданий различной направленности. Бенчмарк позволяет оценить анализ офисных и личных документов, схем, рукописных записей, таблиц, чертежей, диаграмм и графиков – всего, что может встретиться в реальных рабочих сценариях.

Валидационная часть бенчмарка опубликована в открытом доступе на платформе HuggingFace. Разработчики также выложили код в открытый репозиторий на GitHub, где можно найти готовый скрипт для тестирования любой модели, включая собственные разработки.

На данный момент лучшие результаты в тесте показывают Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. Интересно, что GPT-5 заняла только седьмое место, что стало неожиданностью для многих наблюдателей.

Появление русскоязычного мультимодального бенчмарка имеет большое значение для развития ИИ-технологий в России. Теперь разработчики получили инструмент для объективной оценки способностей моделей работать с русскоязычным контентом, что особенно важно, учитывая, что львиная доля бизнес-задач связана именно с анализом документов на русском языке.

MWS Vision Bench может стать стандартом для оценки мультимодальных моделей в русскоязычном сегменте рынка ИИ и помочь в создании более эффективных решений для бизнеса.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.