MWS AI выпустила первый бенчмарк для оценки мультимодальных способностей ИИ-моделей на русском языке. Компания, входящая в МТС Web Services, разработала MWS Vision Bench для объективной оценки работы с русскоязычными документами.
Новый бенчмарк стал своеобразным аналогом международных тестов OCRBench и MMMU. Разработчики отмечают, что существующие тесты плохо охватывают русский язык, из-за чего оценка моделей для работы с русскоязычными мультимодальными документами проводилась методом проб и ошибок, без должной объективности.
Узнать подробнее про клуб ShareAI
MWS Vision Bench включает 800 изображений и 2580 заданий различной направленности. Бенчмарк позволяет оценить анализ офисных и личных документов, схем, рукописных записей, таблиц, чертежей, диаграмм и графиков – всего, что может встретиться в реальных рабочих сценариях.
Валидационная часть бенчмарка опубликована в открытом доступе на платформе HuggingFace. Разработчики также выложили код в открытый репозиторий на GitHub, где можно найти готовый скрипт для тестирования любой модели, включая собственные разработки.
На данный момент лучшие результаты в тесте показывают Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. Интересно, что GPT-5 заняла только седьмое место, что стало неожиданностью для многих наблюдателей.
Появление русскоязычного мультимодального бенчмарка имеет большое значение для развития ИИ-технологий в России. Теперь разработчики получили инструмент для объективной оценки способностей моделей работать с русскоязычным контентом, что особенно важно, учитывая, что львиная доля бизнес-задач связана именно с анализом документов на русском языке.
MWS Vision Bench может стать стандартом для оценки мультимодальных моделей в русскоязычном сегменте рынка ИИ и помочь в создании более эффективных решений для бизнеса.