Компания Mistral анонсировала собственную OCR-модель, громко заявив о ней как о «лучшей в мире». OCR (оптическое распознавание символов) – это технология преобразования изображений текста в машиночитаемый формат, нечто вроде doc2text или image2text. По внутренним неопубликованным бенчмаркам самой Mistral система демонстрирует превосходные результаты. Она отлично справляется с разными языками, математическими формулами, таблицами, изображениями, рукописными документами и сканами.
Однако независимые бенчмарки рисуют совершенно иную картину. Согласно исследованиям, опубликованным на reducto.ai и runpulse.com, модель Gemini Flash 2.0 от Google со многими задачами справляется заметно лучше. А в тесте на открытых данных разработчиков другой OCR-системы, Mistral и вовсе оказался только на шестом месте.
Пользователи в социальных сетях также активно сообщают о проблемах с галлюцинациями при распознавании рукописных текстов – критической проблеме для подобных систем.
Задача OCR, несмотря на кажущуюся простоту, остается многосоставной и нетривиальной, особенно когда речь идет о распознавании сканов низкого качества или неразборчивых врачебных рецептов. До сегодняшнего дня задача OCR в машинном обучении до конца не решена – ни одна система не обеспечивает 100% точности распознавания.
Более того, решение позиционируется как экономически эффективное и быстрое: 1000-2000 страниц обрабатываются всего за 1 доллар и 1 минуту, что делает технологию привлекательной для бизнес-применений.
Модель от Mistral, безусловно, представляет собой серьезный шаг вперед, но громкое заявление о статусе «лучшей в мире» пока вызывает обоснованные сомнения у экспертов. Для окончательных выводов потребуется провести больше независимых тестов. А пока каждый желающий может оценить возможности новой системы самостоятельно – через чат на сайте mistral.ai или через API.