Mistral запускает OCR-модель: заявлен статус "лучшей в мире"

Компания Mistral анонсировала собственную OCR-модель, громко заявив о ней как о «лучшей в мире». OCR (оптическое распознавание символов) – это технология преобразования изображений текста в машиночитаемый формат, нечто вроде doc2text или image2text. По внутренним неопубликованным бенчмаркам самой Mistral система демонстрирует превосходные результаты. Она отлично справляется с разными языками, математическими формулами, таблицами, изображениями, рукописными документами и сканами.

Однако независимые бенчмарки рисуют совершенно иную картину. Согласно исследованиям, опубликованным на reducto.ai и runpulse.com, модель Gemini Flash 2.0 от Google со многими задачами справляется заметно лучше. А в тесте на открытых данных разработчиков другой OCR-системы, Mistral и вовсе оказался только на шестом месте.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Пользователи в социальных сетях также активно сообщают о проблемах с галлюцинациями при распознавании рукописных текстов – критической проблеме для подобных систем.

Задача OCR, несмотря на кажущуюся простоту, остается многосоставной и нетривиальной, особенно когда речь идет о распознавании сканов низкого качества или неразборчивых врачебных рецептов. До сегодняшнего дня задача OCR в машинном обучении до конца не решена – ни одна система не обеспечивает 100% точности распознавания.

Более того, решение позиционируется как экономически эффективное и быстрое: 1000-2000 страниц обрабатываются всего за 1 доллар и 1 минуту, что делает технологию привлекательной для бизнес-применений.

Модель от Mistral, безусловно, представляет собой серьезный шаг вперед, но громкое заявление о статусе «лучшей в мире» пока вызывает обоснованные сомнения у экспертов. Для окончательных выводов потребуется провести больше независимых тестов. А пока каждый желающий может оценить возможности новой системы самостоятельно – через чат на сайте mistral.ai или через API.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Mistral запускает OCR-модель: заявлен статус «лучшей в мире»