Компания DeepSeek представила новую открытую модель DeepSeek-OCR для распознавания документов. Эта система не только извлекает текст со страниц, но и восстанавливает всю структуру документа: заголовки, списки, таблицы и подписи к рисункам.
Результат работы модели доступен в формате Markdown, который удобен для индексации и дальнейшего использования в нейросетях. Система распространяется бесплатно под лицензией MIT и уже доступна на платформе Hugging Face.
Узнать подробнее про клуб ShareAI
Главное преимущество DeepSeek-OCR — технология «оптического сжатия контекста». Модель не пытается описать каждую деталь на странице, а выделяет только важное: текст и структуру документа. Такой подход сокращает объем данных в 10-20 раз.
Это напрямую снижает стоимость обработки документов. Чем меньше токенов получается на выходе, тем дешевле и быстрее с ними работает любая языковая модель.
DeepSeek-OCR использует особый механизм — «визуальные токены». Это своего рода «взгляды» на разные части изображения. Даже при небольшом количестве таких токенов (64-100) точность распознавания остается высокой — 97-99%.
Для сложных страниц в системе предусмотрен специальный режим Gundam. В этом режиме документ автоматически делится на отдельные фрагменты. Сложные участки анализируются по отдельности, что не снижает общую скорость работы.
Модель также умеет привязывать распознанные элементы к их точным координатам на странице. Благодаря этому легко найти нужную таблицу, подпись или схему.
На тестовых наборах Fox и OmniDocBench система показала отличные результаты. В тестах Fox точность практически не падает даже при минимальном числе визуальных токенов. При этом степень сжатия информации достигает 20 раз.
В тестах OmniDocBench новая модель DeepSeek-OCR сохраняет низкий уровень ошибок даже при значительно меньшем числе токенов, чем у тяжелых мультимодальных моделей. Такие модели, как Qwen или GOT-OCR 2.0, требуют больше вычислительных ресурсов для достижения того же качества.
Простыми словами, DeepSeek-OCR обеспечивает такое же высокое качество распознавания документов, но работает быстрее и дешевле существующих решений. Это делает технологию особенно привлекательной для компаний, которым нужно обрабатывать большие объемы документов при ограниченном бюджете.