DeepSeek добавил зрение: китайская нейросеть научилась анализировать изображения

DeepSeek запустил поддержку изображений в своём чат-интерфейсе. Теперь пользователи могут загружать картинки и задавать вопросы о них — китайская лаборатория освоила то, что в индустрии называют vision, или мультимодальностью.

До этого момента DeepSeek был известен прежде всего текстовыми моделями — DeepSeek-R1 и V3 произвели настоящий переполох в начале 2025 года, когда выяснилось, что их обучение обошлось в разы дешевле, чем у западных конкурентов. Мультимодальность у DeepSeek уже была — серия моделей VL работала в API, — но теперь vision стала доступна напрямую в чат-интерфейсе.

Vision — это когда модель видит картинку так же, как читает текст. Можно загрузить скриншот с ошибкой, фотографию документа, чертёж или просто снимок из жизни и попросить объяснить, что на нём происходит. Для практического применения это меняет многое: разбор счетов, анализ медицинских снимков, помощь с кодом по скриншоту.

GPT-4o, Claude и Gemini работают с изображениями уже не первый год. Но DeepSeek традиционно берёт доступностью: модели открытые, API дешевле, а для русскоязычных пользователей сам сервис работает без VPN.

Пока неизвестно, насколько хорошо новая функция справляется со сложными задачами — распознаванием текста на изображениях, пространственным анализом или медицинскими данными. У DeepSeek есть история: они быстро догоняли по текстовым бенчмаркам — и в мультимодальных задачах модели VL-серии уже демонстрировали результаты на уровне конкурентов.