Moonshot представила Kimi K2.5 — визуального агента для сложных задач, кода и мультимодальности. Модель с открытым исходным кодом показала рекордные результаты на агентных тестах и стала лидером среди open-source решений.
На глобальных агентных бенчмарках модель установила новый уровень. HLE full set — 50,2%, это лучший результат в категории. BrowseComp показал 74,9%. Обе цифры выше конкурентов.
Узнать подробнее про клуб ShareAI
По зрению и коду Kimi K2.5 обошла всех среди открытых моделей. MMMU Pro — 78,5%, VideoMMMU — впечатляющие 86,6%. На SWE-bench Verified модель набрала 76,8%. Это очень высокий показатель для работы с кодом.
Главная фишка называется Code with Taste. Модель превращает чаты, изображения и видео в красивые сайты. Не просто HTML, а страницы с анимацией и выразительным движением. Это про эстетику, а не только функциональность.
Вторая прорывная возможность — Agent Swarm в бета-версии. Система запускает самонаправленные агенты, которые работают параллельно. До 100 суб-агентов одновременно. Они делают до 1500 вызовов инструментов.
Скорость работы роя агентов в 4,5 раза выше по сравнению с одиночным агентом. Это уже не один умный бот, а распределенная система ИИ-исполнителей. Каждый агент решает свою подзадачу независимо.
Moonshot позиционирует K2.5 как полноценного визуального агента. Он понимает изображения и видео так же хорошо, как текст. Может работать с кодом на уровне профессиональных инструментов. И при этом создает готовые продукты с дизайном.
Agent Swarm меняет подход к решению задач. Вместо одного агента, который делает все по очереди, система распределяет работу. Сто агентов могут одновременно искать информацию, писать код, проверять результаты и собирать итоговое решение.
Ограничение в 1500 вызовов инструментов на задачу показывает масштаб возможностей. Это очень большое число для одной операции. Система может использовать десятки разных инструментов много раз, пока не получит нужный результат.
Результаты на бенчмарках подтверждают, что K2.5 работает не только в теории. 50,2% на HLE full set — это конкретное достижение. Для агентных задач, где модель должна сама планировать действия и использовать инструменты, такой показатель очень высок.
Open-source статус делает модель доступной для разработчиков. Можно изучить архитектуру, адаптировать под свои задачи, встроить в продукты. Moonshot не закрывает технологию за платным API.

