Команда Moonshot AI поделилась планами по развитию своей языковой модели Kimi K2. В ходе сессии вопросов и ответов на платформе Reddit разработчики рассказали о нескольких новых версиях, включая компактные варианты для запуска на потребительских видеокартах, а также о добавлении компьютерного зрения и агентного режима.
В ближайшие месяцы линейка K2 пополнится несколькими дополнительными версиями, ориентированными на локальное и корпоративное использование. Компания планирует выпустить «средние» и компактные модели с количеством параметров от 15 до 30 миллиардов. Эти версии смогут работать на более доступных графических процессорах, таких как RTX 3090, 4090 или 5090, что сделает их подходящими для локального запуска и экспериментов.
Узнать подробнее про клуб ShareAI
Еще одно важное направление развития — мультимодальность. Версия K2 с поддержкой компьютерного зрения уже находится в активной разработке. Она сможет анализировать графики, скриншоты, PDF-документы, а также отвечать на вопросы по визуальному контенту. По словам разработчиков, они выпустили сначала текстовую версию, чтобы отладить архитектуру и процесс обучения модели перед добавлением визуальных возможностей.
Третье важное направление — полноценный агентный режим. Он позволит K2 действовать по схеме «размышление — использование инструмента — размышление». Это означает, что модель сможет самостоятельно использовать поиск, выполнять код или обрабатывать данные, возвращаясь к рассуждению после каждого шага. Такой формат особенно полезен для исследований, анализа данных и программирования. Основная сложность, которую сейчас решает команда, — обеспечить стабильность в таких циклах и избежать ошибок при вызове инструментов.
С технической стороны, K2 уже перешла на формат INT4 для инференса, что позволило ускорить работу без потери точности. Модель использует гибридное внимание KDA + NoPE MLA и оптимизатор Muon, прошедший масштабное тестирование.
Разработчики также вскользь упомянули о работе над K3 — следующим поколением своей модели. Хотя разработка находится на ранней стадии, они в шутливой форме отметили, что новинка выйдет «быстрее, чем Сэм Альтман построит дата-центр на триллион долларов».
Расширение возможностей Kimi K2 демонстрирует, что китайские разработчики искусственного интеллекта активно развивают свои технологии, стремясь конкурировать с ведущими западными моделями как по функциональности, так и по доступности для разных сценариев использования.

