Microsoft создал ИИ-модель Mu для локальных ИИ-агентов в Windows

Компания Microsoft анонсировала новую локальную языковую модель Mu, оптимизированную для работы на нейронных процессорах (NPU) компьютеров Copilot+. На данный момент модель используется для работы агента в настройках Windows, который преобразует запросы на обычном языке в системные функции.

Разработка обеспечивает эффективную обработку сложных запросов и работает полностью на NPU со скоростью свыше 100 токенов в секунду. Ключевое отличие Mu от большинства современных языковых моделей заключается в использовании архитектуры “энкодер-декодер” вместо распространенной схемы “декодер-онли”.

Такая конструкция позволяет сначала преобразовать входные данные в фиксированное представление, а затем на его основе генерировать ответ. Тесты на процессоре Qualcomm Hexagon показали снижение задержки первого токена на 47% и увеличение скорости декодирования в 4,7 раза по сравнению с обычными моделями такого же размера.

Модель Mu имеет 330 млн параметров и содержит три ключевых улучшения: двойную нормализацию слоев, роторные позиционные встраивания и группированное запросное внимание. Эти технические решения позволяют повысить производительность при сохранении компактных размеров модели.

Разработчики тщательно оптимизировали модель для нейронных процессоров, подбирая размеры слоев под возможности NPU, распределяя параметры между энкодером и декодером в соотношении примерно 2 к 1, применяя технику разделения весов и используя только эффективные для NPU операции.

Обучение Mu проводилось на графических процессорах A100 в облаке Azure и включало предварительное обучение на высококачественных образовательных данных, дистилляцию знаний из моделей Phi от Microsoft и дополнительную настройку для конкретных задач.