Microsoft создала инновационную ИИ-модель, способную работать на обычных CPU

Разработчики компании заявили о создании крупнейшей 1-битной ИИ-модели, получившей название BitNet b1.58 2B4T. Особенность новинки в том, что она способна работать на обычных CPU и доступна под открытой лицензией MIT.

Согласно тестам исследователей, модель превосходит Gemma 3 1B от Google и Qwen 2.5 1.5B от Alibaba в тестах, включая GSM8K (набор математических задач школьного уровня) и PIQA (который проверяет навыки физического здравого смысла).

Так называемые «битнеты» представляют собой сжатые модели, специально разработанные для функционирования на «легком» оборудовании. В стандартных моделях веса, определяющие внутреннюю структуру модели, часто квантуются для обеспечения хорошей производительности на широком спектре устройств.

Квантование весов снижает количество битов — наименьших единиц, которые компьютер может обработать, — необходимых для представления этих весов, что позволяет моделям работать на чипах с меньшим объемом памяти и быстрее.

Битнеты квантуют веса всего до трех значений: -1, 0 и 1. Теоретически это делает их гораздо более эффективными с точки зрения памяти и вычислений по сравнению с большинством современных моделей.

Исследователи Microsoft утверждают, что BitNet b1.58 2B4T — это первый битнет с 2 млрд параметров, где «параметры» в основном являются синонимом «весов». Обученная на наборе данных из 4 триллионов токенов — что эквивалентно примерно 33 млн книг по одной из оценок — BitNet b1.58 2B4T превосходит традиционные модели аналогичных размеров, заявляют исследователи.

Возможно, еще более впечатляющим является тот факт, что BitNet b1.58 2B4T работает быстрее других моделей своего размера — в некоторых случаях вдвое быстрее — при использовании лишь малой доли памяти.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.