Microsoft обновила bitnet.cpp — фреймворк для запуска 1-битных языковых моделей прямо на CPU. Главное: модель на 100 миллиардов параметров теперь работает на одном процессоре со скоростью 5–7 токенов в секунду. Это примерно скорость чтения вслух.
1-битные модели (точнее, 1.58-битные) хранят веса не как обычные числа с плавающей точкой, а как тернарные значения: -1, 0 или +1. Это радикально сокращает объём памяти и упрощает вычисления — умножение заменяется простым сложением.
На архитектуре x86 скорость выросла в 2.4–6.2 раза по сравнению с обычными моделями, потребление энергии упало на 72–82%. На ARM (например, Apple M-серия) — ускорение в 1.4–5 раз, экономия энергии 55–70%.
Январское обновление добавило параллельные ядра с настраиваемым тайлингом и квантизацию эмбеддингов. Это дало ещё 1.15–2.1× сверх предыдущей реализации в зависимости от железа и задачи.
Среди поддерживаемых моделей — BitNet b1.58 от 0.7B до 3.3B параметров, Llama3-8B в 1.58-битном формате, семейство Falcon3 от 1B до 10B. Официальная модель Microsoft — BitNet-b1.58-2B-4T доступна на Hugging Face.
Фреймворк основан на llama.cpp и поддерживает Windows, Linux и macOS. GPU-поддержка появилась в мае 2025 года, поддержка NPU анонсирована.
100-миллиардная модель на CPU без видеокарты — это не демонстрация возможностей на бумаге, а рабочий код в открытом репозитории. Для большинства задач 5–7 токенов в секунду вполне достаточно.