Microsoft представил новое семейство высокоэффективных ИИ-моделей Phi-4. Способных одновременно обрабатывать текст, изображения и речь при значительно меньших вычислительных затратах, чем существующие системы. Особого внимания заслуживает модель Phi-4-Multimodal с всего 5,6 млрд параметров и её младшая сестра Phi-4-Mini с 3,8 млрд параметров.
Согласно техническому отчету компании, эти модели не только превосходят конкурентов аналогичного размера, но и способны соперничать с системами, вдвое превышающими их по размеру. «Эти модели созданы, чтобы предоставить разработчикам продвинутые возможности ИИ», – заявил Вейчжу Чен, вице-президент по генеративному ИИ в Microsoft.
По его словам, Phi-4-Multimodal, благодаря способности одновременно обрабатывать речь, изображения и текст, открывает новые горизонты для создания инновационных контекстно-зависимых приложений.
Ключевым технологическим прорывом стала инновационная техника «mixture of LoRAs», позволяющая обрабатывать различные типы данных в рамках единой модели. Согласно исследовательской работе, этот подход обеспечивает беспрепятственную интеграцию и стабильную производительность при работе с текстом, изображениями и речью.
Впечатляют и конкретные достижения: модель заняла первое место в рейтинге Hugging Face OpenASR с показателем ошибки распознавания речи всего 6,14%, превзойдя специализированные системы, включая WhisperV3. Phi-4-Mini, несмотря на компактность, демонстрирует исключительные результаты в текстовых задачах, имея 32 слоя Transformer с размером скрытого состояния 3072.
Это достижение появляется в момент, когда предприятия всё активнее ищут ИИ-решения, способные работать на стандартном оборудовании или непосредственно на устройствах, а не в облачных дата-центрах. Такой подход позволяет снизить затраты и задержки при обработке данных, одновременно обеспечивая конфиденциальность информации.