Инженеры Apple в сотрудничестве с исследователями Университета штата Огайо разработали новую диффузионную модель Few-Step Discrete Flow-Matching (FS-DFM), способную генерировать тексты в 128 раз быстрее существующих аналогов. Информацию опубликовал ресурс 9to5mac.com со ссылкой на исследовательскую работу.
Главное преимущество FS-DFM заключается в способности создавать полноценные текстовые фрагменты всего за восемь шагов уточнения. Для сравнения, другим диффузионным моделям для получения аналогичного результата требуется более тысячи итераций.
Узнать подробнее про клуб ShareAI
Для достижения такой скорости разработчики применили трехэтапный подход. На первом этапе модель обучается обработке различных типов итераций уточнения. Затем используется направляющая модель «учителя», помогающая делать более крупные и точные обновления на каждой итерации без нарушения логики текста. Финальный этап включает корректировку работы каждой итерации для минимизации количества шагов при сохранении стабильности модели.
В сравнении с более крупными диффузионными моделями, FS-DFM продемонстрировала высокие результаты по двум ключевым метрикам: перплексии и энтропии. Низкая перплексия означает, что генерируемый текст звучит естественно и точно. Показатель энтропии отражает уверенность модели в выборе слов – оптимальный баланс позволяет избежать как монотонности, так и бессвязности текста.
Впечатляющие результаты продемонстрировали даже компактные версии FS-DFM. По сравнению с моделями Dream (7 млрд параметров) и LLaDA (8 млрд параметров), варианты FS-DFM с 1,7, 1,3 и даже 0,17 млрд параметров стабильно обеспечивали лучшую перплексию и более сбалансированную энтропию на протяжении всех итераций.
Разработчики сообщили о планах открыть доступ к коду модели и ее контрольным точкам, чтобы облегчить воспроизведение результатов и стимулировать дальнейшие исследования в этой области.

