Apple и Университет Огайо создали ускоренную ИИ-модель для текстов

Инженеры Apple в сотрудничестве с исследователями Университета штата Огайо разработали новую диффузионную модель Few-Step Discrete Flow-Matching (FS-DFM), способную генерировать тексты в 128 раз быстрее существующих аналогов. Информацию опубликовал ресурс 9to5mac.com со ссылкой на исследовательскую работу.

Главное преимущество FS-DFM заключается в способности создавать полноценные текстовые фрагменты всего за восемь шагов уточнения. Для сравнения, другим диффузионным моделям для получения аналогичного результата требуется более тысячи итераций.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Для достижения такой скорости разработчики применили трехэтапный подход. На первом этапе модель обучается обработке различных типов итераций уточнения. Затем используется направляющая модель «учителя», помогающая делать более крупные и точные обновления на каждой итерации без нарушения логики текста. Финальный этап включает корректировку работы каждой итерации для минимизации количества шагов при сохранении стабильности модели.

В сравнении с более крупными диффузионными моделями, FS-DFM продемонстрировала высокие результаты по двум ключевым метрикам: перплексии и энтропии. Низкая перплексия означает, что генерируемый текст звучит естественно и точно. Показатель энтропии отражает уверенность модели в выборе слов – оптимальный баланс позволяет избежать как монотонности, так и бессвязности текста.

Впечатляющие результаты продемонстрировали даже компактные версии FS-DFM. По сравнению с моделями Dream (7 млрд параметров) и LLaDA (8 млрд параметров), варианты FS-DFM с 1,7, 1,3 и даже 0,17 млрд параметров стабильно обеспечивали лучшую перплексию и более сбалансированную энтропию на протяжении всех итераций.

Разработчики сообщили о планах открыть доступ к коду модели и ее контрольным точкам, чтобы облегчить воспроизведение результатов и стимулировать дальнейшие исследования в этой области.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.