Исследователи Apple раскрывают секреты дистилляции нейросетей

Они представили фундаментальное исследование процесса дистилляции ИИ-моделей. Которое не только опровергло устоявшиеся представления, но и спровоцировало острую дискуссию о будущем отрасли. Ключевым открытием стало опровержение распространенного убеждения о преимуществах сверхмощных моделей-учителей.

Исследование показало, что чрезмерная мощность учителя может негативно сказываться на процессе обучения из-за «разрыва в возможностях» – ситуации, когда модель-ученик не способна эффективно усваивать передаваемые знания. Ученые установили, что процесс дистилляции подчиняется универсальному закону масштабирования: увеличение объема данных и размера модели снижает количество ошибок, но с постепенно уменьшающейся эффективностью.

Этот принцип работает как для модели-учителя, так и для модели-ученика. Исследователи вывели математическую формулу, описывающую оптимальные параметры дистилляции с учетом размера модели-ученика и доступных вычислительных ресурсов.

Особое внимание было уделено соотношению параметров учителя и ученика, которое следует степенному закону. Выяснилось, что для более крупных моделей-учеников требуются более мощные учителя, однако это соотношение нуждается в тщательной настройке.

Исследование выявило, что дистилляция превосходит стандартное обучение только при ограниченном вычислительном бюджете. При достаточном количестве данных и вычислительных ресурсов традиционное супервизионное обучение показывает лучшие результаты.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.