Они представили фундаментальное исследование процесса дистилляции ИИ-моделей. Которое не только опровергло устоявшиеся представления, но и спровоцировало острую дискуссию о будущем отрасли. Ключевым открытием стало опровержение распространенного убеждения о преимуществах сверхмощных моделей-учителей.
Исследование показало, что чрезмерная мощность учителя может негативно сказываться на процессе обучения из-за «разрыва в возможностях» – ситуации, когда модель-ученик не способна эффективно усваивать передаваемые знания. Ученые установили, что процесс дистилляции подчиняется универсальному закону масштабирования: увеличение объема данных и размера модели снижает количество ошибок, но с постепенно уменьшающейся эффективностью.
Этот принцип работает как для модели-учителя, так и для модели-ученика. Исследователи вывели математическую формулу, описывающую оптимальные параметры дистилляции с учетом размера модели-ученика и доступных вычислительных ресурсов.
Особое внимание было уделено соотношению параметров учителя и ученика, которое следует степенному закону. Выяснилось, что для более крупных моделей-учеников требуются более мощные учителя, однако это соотношение нуждается в тщательной настройке.
Исследование выявило, что дистилляция превосходит стандартное обучение только при ограниченном вычислительном бюджете. При достаточном количестве данных и вычислительных ресурсов традиционное супервизионное обучение показывает лучшие результаты.