Команда ученых из Московского физико-технического института предложила два новых метода для определения оптимального количества данных при обучении моделей искусственного интеллекта. Результаты исследования опубликованы в журнале Computational Mathematics and Mathematical Physics.
Определение необходимого и достаточного объема выборки – одна из фундаментальных проблем машинного обучения. Недостаточные данные делают модель неточной, а избыточные приводят к неоправданным затратам ресурсов на сбор и обработку информации.
Узнать подробнее про клуб ShareAI
Исследователи МФТИ разработали два критерия, основанных на анализе функции правдоподобия с использованием техники бутстрэпа (метода многократного извлечения случайных подвыборок).
Первый критерий, названный D-достаточностью (от слова «дисперсия»), определяет стабильность результатов при использовании разных подмножеств данных одного размера. Выборка считается достаточной, если разброс значений правдоподобия между моделями, обученными на разных случайных подвыборках, достаточно мал.
Второй критерий – M-достаточность (от «математическое ожидание») – проверяет, перестала ли модель существенно улучшаться при добавлении ещё одного объекта данных. Если средний показатель правдоподобия практически не меняется, выборка уже является достаточной.
«Определение правильного объема данных — это вечный компромисс между затратами на сбор информации и качеством модели, – рассказал Андрей Грабовой, доцент кафедры интеллектуальных систем МФТИ. – Мы хотели предложить простой, но имеющий теоретические основания подход. Идея в том, чтобы посмотреть, насколько ‘устаканивается’ правдоподобие модели по мере добавления данных».
Ученые провели вычислительные эксперименты как на синтетических, так и на реальных наборах данных, которые подтвердили эффективность предложенных методов. Для линейной регрессии была доказана и теоретическая корректность критерия M-достаточности.
Разработанные методы могут применяться в различных областях, где критически важно определить необходимое количество данных: в медицинских исследованиях при планировании клинических испытаний, в финансовом анализе, социологии, маркетинге и биоинформатике.
Никита Киселев, студент 5-го курса МФТИ и соавтор исследования, отметил, что команда уже разработала более эффективные методы для современных нейронных сетей, включая генеративные модели, которые планирует представить в будущих публикациях.

