Исследователи Массачусетского технологического института (MIT) представили первый метод машинного обучения, который эффективно обрабатывает симметричные данные с доказанной оптимальностью по вычислительным ресурсам и объему необходимой информации. Результаты исследования были представлены на Международной конференции по машинному обучению.
«Эти симметрии важны, поскольку содержат информацию, которую природа сообщает нам о данных, и которую мы должны учитывать в наших моделях машинного обучения. Мы доказали, что возможно эффективно обрабатывать симметричные данные», — поясняет Бехруз Тахмасеби, аспирант MIT и соавтор исследования.
Проблема симметрии данных актуальна во многих научных областях, особенно в молекулярном моделировании. Например, при вращении изображения молекулярной структуры человек легко распознает тот же объект, тогда как традиционная модель машинного обучения может воспринять его как новую единицу данных. Подобное ограничение приводит к потенциально неточным прогнозам о свойствах молекул при разработке лекарственных препаратов.
Разработанный алгоритм объединяет принципы алгебры и геометрии для решения проблемы симметрии. Исследователи сначала использовали алгебраические концепции для упрощения задачи, затем реформулировали ее с применением геометрических принципов и, наконец, объединили оба подхода в оптимизационную задачу с эффективным решением.
«Большинство теоретических и прикладных исследований фокусировались либо на алгебре, либо на геометрии. Здесь мы просто объединили их», — отмечает Тахмасеби.
Алгоритм требует меньше данных для обучения по сравнению с классическими подходами, что повышает точность модели и ее адаптивность к новым задачам. Результаты исследования могут привести к созданию новых архитектур нейронных сетей, которые будут точнее и менее ресурсоемкими, чем существующие модели.
Разработка имеет широкий спектр потенциальных применений: от открытия новых материалов и лекарственных препаратов до выявления астрономических аномалий и анализа сложных климатических моделей. Ученые также планируют использовать этот анализ как отправную точку для изучения внутренней работы графовых нейронных сетей и их отличий от разработанного алгоритма.