В Оксфорде разработали новую методологию обучения нейросетей

Разработанный подход предлагает альтернативу классическому алгоритму обратного распространения ошибки (backpropagation). Технологический фундамент новой методологии опирается на концепцию «слой как денойзер» (layer as denoiser). Что представляет собой радикальный пересмотр существующих принципов обучения.

В предложенной архитектуре каждый слой нейронной сети функционирует как независимый модуль шумоподавления, концептуально приближаясь к механизмам, лежащим в основе диффузионных моделей, которые произвели революцию в генерации изображений.

Принципиальное отличие нового метода от канонического backpropagation заключается в механизме обработки данных. В традиционном подходе сначала осуществляется прямой проход (forward pass) входных данных через всю сеть с последующим вычислением ошибки, после чего выполняется обратный проход (backward pass) для расчета градиентов и корректировки весовых коэффициентов. Этот процесс представляет собой последовательную цепочку вычислений, что создает фундаментальные ограничения для параллелизации и оптимизации использования вычислительных ресурсов.

Оксфордский метод реализует принципиально иную парадигму. На этапе обучения метка класса (в задачах классификации) подвергается контролируемому зашумлению, после чего передается в соответствующий слой нейронной сети. Основная задача слоя трансформируется — теперь он обучается предсказывать исходное незашумленное значение метки. Критически важным аспектом является то, что каждый слой обучается автономно, без необходимости в согласованных прямых и обратных проходах по всей архитектуре сети.

При проведении инференса (процесса получения прогнозов на новых данных) исходные данные интерпретируются как начальный шум, который последовательно проходит через все слои нейросети. Каждый последующий слой выполняет инкрементальное шумоподавление, постепенно трансформируя входной сигнал в направлении целевой метки.

Экспериментальная валидация продемонстрировала впечатляющие результаты. На эталонном наборе данных MNIST новый подход достиг точности около 99.5%, что практически идентично показателям, достигаемым при использовании классического алгоритма обратного распространения ошибки. Аналогичная картина наблюдается при тестировании на более сложных наборах данных CIFAR-10 и CIFAR-100, где предложенный метод показал результаты, сопоставимые с традиционным backpropagation.

Особую ценность представляет существенное снижение требований к вычислительным ресурсам — исследователи отмечают практически двукратное сокращение потребления памяти при сохранении аналогичного уровня точности. Это достижение имеет значительные практические импликации, особенно в контексте обучения крупномасштабных моделей на устройствах с ограниченными ресурсами.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.