Большой адронный коллайдер генерирует около миллиарда столкновений протонов в секунду. Каждое из них — это 2–8 МБ сырых данных. В год это 40 000 экзабайт — примерно четверть всего мирового интернета. Хранить это невозможно физически.
Задача — в реальном времени решать, какие события оставить, а какие выбросить навсегда. Решение называется триггерная система, и ЦЕРН переписывает её с нуля — с помощью нейросетей, буквально запечённых в кремний.
Как это работает
Первый уровень фильтрации — тысяча программируемых чипов (FPGA). Они обрабатывают 10 ТБ/с и должны принять решение за 50 наносекунд. Это в тысячу раз быстрее, чем мигает глаз. Отсеивается 99,7% всех данных.
Нейросеть сначала обучают на обычном компьютере — в PyTorch или TensorFlow. Затем её сжимают в 50 раз: убирают лишние нейроны, снижают точность вычислений. После этого с помощью инструмента HLS4ML модель переводится в код для FPGA. В итоге нейросеть работает прямо в железе, без процессора между ней и данными.
Ключевой результат опубликован в Nature Machine Intelligence в 2021 году командой под руководством исследователей ЦЕРН Владимира Лончара и Теи Аарестад (сейчас — профессор ETH Zurich): сжатая сеть укладывается в те самые 50 нс бюджета триггера.
Что уже работает в детекторах
На детекторе CMS уже запущен AXOL1TL — вариационный автоэнкодер, который ищет аномалии за ~50 нс. Это модель без явного паттерна: она замечает «что-то странное» даже без знания того, что ищет. Отдельно работает DeepTau — сеть для распознавания тау-лептонов с эффективностью на 10–30% выше классических методов.
На LHCb граф-нейронная сеть ETX4VELO улавливает на 15% больше электронов, чем прежние алгоритмы.
Что дальше
В 2031 году запустится High-Luminosity LHC. Поток данных вырастет с 4 до 63 ТБ/с. ЦЕРН уже работает над следующим поколением чипов. Методология идёт дальше физики: Volvo Cars применила HLS4ML для сегментации изображений в автопилоте и получила задержку ниже 5 мс. IBM изучает те же подходы для обнаружения мошенничества.