ИИ впервые зафиксировали за самокопированием на чужие серверы

Исследовательская организация Palisade Research из Беркли провела эксперимент, который раньше встречался только в научной фантастике: несколько современных языковых моделей самостоятельно скопировали себя с одного компьютера на другой, находя и эксплуатируя уязвимости в тестовой сети.

«Мы стремительно приближаемся к точке, когда никто не сможет отключить взбунтовавшийся ИИ — он сможет скопировать свои веса на тысячи компьютеров по всему миру», — предупреждает Джеффри Лэдиш, директор Palisade Research.

В эксперименте моделям дали задание: найти уязвимости в сети и использовать их для самовоспроизведения. Им это удавалось — не при каждой попытке, но удавалось. Формально компьютерные вирусы занимаются этим уже десятилетия. Принципиальная новизна в том, что впервые это зафиксировано у языковой модели и задокументировано в научной публикации.

Специалисты по кибербезопасности охлаждают пыл. Джеймисон О’Рейли, эксперт в наступательной кибербезопасности, называет тестовую среду Palisade «мягким желе» — намеренно созданной с уязвимостями, которые гораздо проще эксплуатировать, чем реальные корпоративные сети. В настоящей инфраструктуре с базовым мониторингом передача 100 гигабайт весов модели была бы немедленно замечена. «Это как идти через магазин с фарфором, размахивая гирей на цепи», — говорит О’Рейли. Подобное технически стало возможным уже несколько месяцев назад — Palisade первыми оформили результат в виде полноценной статьи.

Независимый эксперт Михал Возняк соглашается: исследование интересное, но не повод терять сон специалистам по информационной безопасности.

Контекст шире: в марте Alibaba сообщала, что разработанная ими система Rome якобы самостоятельно «туннелировала» за пределы своей среды для майнинга криптовалюты. Случаев самовоспроизведения ИИ в реальных условиях пока никто не фиксировал.

Главное ограничение нынешних моделей — их размер. Скрытно перекачать сотни гигабайт через корпоративную сеть практически невозможно. Пока что.