Компания Anthropic выявила промышленные кампании трех AI-лабораторий по незаконному извлечению возможностей Claude. DeepSeek, Moonshot и MiniMax сгенерировали больше 16 миллионов обменов с Claude через примерно 24 тысячи мошеннических аккаунтов. Это нарушает условия использования и региональные ограничения доступа.
Лаборатории использовали технику дистилляции. Она предполагает обучение менее способной модели на выходных данных более сильной. Дистилляция — широко распространенный и законный метод обучения. Например, ведущие AI-лаборатории регулярно дистиллируют собственные модели для создания меньших и дешевых версий для клиентов.
Узнать подробнее про клуб ShareAI
Но дистилляцию можно использовать для незаконных целей. Конкуренты могут приобретать мощные возможности других лабораторий за долю времени и за долю стоимости самостоятельной разработки.
Эти кампании растут по интенсивности и сложности. Окно для действий узкое. Угроза выходит за рамки одной компании или региона. Решение потребует быстрых скоординированных действий игроков индустрии, политиков и глобального AI-сообщества.
Незаконно дистиллированные модели лишены необходимых защитных механизмов. Это создает значительные риски национальной безопасности. Anthropic и другие американские компании создают системы, которые не позволяют государственным и негосударственным акторам использовать AI для разработки биологического оружия или вредоносной кибердеятельности.
Модели, созданные через незаконную дистилляцию, вряд ли сохранят эти защитные механизмы. Это означает, что опасные возможности могут распространяться со многими защитами, полностью удаленными.
Иностранные лаборатории, дистиллирующие американские модели, затем могут встраивать эти незащищенные возможности в военные, разведывательные и системы наблюдения. Это позволяет авторитарным правительствам развертывать передовой AI для наступательных кибер-операций, кампаний дезинформации и массового наблюдения.
DeepSeek провела больше 150 тысяч обменов. Операция нацелилась на возможности рассуждения в различных задачах, задачи оценки на основе критериев и создание безопасных от цензуры альтернатив политически чувствительным запросам.
DeepSeek генерировала синхронизированный трафик через аккаунты. Идентичные паттерны, общие методы оплаты и скоординированное время предполагали балансировку нагрузки для увеличения пропускной способности.
В одной примечательной технике их запросы просили Claude представить и сформулировать внутреннее рассуждение за завершенным ответом и написать его пошагово. Это эффективно генерировало обучающие данные цепочки мыслей в масштабе.
Moonshot AI провела больше 3,4 миллиона обменов. Операция нацелилась на агентное рассуждение и использование инструментов, кодирование и анализ данных, разработку агента для использования компьютера и компьютерное зрение.
MiniMax провела больше 13 миллионов обменов. Операция нацелилась на агентное кодирование, использование инструментов и оркестрацию. Anthropic обнаружила эту кампанию, пока она еще была активна — до того, как MiniMax выпустила модель, которую обучала.

