Компания OpenAI объявила о внедрении системы мониторинга в своих новейших ИИ-моделях o3 и o4-mini. Эта система призвана предотвратить использование моделей для получения информации, которая потенциально могла бы использоваться злоумышленниками для осуществления вредоносных атак.
Согласно внутренним бенчмаркам OpenAI, модель o3 демонстрирует повышенную способность отвечать на вопросы, связанные с созданием определенных типов биологических угроз. Именно это обстоятельство, наряду с необходимостью снижения других рисков, побудило компанию разработать новую систему мониторинга, которую специалисты OpenAI характеризуют как «ориентированный на безопасность монитор рассуждений».
Технически данный монитор представляет собой специально обученную систему, способную анализировать контент на предмет соответствия политикам безопасности OpenAI, и функционирует поверх моделей o3 и o4-mini. Архитектура системы спроектирована таким образом, чтобы идентифицировать запросы, имеющие отношение к биологическим и химическим рискам, и инструктировать модели отказывать в предоставлении информации по этим тематикам.
Для установления базового уровня эффективности, специалисты OpenAI по «красной команде» (red team) затратили около 1000 часов на выявление «небезопасных» разговоров, связанных с биорисками, при использовании моделей o3 и o4-mini. В ходе тестирования, в котором OpenAI симулировала «логику блокировки» своего монитора безопасности, модели отказывались отвечать на рискованные запросы в 98.7% случаев, что является впечатляющим показателем эффективности системы.
Однако компания OpenAI признает, что данное тестирование не учитывало сценарии, при которых пользователи могут пытаться формулировать новые запросы после блокировки предыдущих монитором безопасности. Именно поэтому компания подчеркивает необходимость продолжать частично полагаться на человеческий мониторинг как дополнительный уровень защиты.
Согласно оценке OpenAI, модели o3 и o4-mini не пересекают установленный компанией порог «высокого риска» для биоугроз. Тем не менее, по сравнению с моделями o1 и GPT-4, ранние версии o3 и o4-mini продемонстрировали более высокую способность отвечать на вопросы, связанные с разработкой биологического оружия, что подчеркивает важность внедрения дополнительных защитных механизмов.