Anthropic выпустила Claude Opus 4.7 — новую модель, которая лучше справляется с разработкой программного обеспечения, точнее следует инструкциям и умеет работать с памятью на основе файловой системы. Но кибервозможности модели компания намеренно ограничила.
За этим решением стоит Claude Mythos Preview. В начале апреля Anthropic передала эту модель избранному кругу компаний в рамках проекта Project Glasswing — новой инициативы по кибербезопасности. Mythos умеет находить уязвимости в коде и слабые места в системах защиты. Такие возможности компания посчитала слишком опасными для широкого доступа.
Для Opus 4.7 Anthropic применила двойную защиту. Во-первых, в процессе обучения специально снижала способности модели в области кибербезопасности. Во-вторых, добавила в готовый продукт автоматические фильтры — они блокируют запросы, связанные с запрещёнными или высокорисковыми действиями.
Специалисты по безопасности, которым для легитимной работы нужны более мощные инструменты, могут подать заявку через официальную программу верификации. Для всех остальных — Opus 4.7.
Anthropic открыто говорит, чего хочет добиться: отработать защитные механизмы на широко доступной модели, собрать данные о реальных попытках злоупотреблений, а потом использовать этот опыт для постепенного открытия доступа к Mythos-классу моделей.
По сути, Opus 4.7 — это не просто новая модель, а часть эксперимента. Anthropic тестирует, насколько хорошо работают её фильтры, прежде чем выпустить в открытый доступ куда более мощный инструмент.