Anthropic призвала защищать ИИ-агентов по принципу Zero Trust

07.06.2026

13:55

Команда Anthropic опубликовала в блоге Claude руководство Zero Trust for AI agents о безопасном развертывании автономных ИИ-агентов в корпоративной среде. В документе обозначены ключевые риски агентных систем и подход к кибербезопасности бизнеса.

ИИ ускорил цикл атак

По оценке Anthropic, передовые модели сократили промежуток между обнаружением уязвимости и ее эксплуатацией с месяцев до часов. Компания предлагает учитывать не только ИИ-ускоренные атаки на инфраструктуру, но и риски самих агентов, которые могут интерпретировать цели, выбирать инструменты и выполнять многошаговые действия без постоянного участия человека.

В основе руководства — принципы Zero Trust: не доверять по умолчанию, проверять каждое действие и исходить из возможной компрометации. Anthropic ссылается на рекомендации NIST SP 800-207, опубликованный в 2020 году, и серию Zero Trust Implementation Guidelines, которую АНБ начала выпускать в 2026 году. Руководство позиционируется как практический фреймворк для команд безопасности, архитекторов и инженеров, а не как универсальная комплаенс-схема.

Среди ключевых угроз в документе перечислены прямые и непрямые вмешательства через промпт, заражение инструментов, злоупотребление идентичностью и привилегиями, отравление памяти и контекста, а также атаки на цепочку поставок.

Прямое отравление промпта описано как внедрение вредоносных инструкций через пользовательский ввод, непрямое — через веб-страницы, письма, документы и другие внешние источники, которые агент обрабатывает в ходе работы.

В документе разбираются подмена легитимного инструмента вредоносным и опасные цепочки вызовов, когда по отдельности безопасные средства в комбинации дают рискованный результат. Anthropic использует понятия «радиус взрыва» (blast radius) и «наименьшая субъектность» (least agency): речь идет не только о минимальных правах доступа, но и о жестком ограничении действий агента, частоты вызовов и областей, к которым он может обращаться.

Zero Trust для агентных систем

Для защиты компания предлагает трехуровневую модель зрелости и набор базовых технических мер. На начальном уровне руководство рекомендует выдавать каждому экземпляру агента уникальную криптографическую идентичность, использовать короткоживущие токены, применять «запрет по умолчанию» и «управление доступом на основе роли». Для агентов, работающих с недоверенными входами вроде веб-контента и документов, метод «исполнения в песочнице» назван фактически обязательной мерой.

На более высоких уровнях Anthropic предлагает применение:

стандарта mTLS со взаимной аутентификацией клиента и сервера с помощью цифровых сертификатов;
аппаратно привязанную идентичность через HSM или TPM , а также удаленную аттестацию.

Статические API-ключи и общие пароли сервисных аккаунтов в документе названы неподходящими даже для базового уровня.

Большой раздел посвящен наблюдаемости. Anthropic рекомендует подробно логировать все действия агента, включая вызовы инструментов, доступ к данным и внешние коммуникации, а затем передавать события в SIEM для корреляции в реальном времени. Среди ключевых метрик названы dwell time и coverage. Для критических систем целевое время обнаружения отклонений обозначено как в течение часа. Отдельно руководство предлагает выстраивать «матрицу прослеживаемости», чтобы связать каждое действие агента с исходным запросом и восстановить полную цепочку решений.

Будущее Security Operations Center — агенты под контролем человека

В части реакции Anthropic формулирует принцип: автоматизировать бюрократию вокруг инцидента, но не ключевые решения. Агентам и моделям предлагается поручать сбор и первичный отбор артефактов, ведение параллельных веток расследования и подготовку черновика постмортема. Решения о сдерживании, раскрытии инцидента и коммуникации с клиентами руководство предлагает оставлять за людьми. Тот же подход перенесен на «операции защиты» — с упоминанием перехода от классического SOAR к агентному.

В документе приведены и количественные ориентиры. Anthropic ссылается на исследование Microsoft Spotlighting, в котором успешность непрямых атак через отравление промпта в экспериментах снизилась с более чем 50% до менее чем 2%. Также компания приводит собственные результаты по использованию «конституционных классификаторов», которые, по ее данным, блокируют более 95% джейлбрек-попыток при минимальном росте ложных отказов.

В блоке о цепочке поставок Anthropic рекомендует использовать AI-BOM, OpenSSF Scorecard, аудит зависимостей и анализ возможности доступа. В качестве аргумента компания приводит собственное исследование, согласно которому 250 вредоносных документов достаточно, чтобы встроить бэкдор в модели размером от 600 млн до 13 млрд параметров.

В итоге Anthropic делает вывод, что для ИИ-агентов недостаточно точечных фильтров и периметровой защиты. Компания предлагает строить защиту вокруг идентичности, минимальных полномочий, заранее ограниченного ущерба и постоянной проверки действий. По оценке Anthropic, в лучшей позиции окажутся не организации с самым продвинутым ИИ, а те, у кого сильнее базовая архитектура безопасности.

Напомним, в июне команда Anthropic предупредила о рисках достижения рекусивного самосовершенствованния ИИ.

Новини криптоміра