자율 에이전트 AI 시스템 보호

핵심 이름: 위협 모니터링 및 검색
패턴 이름: 보안 에이전트 AI 시스템

컨텍스트 및 문제점

자율 에이전트 AI 시스템은 제한된 사용자 개입으로 도구를 계획, 호출, 데이터에 액세스하고 작업을 실행할 수 있습니다. 자율성이 증가함에 따라 잘못된 정렬, 오용 및 타협의 잠재적 영향도 증가합니다.

도우미 패턴 및 사례 문서 자율 에이전트 AI 시스템에 대한 위험 감소는 에이전트 동작에 의해 도입된 설계, 보안 및 거버넌스 위험을 간략하게 설명합니다. 이 패턴은 위험 식별 에서 위험 감소로 전환되며, 실제로 이러한 위험을 완화하는 제어 및 설계 결정에 중점을 두고 있습니다.

해결 방법

에이전트 시스템을 보호하려면 개별 계층에서 오류를 가정하고 단일 오류로 인해 용납할 수 없는 피해를 초래하지 않도록 시스템을 설계하는 심층 방어 전략이 필요합니다.

완화 계층 내의 컨트롤

모델 계층 컨트롤

모델은 에이전트의 추론 엔진 역할을 하며 에이전트가 지침을 해석하고, 작업을 계획하고, 악의적인 입력에 응답하는 방법에 영향을 줍니다. 다양한 모델은 에이전트의 출력 및 작업에 영향을 주는 다양한 기능과 안전 기능을 제공합니다. 적절한 모델을 선택하면 잘못된 정렬, 오류 및 안전하지 않은 결과를 방지할 수 있습니다.

권장되는 컨트롤:

의도적인 모델 선택: 추론 깊이, 거부 동작 및 도구 사용 특성이 에이전트의 자율성 및 위험 프로필과 일치하는 모델을 선택합니다. 작업 정렬 오차 및 안전하지 않은 작업을 완화합니다.
모델 공급망 거버넌스: 버전을 추적하고, 업데이트를 검토하고, 배포 전에 변경 내용의 유효성을 검사하여 모델을 보안 종속성으로 처리합니다. 공급망 손상 완화.
평가 및 레드 팀: 교차 프롬프트 삽입, 의도 왜곡 및 안전하지 않은 도구 선택 등 행위 모델 위협에 대해 지속적으로 모델을 테스트합니다. 에이전트 탈취 및 의도치 않은 행동을 완화합니다.
기능 맞춤: 더 간단하거나 더 제한된 모델이 시스템의 요구 사항을 충족하는 경우 과도하게 지원되는 모델을 방지합니다. 과도한 자율성과 증가된 폭발 반경을 완화합니다.

안전 시스템 계층 제어

보안 시스템 계층은 에이전트가 신뢰할 수 없는 콘텐츠, 도구, API 및 사용자와 상호 작용하는 런타임 시 오류를 차단합니다. 이러한 보호 장치는 에이전트 하이재킹, 유해한 출력, 중요한 데이터 유출 및 런타임 오용을 비롯한 운영 위험으로부터 필수적인 방어책을 형성합니다.

권장되는 컨트롤:

입력 및 출력 필터링: 간접 프롬프트 주입을 포함하여 악의적이거나 조작적이거나 안전하지 않은 입력 및 출력을 검색하고 차단합니다. 에이전트 하이재킹 및 중요한 데이터 유출을 완화합니다.
에이전트 가드레일: 작업 준수를 적용하고 실행 중에 범위를 벗어나거나 안전하지 않은 도구 호출을 방지합니다. 의도하지 않은 작업 및 강력한 오용을 완화합니다.
로깅 및 관찰 가능성: 감사, 인시던트 대응 및 개선을 지원하기 위한 에이전트 계획, 도구 호출, 의사 결정 및 결과를 캡처합니다. 이해 가능성 실패 및 감지되지 않은 오용을 방지합니다.
남용 및 변칙 검색: 반복된 바이패스 시도 또는 비정상적인 동작 패턴을 모니터링합니다. 지속적인 탐색 및 은밀한 반출을 방지합니다.

애플리케이션 계층 컨트롤

애플리케이션 계층은 에이전트를 설계하는 방법, 수행할 수 있는 작업 및 컨트롤 적용 방법을 정의합니다. 안전 원칙이 적용 가능한 시스템 동작이 되는 곳입니다.

권장되는 컨트롤:

마이크로 서비스로서의 에이전트: 격리된 권한과 좁은 범위의 도구 액세스가 있는 마이크로 서비스와 같은 에이전트를 디자인합니다. 잘못된 정렬, 폭발 반경 및 중요한 데이터 누출을 완화합니다.
명시적 작업 스키마: 허용되는 작업, 필수 입력, 위험 수준, 실행 제약 조건 및 로깅 요구 사항을 정의합니다. 의도하지 않은 작업 및 안전하지 않은 도구 호출을 완화합니다.
HITL(결정적 인간-인-더 루프): 모델 추론이 아닌 오케스트레이터 논리를 통해 위험성이 높거나 되돌릴 수 없는 작업에 대한 사용자 검토를 적용합니다. 감독 제어의 간극과 불일치를 완화합니다.
최소 권한 및 최소 작업 디자인: 기본적으로 허용되는 작업 없이 시작하고 역할 및 위험에 따라 증분 방식으로 기능을 사용하도록 설정합니다. 각 에이전트에 고유하고 확인 가능한 ID를 할당하여 RBAC를 적용합니다. 중요한 데이터 유출, 에이전트 스프롤 및 초과 권한을 완화합니다.
시스템 메시지의 강화 역할: 구조화된 시스템 지침을 사용하여 역할과 경계를 강화하고 항상 결정적 제어를 통한 지원을 제공합니다. 에이전트 하이재킹 및 잘못된 정렬을 완화합니다.

레이어 컨트롤 위치 지정

위치 지정 계층은 사람들이 에이전트 시스템을 이해하고 신뢰하고 의존하는 방식을 형성합니다. 잘못된 위치 지정은 기술 제어가 강한 경우에도 위험을 초래할 수 있습니다.

권장되는 컨트롤:

명확한 공개: 사용자가 자율 AI 에이전트와 상호 작용할 때 명확하게 밝혀야 합니다. 투명성 및 공개 오류를 완화합니다.
기능 투명도: 제한 사항 및 불확실성을 포함하여 에이전트가 수행할 수 있는 작업과 수행할 수 없는 작업을 전달합니다. 에이전트를 권위적이거나 무오류적 위치에 두지 않도록 하십시오. 부적절한 의존도를 완화합니다.
사용자가 볼 수 있는 경계: 사용자가 비정상적인 동작을 감지할 수 있도록 계획된 작업, 승인 및 결과를 표시합니다. 이해 가능성 문제를 완화합니다.
보안 UX 패턴: 검토, 승인 및 종료 메커니즘이 접근 가능하고 보호되도록 해야 합니다. 오용 및 과잉 의존을 완화합니다.

Microsoft 솔루션

위의 컨트롤은 구현할 내용을 설명합니다. 다음 Microsoft 솔루션은 ID, 거버넌스, 런타임 적용 및 검색에서 이러한 완화를 운영하는 데 도움이 됩니다.

기본 컨트롤 플레인

Microsoft 에이전트 365:
- 중앙 집중식 인벤토리, 거버넌스, 액세스 경계 및 에이전트 간 가시성을 제공합니다.
- 지원: 에이전트 확산 방지, 최소 권한 및 거버넌스. 지원: 에이전트 확산 방지, 최소 권한, 거버넌스.

모델 선택 및 평가

Microsoft Foundry의 모델 카탈로그 는 안전 및 보안 기준을 포함하여 사용 사례에 적합한 모델을 평가하고 선택합니다.
빨간색 팀 및 지속적인 평가를 위한 Microsoft Foundry의 AI Red Teaming Agent 및 PyRIT(Python 위험 식별 도구).

안전 시스템 및 런타임 완화

Microsoft Foundry(Guardrails, 콘텐츠 필터, 남용 모니터링)
- 작업 준수를 적용하고, 신뢰할 수 없는 입력 및 출력을 필터링하고, 오용 패턴을 검색합니다.
- 지원: 프롬프트 인젝션 완화, 유출 방지.

ID 및 데이터 보호

Microsoft Entra:
- 에이전트에 대한 ID, 조건부 액세스 및 역할 기반 액세스 제어를 제공합니다.
- 지원: 최소 권한, 액세스 제어.
Microsoft Purview:
- 데이터 분류, 거버넌스 및 정책 적용을 제공합니다.
- 지원: 중요한 데이터 보호.

UX 디자인

공개 및 인간 중심 UX 패턴을 위한 HAX(휴먼 AI 상호 작용) 도구 키트입니다.
보안 UX 패턴을 위한 디자인별 보안 UX 도구 키트

검색 및 응답(지원)

보안 상태 관리, 신호 상관 관계 및 에이전트 워크로드의 인시던트 대응을 위한 Microsoft Defender 및 Microsoft Sentinel입니다.
에이전트 동작 및 성능에 대한 원격 분석 및 관찰 가능성을 위한 Azure Monitor 및 Application Insights입니다.

안내

이 패턴을 채택하려는 조직은 다음과 같은 실행 가능한 사례를 적용할 수 있습니다.

연습 범주	권장 조치	Resource
도구, 에이전트 및 모델에 대한 거버넌스	지원되는 프레임워크를 사용하여 Foundry에 에이전트 온보딩 또는 사용자 지정 에이전트 등록	Microsoft Foundry 컨트롤 플레인
콘텐츠 안전 및 프롬프트 삽입 복원력	입력 및 출력 필터링; 검색된 콘텐츠를 신뢰할 수 없는 것으로 처리합니다. 간접 프롬프트 삽입 차단	Foundry 콘텐츠 필터링 및 프롬프트 보호장치
작업 준수 및 도구 안전성	도구 허용 목록 및 결정적 유효성 검사 적용	파운드리 에이전트 가드레일
AI 적색 팀 구성	프롬프트 주입, 의도 중단, 안전하지 않은 도구 선택 및 누출을 지속적으로 테스트합니다.	Foundry AI Red Teaming Agent /PyRIT
에이전트에 대한 ID 및 액세스	최소 권한, 조건부 액세스 및 수명 주기 거버넌스 적용	Microsoft Entra
데이터 거버넌스 및 규정 준수	중요한 데이터 분류 및 보호	Microsoft Purview
포스처 관리	구성 및 취약성 평가	클라우드용 Microsoft Defender
오용 탐지	로그 및 추적 상관 관계 지정	Microsoft Sentinel

결과

혜택

에이전트는 정의된 의도, 권한 및 경계 내에서 작동합니다.
고위험 작업에는 결정적 인적 승인이 필요합니다.
에이전트 동작은 관찰 가능하고 감사 가능하며 대규모로 제어할 수 있습니다.
최소 권한 및 정책 적용을 통해 중요한 데이터 노출이 줄어듭니다.
조직은 에이전트 사용량이 증가함에 따라 가시성과 제어를 유지합니다.
신뢰는 투명성, 책임성 및 예측 가능한 동작을 통해 구축됩니다.

절충

계층화된 컨트롤을 구현하려면 추가 엔지니어링 작업이 필요합니다.
자율 시스템은 아키텍처 및 운영 복잡성을 도입합니다.
인간 감독은 위험 수준이 높은 워크플로에 마찰을 더합니다.
거버넌스 및 가시성에는 지속적인 운영 투자가 필요합니다.

주요 성공 요인

작업 준수
인간의 참여
결정적 보호
투명성 및 공개
저항 납치
최소 권한 및 거버넌스
공급망 인식

요약

인간의 잠재력을 잠금 해제하는 것은 신뢰로 시작됩니다. 에이전트 시스템이 자율적으로 계획, 결정 및 행동할 수 있는 능력은 작은 정렬, 감독 또는 보안 격차로 인해 상당한 결과와 신뢰 손실이 발생할 수 있음을 의미합니다.

이러한 시스템이 도구, API 및 기타 에이전트와 더욱 긴밀하게 통합됨에 따라 해당 동작은 점점 더 복잡해지고 있으며, 이로 인해 피해가 발생할 수 있는 경로도 복잡해집니다. 에이전트 동작과 관련된 위험은 체계적이며 전체 시스템 스택에 걸쳐 있는 완화 전략이 필요합니다.

조직은 모델, 안전 시스템, 애플리케이션 및 위치 지정 계층에 심층 방어를 적용하고 Microsoft의 통합 보안 및 에이전트 관리 에코시스템을 활용하여 설계에 따라 자율적이고 관찰 가능하며 복원력이 뛰어난 에이전트 시스템을 배포할 수 있습니다.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-03-19

자율 에이전트 AI 시스템 보호

컨텍스트 및 문제점

해결 방법

완화 계층 내의 컨트롤

모델 계층 컨트롤

안전 시스템 계층 제어

애플리케이션 계층 컨트롤

레이어 컨트롤 위치 지정

Microsoft 솔루션

기본 컨트롤 플레인

모델 선택 및 평가

안전 시스템 및 런타임 완화

ID 및 데이터 보호

UX 디자인

검색 및 응답(지원)

안내

결과

혜택

절충

주요 성공 요인

요약

피드백

추가 리소스