
AI 에이전트는 이제 더 이상 귀여운 데모 수준을 넘어 실제 프로덕션 워크플로로 들어오고 있습니다. AWS AgentCore를 사용하면 티켓 작성, API 호출, 인프라 배포, 외부 도구 실행, 시스템 변경 등 사람이 하는 것보다 훨씬 빠르게 작업을 처리하는 에이전트를 구축할 수 있습니다.
이는 강력한 기능이지만, 동시에 완전히 새로운 운영 및 보안 표면을 만들어내는 것이기도 합니다. 그리고 불편한 진실 하나, 대부분의 조직은 자신들의 에이전트가 실제로 무엇을 하고 있는지 전혀 모릅니다.
에이전틱 AI는 마법이 아닙니다. Kubernetes, Lambda 또는 그 어떤 핵심 서비스에서 기대하는 것과 동일한 옵저버빌리티가 필요한, 권한 있는 자동화 계층입니다. 로그를 가져오지 않으면 눈이 먼 상태와 같습니다.
이것이 바로 Sumo Logic Amazon Bedrock AgentCore 앱이 탄생한 이유입니다. 단순히 대시보드를 늘리기 위한 목적이 아니라 에이전틱 워크플로를 안전하고 예측 가능하게 운영하는 데 필요한 가시성을 제공하기 위해서입니다. 이 앱은 효과적인 AI 로깅이 무엇인지에 대한 더 큰 청사진 역할을 합니다.
이 블로그는 제품 사용 안내가 아닙니다. 이 글을 통해 AI 로깅의 중요성과 AgentCore가 어떻게 그 방향을 제시하는지를 설명하겠습니다.
AI 에이전트는 새로운 권한 있는 서비스 계정입니다
단, 스스로 결정을 내린다는 점이 다를 뿐입니다.
AgentCore 에이전트는 지시와 컨텍스트만으로 클라우드 리소스 생성, SaaS 앱 통합, 코드 실행, 데이터 조회, 시스템 업데이트 등 스택 전반에 걸쳐 작업을 수행할 수 있습니다. 만약 인턴에게 이 수준의 접근 권한을 주고 그 사람이 하는 일을 로깅하지 않았다면 5분 만에 접근을 차단했을 것입니다. 인그런데 AI 에이전트가 하면 많은 팀이 “그냥 AI니까 그렇지 뭐”라며 넘깁니다.
그건 절대 지속 가능하지 않습니다. 에이전트가 프로덕션에 영향을 미칠 수 있다면 에이전트가 접촉하는 모든 것을 완벽하게 파악할 수 있어야 합니다.
모든 AI 시스템에서 반드시 모니터링해야 하는 5가지 로그 카테고리
아래는 모든 AI 시스템에서 반드시 모니터링해야 하는 5가지 로그 카테고리입니다. AgentCore는 이를 CloudWatch와 CloudTrail을 통해 기본적으로 노출하며 Sumo Logic 앱은 이를 시각화합니다. 이 카테고리는 어떤 에이전틱 AI 플랫폼에도 공통적으로 적용됩니다.
런타임 로그: 에이전트가 실제로 수행한 작업
여기에는 실행 트레이스, 작업 내역, 오류, 재시도, 출력 결과, 단계별 활동 등이 포함됩니다. 로그는 사고 타임라인이자 감사 추적입니다. 무언가 잘못됐을 때, 이 로그는 ‘직전에 에이전트가 무엇을 했는가?’에 답합니다.
게이트웨이 로그: 에이전트가 접근한 외부 시스템
에이전틱 AI의 가장 위험한 부분은 대부분 외부 API 및 서비스와의 상호작용입니다. 게이트웨이 로그는 어떤 호출이 어디로, 어떤 결과로 이루어졌는지 정확히 보여줍니다. 이곳에서 구성 오류나 반복적인 실패를 발견하게 됩니다.
메모리 로그: 에이전트가 저장하거나 조회한 정보
메모리는 모델이 제어하는 동적 지식 베이스입니다. 쓰기, 읽기, 갱신 작업은 모두 로깅되어야 에이전트의 컨텍스트가 어떻게 변화하는지 추적할 수 있습니다.
기본 제공 도구(브라우저, 코드 인터프리터)
이 영역이 바로 위험도가 높은 표면입니다. 에이전트가 URL을 방문하거나 코드를 실행하거나 스크립트를 구동하는 모든 작업은 반드시 로깅되어야 합니다. 해당 도구에 대한 Sumo Logic의 대시보드는 기존 보안 통제를 쉽게 우회할 수 있는 활동에 대한 가시성을 제공합니다.
CloudTrail을 통한 ID 및 액세스 로그
이 로그는 누가 에이전트를 호출했는지, 누가 설정을 수정했는지, 누가 새 도구를 추가했는지, 누가 권한을 변경했는지 추적하는 방법입니다. 거버넌스와 컴플라이언스는 여기에 달려 있습니다.
Sumo Logic AgentCore 앱에서 얻을 수 있는 인사이트
이 앱은 에이전틱 시스템을 모니터링할 때 무엇이 가장 중요한지에 대해 정제된 관점을 제공합니다.
- 개요 대시보드: 에이전트 호출 패턴, 오류율, 지연 시간 분포, 상위 에이전트 및 도구를 보여줍니다. 여기에서 행동 변화 또는 불안정성의 초기 신호를 감지하게 됩니다.
- 런타임 대시보드: APM 트레이스처럼 각 에이전트 실행의 단계별 활동을 제공합니다. 이를 통해 에이전트가 작업을 어떻게 추론하는지, 실패가 어디서 발생하는지 파악할 수 있습니다.
- 게이트웨이 대시보드: 외부 API 사용 및 통합 동작을 노출합니다. 이는 에이전트가 환경의 나머지 요소와 어떻게 상호작용하는지 이해하는 데 필수적입니다.
- 기본 제공 도구 대시보드: 브라우저 및 코드 실행 활동을 추적합니다. 이것이 바로 ‘고위험 자동화’ 뷰입니다.
- ID 대시보드: 에이전트가 어떻게 호출되고 수정되고 있는지를 보여줍니다. 무단 변경이나 의심스러운 호출 패턴을 포착하도록 지원합니다.
AgentCore를 사용하지 않고 있더라도 이 대시보드 구조는 어떤 AI 플랫폼에도 필요한 옵저버빌리티 요건을 제시합니다.
AI 로깅이 중요한 이유
에이전틱 AI는 문제를 일으킵니다. 지시를 잘못 이해할 수도 있습니다. 사람이라면 다시 생각했을 행동을 높은 확신으로 실행하기도 합니다. 이것이 자율 시스템의 현실입니다.
문제는 에이전트가 실수하는 것이 아니라 아무도 지켜보지 않는 환경에서 실수하는 것입니다.
로그는 안전장치를 구축하고 사고 원인을 설명하며 오남용을 탐지하고 거버넌스를 적용하며 행동 변화를 추적하고 동작을 조정하고 자율적으로 움직이는 시스템에 대한 운영상의 신뢰를 유지하는 방법입니다.
로그가 없는 AI는 관리할 수 없습니다. 로그가 있는 AI는 단순히 스택의 또 하나의 구성 요소일 뿐입니다.
지금 팀이 해야 할 일
대규모 AI 도입이 없어도 올바른 관측성 기반을 갖추는 일을 시작할 수 있습니다. AI 시스템 모니터링을 시작하려면 다음 단계를 따르세요.
- 런타임, 게이트웨이, 메모리, 기본 제공 도구 및 ID 이벤트의 로깅을 활성화하세요.
- Sumo Logic으로 중앙화하여 흩어진 로그 그룹을 수작업으로 상관 분석하지 않도록 하세요.
- 정상 동작 기준을 설정하세요. 이 시스템들은 기존 서비스와 다르게 동작합니다.
- 반복되는 게이트웨이 오류, 예기치 않은 브라우저 활동, 새로운 도구 연결, 비정상적인 호출 급증 등과 같은 의심스러운 패턴에 대한 알림을 추가하세요.
AI 에이전트를 자동화 기능을 가진 권한 있는 서비스 계정처럼 취급하세요. 그것이 바로 에이전트의 본질이기 때문입니다.
마무리
AI는 본질적으로 안전하거나 위험한 것이 아닙니다. 옵저버빌리티가 있는가 없는가의 차이입니다.
AgentCore는 에이전틱 AI를 구조적으로 사용할 수 있는 방법을 제공하고 Sumo Logic은 이를 책임감 있게 운영할 수 있는 가시성을 제공합니다. 인프라를 계측하듯 에이전트를 계측하면 안정성, 책임성, 신뢰를 얻게 됩니다.
그렇지 않다면 새벽 2시에 인프라를 배포하면서도 어떤 로그도 남기지 않는 블랙박스를 갖게 될 뿐입니다.
로그는 선택 사항이 아닙니다. 신뢰할 수 있는 AI 운영의 기반입니다.



