결과 요약
문제점
로그 증가 속도가 로그 수집 예산 증가 속도를 앞지르는 상황에서, 회사는 데이터 손실 없이 신뢰성에 필수적인 모든 분석이 유지되도록 해야 했습니다.
전 세계적인 디지털 전환과 함께 빠른 성장을 이룩해 온 Automation Anywhere는 그에 따른 새로운 과제에 직면했습니다. Automation Anywhere의 엔지니어들은 지속적으로 새로운 기능을 개발하고 있습니다. 그러나 고객은 이들의 솔루션을 더욱 빠른 속도로 사용하고 있었습니다. 그 결과 시스템 전반에 걸쳐 폭발적인 양의 데이터가 흐르게 되었습니다.
따라서 전체 기술 스택 전반에서 옵저버빌리티와 신뢰성을 보장하는 것이 Automation Anywhere의 최우선 과제가 되었습니다. Automation Anywhere의 미국 클라우드 운영 책임자인 라지 데시카비나야곰필라이(Raj Desikavinayagompillai)는 모든 데이터를 빠짐없이 수집하고 검색 가능하도록 하는 것이 가장 큰 과제였다고 설명합니다. 그러나 수집과 관련된 예산은 로그의 증가 속도를 따라가지 못하고 있었습니다. 이는 급성장하는 많은 조직이 공통으로 겪는 어려움이기도 합니다. Automation Anywhere는 예산 범위 내에서 운영을 유지하면서도 데이터 손실 없이 신뢰성에 핵심적인 모든 분석을 데이터로부터 도출해야 했습니다.
로그 수집은 빙산의 일각에 불과하다고 라지는 말합니다. “로그는 단순한 데이터에 지나지 않습니다. 이러한 데이터를 활용해 더 많은 일을 하는 것이 중요합니다.” Automation Anywhere는 모든 로그를 수집하는 동시에, 이를 담당팀에게 유용하고 실행 가능한 인사이트로 전환할 수 있도록 클라우드 옵저버빌리티 인프라를 확장할 수 있는 비용 효율적인 솔루션이 필요했습니다.
솔루션
Automation Anywhere는 예산 범위 내에서 모든 로그 데이터를 수집하고 실행 가능한 인사이트를 도출하기 위한 전략적 옵저버빌리티 파트너로 Sumo Logic을 선택했습니다.
Sumo Logic은 Automation Anywhere의 운영 효율을 획기적으로 향상시키는 데 기여했습니다. Automation Anywhere는 데이터 티어(Data Tier) 요금제를 이용해 데이터 수집 요구 사항이 증가하더라도 모든 로그를 수집할 수 있게 되었습니다. 대시보드와 알림 기능을 활용해 분석에 소요되는 시간을 수일에서 30분 미만으로 줄이는 워크플로도 구축할 수 있었습니다.
또한 Sumo Logic은 워크플로를 개발하고 고도화하여 엔지니어링 수작업을 줄일 수 있는 필수 도구 세트를 제공했습니다. 특히 Shoreline과 Sumo Logic의 통합으로 자동 복구 작업을 구현할 수 있었습니다. 이 솔루션에서 함께 활용된 다른 주요 도구로는 Atlassian Opsgenie와 Jira가 있습니다.

“우리가 낭비하는 매 순간은 사고를 더 빠르게 복구하는 데 사용할 수 있는 시간입니다.”
— 라지 데시카비나야곰필라이, 미국 클라우드 운영 책임자
결과
20년 이상 업계에서 활동해 온 라지는 시장에 나와 있는 다양한 솔루션에 매우 익숙합니다. 이전 회사에서는 라지는 Splunk를 사용했습니다. 그러나 현재 라지는 Automation Anywhere에서 Sumo Logic과의 전략적 파트너십을 확대하는 핵심 전도사 역할을 맡고 있습니다.
Automation Anywhere의 엔지니어들은 Sumo Logic과 긴밀히 협업하며, Sumo Logic의 기능과 통합 역량을 활용해 모니터링을 단순화하고 신뢰성을 보장하는 워크플로를 구축함으로써 엔지니어링 시간을 확보하고 있습니다.
티어 기반 요금제를 통한 비용 효율적이고 확장 가능한 데이터 수집 및 모니터링
Automation Anywhere는 Sumo Logic의 Continuous 및 Infrequent 티어 요금제를 활용하여 수집 관련 예산 내에서 모든 로그를 수집하고 모니터링합니다. Automation Anywhere는 현재 AWS와 GCP 전반의 클라우드 환경에서 큐, 관계형 데이터베이스 서비스(RDS), 프런트엔드 및 애플리케이션 스택에 이르기까지 모든 데이터를 Sumo Logic을 통해 수집하고 모니터링하고 있습니다.
또한 컬렉터 레벨에서 각 티어별로 1일, 2일, 7일 추세를 추적하도록 맞춤 로직을 설정한 Sumo Logic의 예약 검색 기능을 활용해 전체 시스템을 모니터링하고, 대응이 필요한 패턴 변화가 발생하면 알림을 받을 수 있습니다.

사용 중인 데이터 티어
- Continuous(지속형) 티어는 프로덕션 애플리케이션을 모니터링하고 문제를 해결하며, 애플리케이션 보안을 보장하는 데 사용되는 데이터를 위한 티어입니다.
- Infrequent(간헐형) 티어는 간헐적으로 발생하거나 재현하기 어려운 문제를 해결하는 데 사용되는 데이터를 위한 티어입니다. 예를 들어 디버깅 로그, OS 로그, 스레드 덤프 등이 이에 해당합니다. Infrequent 티어는 검색당 과금(pay-per-search) 모델을 적용하며, 수집 비용이 낮다는 특징이 있습니다.
로그 스파이크 분석 시간을 수일에서 30분으로 단축
로그 스파이크 분석 시간을 수일에서 30분으로 단축 로그 스파이크와 같은 패턴 변화가 발생하면 Opsgenie 알림이 트리거되고, 이어서 JIRA 티켓이 자동으로 생성됩니다. Automation Anywhere는 Sumo Logic의 대시보드를 활용해 Kubernetes 클러스터 기준으로 로그 데이터를 버킷화함으로써, 알림 대응 시 더 작은 로그 풀에 집중할 수 있게 되었고, 그 결과 트리아지, 분석, 디버깅에 걸리던 평균 복구 시간(MTTR)을 수일에서 약 30분으로 줄일 수 있었습니다.
약 14개에 달하는 데이터 센터를 보유한 글로벌 규모의 기업에서 로그를 더 작은 단위로 분류해 분석함으로써, 분석 속도와 실제 조치까지 걸리는 시간을 크게 단축할 수 있었습니다. 라지는 “우리가 낭비하는 매 순간은 사고를 더 빠르게 복구하는 데 사용할 수 있는 시간입니다”라고 말합니다. 다음은 이 워크플로를 통해 자동으로 생성된 JIRA 티켓을 온콜(On-call) 엔지니어가 실시간으로 해결하는 예시입니다.

Sumo Logic과 Shoreline 통합으로 자동화된 신뢰성 모니터링 및 사고 해결
Sumo Logic은 모든 로그 데이터를 지속적으로 모니터링하며, 사전에 설정된 임계값을 초과하는 경우 즉시 알림을 트리거합니다. 이후 Shoreline 통합을 통해 운영 팩(Op Packs)에 이미 배포된 런북을 기반으로 자가 치유(self-healing) 워크플로가 실행되고, 알려진 사고에 대해 신속한 수정 조치를 자동으로 적용합니다.
이 워크플로를 통해 온콜 클라우드 운영 엔지니어가 매일 수행해야 했던 1~3회의 수작업 조치가 필요 없어짐에 따라 알려진 사고에 대한 평균 복구 시간(MTTR)이 크게 개선되었으며, 기존에 사고 런북을 확인하고 수정 사항을 적용하는 데 소요되던 엔지니어링 시간을 약 15~45분 단축할 수 있었습니다. 이는 중단과 작업 전환으로 인해 발생하던 생산성 손실을 제외한 수치입니다.
이러한 자동화는 특히 클러스터 레벨에서 문제가 발생할 때 더욱 중요합니다. 데이터 수집이 중단되면, 버그를 식별해야 할 뿐만 아니라 클러스터를 모니터링하고 문제를 해결하는 데 필요한 실시간 데이터 흐름에도 공백이 발생해 문제 해결이 더욱 복잡하고 속도가 지연되기 때문입니다. Sumo Logic과 Shoreline을 활용한 자동 액션 및 자동 복구 기능은 이러한 사고로 인한 대응 시간과 데이터 손실을 줄이는 데 기여합니다. 앞으로 Automation Anywhere는 이 통합을 더욱 확장해 나갈 계획입니다.