결과 요약
문제점
수년간의 급격한 성장으로 인해 도구가 난립하게 되면서 Acquia의 업무량이 두 배로 늘어나고 엔드투엔드의 가시성이 저해되었습니다.
빠른 성장 과정에서 Acquia의 포트폴리오는 다양한 플랫폼, 구성 요소, 시스템으로 확장되었는데, 이들 모두에서 텔레메트리가 생성되고 있었습니다. Acquia는 분산된 환경 전반의 성능을 평가하기 위해 이 텔레메트리를 수집하는 것이 중요했기 때문에 로그 모니터링에는 Sumo Logic을, 경보 및 이벤트 모니터링에는 다른 벤더를 채택했습니다.
그러나 이러한 접근 방식으로 인해 여러 문제가 발생했습니다. 텔레메트리에 두 벤더를 활용하면서 업무가 두 배로 늘어났고, 사용자는 두 시스템을 모두 배우고 탐색해야 했습니다. 또한 도구 난립으로 인해 로그, 메트릭, 이벤트를 한곳에서 종합적으로 확인할 수 없어 엔드투엔드 가시성에 공백이 발생했습니다.
솔루션
Acquia는 효율성을 개선하고 다양한 사용 사례 전반에 걸쳐 통합된 가시성을 확보하기 위해 도구를 통합하고 단일 옵저버빌리티 플랫폼으로 중앙화하기로 결정했습니다. 자체 구축과 구매 방식을 포함해 모든 선택지를 검토한 끝에, Acquia는 Sumo Logic이 고려 대상 중 어떤 대안보다도 요구 사항을 가장 잘 충족한다고 판단했습니다.
평가 기간이 끝날 무렵, Sumo Logic이 최종 파트너로 선정되었습니다. 계약이 체결되었을 당시 남은 기간은 6개월뿐이었고, 그동안 모든 텔레메트리를 통합해야 했습니다. 의존성이 많은 티어 1 프로젝트를 진행하면서 다양한 팀이 긴밀히 협력해 최고 속도로 마이그레이션을 진행했습니다.
“Acquia의 25개 이상 팀과 Sumo Logic의 8개 엔지니어링 팀이 직접 협업하며, 엔지니어와 엔지니어가 함께 일했습니다. Sumo Logic은 가능한 모든 노력을 기울여 이 기간 동안 50개 이상의 기능을 제공했습니다. 물론 마이그레이션 이후에도 요구 사항을 충족하기 위해 지속적으로 기능을 제공하고 있습니다. 최종적으로 일정과 예산 범위 내에서 성공적으로 도구 통합을 완료할 수 있었습니다.”라고 Acquia의 엔지니어링 디렉터인 파누시 아자디(Farnoosh Azadi)가 설명했습니다.

“Sumo Logic은 가능한 모든 노력을 기울여 이 기간 동안 50개 이상의 기능을 제공했습니다. 최종적으로 일정과 예산 범위 내에서 성공적으로 도구 통합을 완료할 수 있었습니다.”
—파누시 아자디, Acquia 엔지니어링 디렉터
결과
효율성과 사용자 도입 확대
간편하고 직관적인 통합 기능을 통해 Acquia는 PagerDuty와 Slack과 같은 사용자 대상 애플리케이션부터, Kubernetes, Varnish, PHP, MySQL, Apache 등 인프라 전용으로 설계된 다양한 제품과 소프트웨어의 로그에 이르기까지 광범위한 소스로부터 로그를 신속하게 수집할 수 있었습니다.
이제 단일 텔레메트리 플랫폼에 대해서만 서드파티 통합을 관리하게 되면서, Acquia는 반복적인 작업 사이클을 제거하고 운영 효율을 크게 향상시켰습니다. Azadi는 말합니다. “통합이 중복되거나 호환성 문제가 발생하지 않습니다. 이제 모든 내부 사용자가 Sumo Logic에 대한 전문성을 구축하는 데 집중할 수 있게 되었습니다. 그 결과 모든 것이 훨씬 간단해져 널리 채택되는 결과를 낳게 되었습니다.”
기술팀과 비기술팀 모두의 역량 강화
Sumo Logic의 클라우드 네이티브 플랫폼은 Acquia의 다양한 옵저버빌리티 요구 사항 전반에 걸쳐 구조화된 환경, 명확성, 그리고 엔드투엔드 가시성을 제공했습니다. Acquia는 로그 기반의 강력한 데이터 분석 기능을 활용해 분산된 환경 전체의 성능을 평가하고, 옵저버빌리티 및 인프라 모니터링 데이터를 기반으로 비즈니스를 예측할 수 있습니다.
프로덕션 시스템의 상태와 성능을 관리하기 위해 텔레메트리를 활용하는 팀뿐만 아니라, 조직 전반의 다양한 그룹이 일상적인 업무에 이 플랫폼을 사용하고 있습니다. 예를 들어 프런트엔드 팀은 고객과 직접 맞닿는 사이트와 시스템에서 데이터를 수집해 Acquia Cloud 및 기타 제품의 주요 사용자 인터페이스의 상태와 고객 경험을 추적합니다.
Acquia의 모든 팀은 Sumo Logic의 대시보드와 강력한 쿼리 언어를 활용해 집계된 데이터를 필터링, 파싱, 가공함으로써 의미 있는 인사이트를 도출합니다. 또한, 옵저버빌리티 플랫폼의 탐색이 매우 직관적이어서, 기술팀과 비기술팀 모두가 각자의 비즈니스 요구에 맞는 맞춤형 대시보드를 직접 생성할 수 있었습니다. 품질 엔지니어링(QE) 팀은 다양한 대시보드를 통해 테스트 결과를 추적하고 보고하며, 계정 관리자는 대시보드를 사용해 고객 서버를 면밀히 모니터링하고 감사를 수행합니다. 또한 지원 팀은 텔레메트리와 대시보드를 활용해 사고 대응을 관리하고 시스템 상태 진단을 모니터링함으로써 고객에게 고품질의 경험을 제공합니다.
대규모 환경에서 실시간 인사이트 제공
품질에 대한 약속의 일환으로 Acquia는 고객에게 99.95% 가동 시간 서비스 수준 계약(SLA)을 제공합니다. 이 약속을 이행하기 위해서는 고객 제품을 구동하는 인프라의 상태와 성능에 대한 실시간 정보가 Sumo Logic을 통해 제공되어야 합니다.
인프라 전반에 대한 지속적인 가시성을 확보하기 위해, Sumo Logic은 전 세계에 분산된 20,000개 이상의 EC2 서버, 수천 개의 Kubernetes 파드, 그리고 다양한 수집 메커니즘을 통해 생성되는 여러 로그에서 텔레메트리를 수집합니다. 이처럼 대규모 환경의 인프라 데이터가 실시간으로 수집·시각화됨에 따라, Acquia의 전문가들은 초기 경고 신호를 조기에 식별하고 문제가 확대되기 전에 신속히 대응할 수 있습니다.