시간이 곧 돈일 때: SLO가 정확한 시간 추적을 위해 플랫폼 성능을 최적화하는 방법
결과 요약
문제점
Laurel은 너무 많은 모니터링 벤더를 사용해 수많은 사각지대가 생겼고, 고객과의 약속이 제대로 이행되는지 확인할 방법이 없었습니다.
Laurel은 고객이 시간 기록 및 청구 프로세스를 자동화하도록 지원하는 데 전념하고 있습니다. 대부분의 변호사는 Microsoft 제품만 사용하는 경우가 많아 주로 Windows 데스크톱 애플리케이션을 통해 Laurel 시스템과 상호 작용을 합니다.
아홉 곳의 외부 벤더가 Laurel의 시스템을 모니터링하고 있었기에 데스크톱 애플리케이션과 고객별 인프라 아키텍처의 신뢰성을 확보하는 것이 어려웠습니다.
이렇게 많은 솔루션을 사용하고도 신뢰성 측면에서 여전히 사각지대가 많았고, 시간 관리 효율성에 대한 고객의 기대에 부응하고 있는지 알 수 없었습니다. 컨테이너에 관한 CPU 및 메모리 관련 경고 알림만 제공되어 보강되지 않은 경고 알림이 많이 무시되었습니다. 또한 온콜 근무 로테이션은 체계적이지 않았고, 회사를 떠난 사람까지 포함되어 있었습니다.
Laurel의 제품 및 엔지니어링팀은 현재 워크플로를 면밀히 검토한 결과 부족한 점을 발견했습니다. Laurel 팀은 인프라 모니터링에 대한 전반적인 접근 방식과 이해를 바로잡아야 했고, 그 과정에서 더 명확한 가시성과 스트레스 감소를 통해 엔지니어들의 복지도 함께 개선하고자 했습니다.
Laurel은 더 폭넓은 가시성을 제공하는 모니터링 솔루션을 찾기 위해 아홉 개 벤더를 대상으로 제안 요청서(Request For Proposal, RFP)를 보냈습니다. 또한 Laurel의 제품 및 엔지니어링팀은 신뢰성에 대해 서비스 수준 목표(Service Level Objective, SLO) 접근 방식을 취하기로 결정하고 이에 부합하는 솔루션을 찾기 시작했습니다.
“Laurel에는 경고 알림도 있고, 메트릭도 있고, 트레이스도 있고, 로그도 있지만, 실제로 고객들이 제품을 제대로 경험하고 있는지는 잘 알 수 없는 상황입니다. 이 점이 매우 답답할 뿐 아니라, 시니어 레벨 리더십과 나누고 싶은 대화의 방향과도 다릅니다.”라고 Laurel의 수석 클라우드 플랫폼 엔지니어인 냇 웰치(Nat Welch)는 말했습니다.
솔루션
궁극적으로 Laurel은 두 가지 목표를 가지고 있었습니다.
- 하나는 고객이 자사의 서비스에 만족하고 자사 제품을 신뢰할 수 있도록 보장하는 것이고,
- 다른 하나는 Laurel 직원들의 시간을 고부가 가치 업무에 집중시켜 구성원들의 정신 건강을 돌보는 것이었습니다.
Laurel은 모니터링 플랫폼으로 Sumo Logic을 선택했습니다. Sumo Logic은 온콜 순환 근무를 위한 OpsGenie, 수집을 단순화하고 그 범위를 확장하기 위한 OpenTelemetry 등 새 워크플로에 도입된 다른 도구들과도 매끄럽게 연동되었습니다.

“저희는 고객에게 좋은 제품을 제공하는 동시에 그 제품을 만드는 엔지니어들의 정신 건강도 증진하고자 합니다.”
—냇 웰치(Nat Welch), Laurel 수석 클라우드 플랫폼 엔지니어
결과
고객들은 만족하고 있는가? 이것이 바로 Laurel의 엔지니어들이 고위 경영진에게 자신 있게 답하고 전달할 수 있어야 했던 질문입니다.
SLO를 통해 SRE 실무와 앱 신뢰성을 운영에 반영하기
Laurel의 엔지니어링팀은 기본 제공 대시보드의 기초적인 모니터링 수준을 넘어 고객 경험에 대한 더 심층적인 인사이트가 필요했습니다. 팀은 Sumo Logic의 신뢰성 관리 솔루션을 사용해 SLO를 정의하고 추적했습니다.
SLO로 체계화된 신뢰성은 최종 사용자에게 중요한 지표를 측정함으로써 엔지니어들이 사용자 경험 모니터링과 트러블슈팅에 집중하도록 돕고, 의미 없을 수 있는 경고 알림과 불필요한 에스컬레이션을 줄여 줍니다.
Laurel 팀은 고객 환경과 공유 서비스 전반에 걸쳐 서비스 엔드포인트의 주요 API를 모니터링하기 위해 요청 지연 시간과 API 성공률이라는 두 가지 SLO부터 설정했습니다.


자동화된 SLO 모니터링 덕분에 Laurel은 애플리케이션에 새로운 서비스를 추가할 때마다 이미 Sumo Logic 내에 수집된 데이터를 기반으로 사용자의 경험을 추적하기 위한 범용 SLO를 손쉽게 생성할 수 있습니다. 새로운 고객을 온보딩할 때마다 같은 방식이 적용됩니다.

Sumo Logic UI 내 SLO 대시보드는 Laurel이 모니터링 중인 서비스의 건전성과 상태를 실시간으로 파악할 수 있는 화면을 제공합니다.
SLO 대시보드에는 다음 항목이 표시됩니다.
- 서비스 수준 지표(Service-Level Indicator, SLI): 지정된 규정 준수 기간 동안 시스템 또는 서비스의 가용성에 대한 정량적 측정값(일반적으로 백분율로 표시됨)입니다.
- 남은 오류 예산(Error budget): SLO를 기준으로 규정을 준수하는 상태에서 발생할 수 있는 남은 오류 허용량을 의미합니다.
- 오류 이력: 오류를 추적하고 얼마나 빨리 해결되는지 확인하는 방법으로, 불필요한 경고 알림을 줄여 줍니다.

“예전 경고 알림 체계에서는 어떤 오류든 발생하기만 하면 경고 알림이 발생해 누군가를 깨우거나 업무에 방해가 되었을 것입니다. 팀에 엔지니어가 50명뿐이라 그런 상황은 좋지 않죠. 지금은 그런 방식에서 벗어나고 있습니다.”
—냇 웰치(Nat Welch), Laurel 수석 클라우드 플랫폼 엔지니어
도구 통합을 통한 원활한 데이터 활용과 접근
Laurel은 옵저버빌리티 솔루션으로 Sumo Logic을 사용하고 있으므로 데이터를 다른 모니터링 도구로 마이그레이션할 필요가 없습니다. 기능 간에 데이터가 공유되고 접근 가능하여 SLO 모니터링 과정에서 필요한 단계를 줄일 수 있습니다. 또한 Laurel은 Sumo Logic에서 내보낸 원시 소스 데이터를 활용해 사용자 지정 대시보드를 구성할 수 있습니다.

“Sumo Logic의 SLO 솔루션은 기존에 있던 데이터를 그대로 활용했습니다. 새 고객사를 하나 더 온보딩하기를 꺼렸던 매우 큰 이유 중 하나는 데이터를 넘기기 위한 일종의 파이프를 따로 만들어야 했기 때문입니다.”
—냇 웰치(Nat Welch), Laurel 수석 클라우드 플랫폼 엔지니어
생산성 향상을 위한 혁신
Sumo Logic의 제품팀은 Laurel의 SLO 설정 및 모니터링을 간소화하기 위해 Terraform 지원을 추가했습니다. 이 통합을 통해 Laurel 팀은 고객을 위해 필요한 수백 개의 SLO를 단 90줄의 코드만으로 생성할 수 있게 되었습니다.
“예전에 사용하던 일부 모니터링 회사에서 겪었던 문제 중 하나는 수년 동안 제품을 전혀 바꾸지 않았다는 점입니다. Sumo Logic은 끊임없이 혁신을 이어가고 있었고 합리적인 가격 체계도 갖추고 있었습니다. 스타트업인 저희에게는 중요한 점입니다.”라고 웰치는 말했습니다.