時は金なり:SLO が正確な時間追跡のためにプラットフォームのパフォーマンスを最適化する方法
一目でわかる結果
課題
多数の監視ベンダーを抱えた結果、Laurelには数々の監視盲点が生じ、顧客への約束を果たせているかを確かめる術がなくなっていました。
Laurelは、お客様のタイムキーピングと請求プロセス自動化の支援をお約束します。ほとんどの弁護士はマイクロソフト製品のみを使用しているため、主にWindowsデスクトップアプリケーションを通じてLaurelのシステムとやり取りします。
Laurelは9社の外部ベンダーにシステム監視を委ねていたため、自社のデスクトップアプリケーションおよび顧客ごとのインフラストラクチャの信頼性確保が困難な状況にありました。
このようにソリューションが揃っていても、信頼性の盲点が多く、時間を効率的に管理するという顧客の期待に応えられているかどうかがわかりませんでした。コンテナのCPUとメモリに関するアラートしか設定されていなかったため、情報不足のアラートの多くが無視される状況でした。オンコール対応体制は混乱しており、既に退職した社員までもが担当者リストに含まれている状況でした。
Laurelの製品チームとエンジニアニアリングチームは、既存のワークフローを厳しく見直し、その不十分さを結論付けました。Laurelはインフラ監視に対する基本的なアプローチと理解を改める必要に迫られました。その過程で、情報の明確化とストレスの軽減を通じ、エンジニアの働きやすさ向上も重要な課題となったのです。
Laurelは9つのベンダーに提案依頼書(RFP)を提出し、より広範な可視性を提供する監視ソリューションを探しました。Laurelの製品チームとエンジニアリングチームはさらに、信頼性向上に向けてサービスレベル目標(SLO)のアプローチの採用を決定し、この方針に沿った解決策を模索し始めました。
Laurelのリードクラウドプラットフォームエンジニアであるナット・ウェルチは次のように語っています。「アラートもメトリクスもトレースもログも揃っているのに、顧客が実際に当社製品を快適に利用できているのかが把握できない。これは実にもどかしく、経営陣との会議でまともに話し合いたい課題とは言えません。」
ソリューション
最終的に、Laurelには2つの目標がありました:
- 顧客が提供内容に満足し、製品を信頼できる状態の確保
- 価値の高いタスクに時間を集中させ、Laurelの従業員のメンタルヘルスをケア
Laurelは監視プラットフォームとしてSumo Logicを選択しました。Sumo Logic は、オンコール・ローテーションのための OpsGenie や、収集の簡素化と拡大のための OpenTelemetry など、新しいワークフローに組み込んだ他のツールとシームレスに連携しました。

「私たちは顧客に優れた製品を提供したいのはもちろん、製品を構築するエンジニアのメンタルヘルスも向上させたいと考えています。」
ーLaurel、リードクラウドプラットフォームエンジニア、ナット・ウェルチ
結果
お客様は満足していますか? これが、Laurelのエンジニアチームが確信を持って回答し、上級管理職へと明確に伝える必要のある問いです。
SRE の実践と SLO によるアプリの信頼性の運用化
Laurel 社のエンジニアリングチームは、既製のダッシュボードから基本レベルのモニタリングを行うだけでなく、カスタマーエクスペリエンスに関するより深いインサイトを必要としていました。チームは Sumo Logic の信頼性管理ソリューションを使用して SLO を定義し、追跡しました。
SLOによって正式に定義された信頼性は、エンドユーザーにとって重要な指標を測定することで、エンジニアがユーザー体験の監視とトラブルシューティングに集中できるよう支援します。それと同時に、意味のないアラートや誤ったエスカレーションを減らせます。
Laurelチームは、顧客環境と共有サービスをカバーするサービスエンドポイントのメインAPIを監視するために、リクエストレイテンシーとAPI成功の2つのSLOから開始しました。


自動化された SLO モニタリングにより、Laurel がアプリケーションで新しいサービスを立ち上げる際、Sumo Logic に取り込まれたデータでユーザーエクスペリエンス追跡開始のための汎用 SLO を簡単に作成できます。新規のお客様をお迎えする際も同様です。

Sumo Logic UI 内の SLO ダッシュボードは、Laurel がモニタリングしているサービスの健全性とステータスをアクティブに表示します。
SLO ダッシュボードはこのように表示されます:
- サービスレベルインジケータ(SLI): 指定されたコンプライアンス期間内のシステムまたはサービスの可用性の定量的な尺度(通常はパーセンテージで示されます)。
- エラーバジェット残量: SLO に基づき、コンプライアンスを維持しながら発生する可能性のあるエラーの残量です。
- エラー履歴: エラーを追跡し、解決までの時間を確認する方法で、不要なアラートを減らす手法です。

「以前のアラート設定では、どんなエラーでもおそらくアラートが発せられ、誰かを呼び出したり、勤務中の作業を中断したりしたことでしょう。そしてエンジニアはたった50人しかいないことを考えると、これは大問題でした。私たちはそこから脱しつつあります。」
ーLaurel、リードクラウドプラットフォームエンジニア、ナット・ウェルチ
ツールの統合によるデータのシームレスな使用とアクセス
LaurelはSumo Logicを監視ソリューションとして使用しているため、データを他の監視ツールに移行する必要はありません。データは機能間で共有され、アクセス可能であるため、SLOモニタリング・プロセスのステップを省けます。Laurelは、Sumo Logic からエクスポートされた生のソースデータをカスタムダッシュボードで使うこともできます。

「Sumo Logic の SLO ソリューションでは既存のデータを使用しました。「私たちが過去に利用していた一部の監視サービス企業における課題は、彼らの提供するソリューションが長年にわたりほとんど改善されていなかったことです。」
ーLaurel、リードクラウドプラットフォームエンジニア、ナット・ウェルチ
生産性向上のためのイノベーション
Sumo Logicの製品チームは、LaurelのSLOセットアップとモニタリングを合理化するためにTerraformサポートを追加しました。この統合により、Laurelチームは90行のコードを書くだけで、顧客に必要な数百のSLOを作成できるようになりました。
「私たちが過去に利用していた一部の監視サービス企業における課題は、彼らの提供するソリューションが長きにわたり、ほとんど改善されていなかったことです。「Sumo Logicは絶え間なく革新を続けており、スタートアップである私たちにとって重要な、妥当な価格体系も備えていました」とウェルチは述べています。