一目でわかる結果
課題
ログの増加速度が収集予算を上回る中、データの損失を防止し、信頼性に重要な分析機能をすべて維持する必要がありました。
世界がデジタルトランスフォーメーションを受け入れる中、Automation Anywhereは急速に成長し、新たな課題をもたらしています。Automation Anywhereのエンジニアが新機能を継続的に開発する一方で、同社のソリューションを顧客はますます活用するようになっています。その結果、爆発的な量のデータがシステム内を駆け巡ることになります。
Automation Anywhereにとって、自社の技術スタック全体における可観測性と信頼性の確保は最も重要な課題です。Automation Anywhereの米国クラウド運用責任者であるRaj Desikavinayagompillai氏は、主な課題は全てのデータを確実に収集し検索可能にすることだと述べています。しかし、ログの増加ペースに比べ、データ取り込みの予算はそれほど急速に拡大していません。これは急成長を遂げる多くの組織にとって課題となっています。データ損失を防止しつつ、すべての信頼性重視の分析をデータから抽出することを保証しながら、摂取予算の範囲内に収めなければいけません。
Raj氏はログ収集は氷山の一角に過ぎないと述べています。「ログは私たちにとって単なるデータに過ぎません。データでさらに多くのことを実現したいと考えています」。Automation Anywhereは、すべてのログを収集できるだけでなく、それらのログをチームにとって有用で実用的なものにすることを可能にする、クラウド監視インフラを拡張するための費用対効果の高いソリューションを必要としていました。
ソリューション
Automation Anywhereは、予算内で全てのログデータの収集と実用的なインサイトの抽出を確保する戦略的監視パートナーとしてSumo Logicを選択しました。
Sumo LogicはAutomation Anywhereの効率性を劇的に向上させるのに貢献しました。Data Tier(データ階層別)価格設定により、Automation Anywhereはデータ取り込み要件の拡大に伴い、すべてのログを収集することが可能となります。ダッシュボードとアラート機能により、Automation Anywhereは分析に要する時間を数日から30分未満に短縮するワークフローを構築できます。
さらに、Sumo LogicはAutomation Anywhereがワークフローを開発・改善し、手動のエンジニアリング作業を削減するために必要なツールキットを提供します。特に、ShorelineとSumo Logicの統合による自動修復を通じて顕著な効果を発揮します。このソリューションで使用されるその他の主要ツールには、Atlassian OpsgenieとJiraが含まれます。

「私たちが無駄にしている1分1秒は、インシデントを迅速に回復するために節約できる時間です」
—Raj Desikavinayagompillai、米国クラウド運用責任者
結果
Raj氏は業界で20年以上の経験を持っており、市場で入手可能なソリューションに精通しています。以前の会社では、彼はSplunkを使っていました。現在、Automation Anywhere では、Sumo Logic のリードエバンジェリストとして、戦略的パートナーシップを拡大しています。
Automation Anywhereのエンジニアは、Sumo Logicの機能と統合能力を活用して監視を簡素化し信頼性を確保するワークフローを構築する方法を特定することで、エンジニアリング作業時間を削減すべく、Sumo Logicと連携して継続的に取り組んでいます。
階層型価格設定による、費用対効果に優れたスケーラブルなデータ取り込みと監視
Automation Anywhereは、Sumo Logicの「継続的」および「低頻度」の料金プランを活用し、取り込み予算の範囲内で全てのログを取り込み監視することを保証しています。彼らは現在、Sumo Logicを使用して、AWSとGCP上のクラウド環境全体(キュー、リレーショナルデータベースサービス(RDS)、フロントエンド、アプリケーションスタックを含む)のデータを取り込み、監視しています。
Automation Anywhereチームは、コレクターレベルで各階層の1日、2日、7日のトレンドを監視するカスタムロジックを設定したSumo Logicのスケジュール検索機能を活用することで、システム全体を監視し、対処が必要なパターン変化が発生した場合にアラートを受け取ることができます。

使用中のデータ階層
- Continuous Tier(継続的ティア)は、本番アプリケーションの監視とトラブルシューティング、およびアプリケーションのセキュリティ確保に使用されるデータ向けです。
- Infrequent Tier(低頻度ティア)は、断続的または再現が困難な問題のトラブルシューティングに使用されるデータ向けです。デバッグログ、OSログ、スレッドダンプなどが該当します。Infrequent Tierは検索ごとの課金モデルを採用しており、低コストでのデータ取り込みが可能です。
ログスパイク分析時間を数日から30分に短縮
ログの急増などのパターン変化がOpsgenieアラートをトリガーし、JIRAチケットの発行を開始します。Automation AnywhereはSumo Logicのダッシュボードを活用し、Kubernetesクラスターに基づいてログデータをバケット内にグループ化しています。これにより、アラート対応時に注力すべきログのプールを絞り込み、修復平均時間(MTTR)を短縮。従来数日かかっていたトリアージ、分析、デバッグの時間を約30分に短縮しています。
世界中に約14のデータセンターを展開する大規模な企業にとって、ログを小分けに分類することでログ確認にかかる時間を短縮し、分析と対応までの時間を短縮できます。「私たちが無駄にしている1分1秒は、インシデントを迅速に回復するために節約できる時間です」とRaj氏は語ります。このワークフローから起動されるJIRAチケットの例です。オンコールエンジニアがリアルタイムで修正を行います。

Sumo LogicとShorelineの連携による自動化された信頼性監視とインシデント解決
Sumo Logicは、すべてのログデータが監視されることを保証し、設定されたしきい値を超えたものはすべてアラートをトリガーします。そこから、Shorelineの統合により自己修復ワークフローが駆動され、Op Packsに既にデプロイされているランブックを活用し、既知のインシデントに対して迅速な修正を自動的に適用します。
このワークフローにより、オンコールのクラウドオペレーションエンジニアが毎日実施していた1~3件の手動作業が不要となり、既知のインシデントにおける平均復旧時間(MTTR)が改善されました。これにより、従来インシデント対応手順書の確認や修正適用に要していた約15~45分のエンジニアリング時間が削減されています。これには、中断やタスク切り替えによる生産性の損失が排除された分は含まれていません。
これは特にクラスターレベルで問題が発生した場合に極めて重要です。データ取り込みが中断されると、問題解決はさらに複雑化し遅延します。特定すべきバグが存在することに加え、クラスタの監視とトラブルシューティングに必要なリアルタイムデータの流れに断絶が生じるためです。Sumo LogicとShorelineによる自動アクションと自動修復により、これらのインシデントによる時間とデータ損失を削減します。今後、Automation Anywhereはこの統合をさらに拡充していく予定です。