
Dimensional Researchと自動化プロバイダーのShoreline.ioのレポートによると、企業はオンコールオペレーションに年間平均250万ドルを費やしています。また、「Benchmarking Production Operations Report」によると、企業は年間平均8.7件の重大インシデントに見舞われており、そのうち62%が経営幹部にエスカレーションされています。
このレポートでは、クラウド運用業界における数多くの課題と機会を強調し、組織がオンコール運用に年間数百万ドルを費やしているにもかかわらず、顧客と従業員の生産性に影響を与える大規模な障害が引き続き発生していると主張しています。
クラウドの信頼性の課題
組織のリーダーの約97%がクラウドの信頼性を最優先事項と回答しています。しかし、このように重視しているにもかかわらず、企業は信頼性の向上を阻むいくつかの大きな要因を挙げています。その最たるものが、管理している環境の複雑さです。
「企業の製品の複雑さが増すにつれ、必要な幅広い経験を持つSRE(サイト信頼性エンジニアリング)やDevOpsの専門家を見つけることがますます難しくなる」と報告書は述べている。
参照:採用キット: クラウド エンジニア(TechRepublic Premium)
回答者が2番目に挙げた問題は、インシデントの予防や修正の自動化に集中する時間がないことです。「これはまさに悪循環です。チームの時間が減れば減るほど、改善に投資できる時間も減り、製品は成長を続け、複雑化していきます」とレポートは指摘しています。「運用チームの負荷が増加すると、人材が離職し、負担を分担する人数が少なくなります。」
このレポートでは、組織が取り組みのどの段階にいても、インシデント防止と修復の自動化への投資を直ちに開始する必要があることを主張しています。
その他の主な調査結果は次のとおりです。
- 重大インシデントの72%はサービスプロバイダーと人為的ミスが原因である
- 人為的ミスは自動化エラーよりも5倍も大きな障害を引き起こす可能性が高くなります
- エスカレーションされたインシデントを解決する平均時間は10.7時間です
- インシデントの55%は、オンコールチーム以外の第2ラインの対応者または専門家にエスカレーションされます。
- 48%のインシデントは価値が低く、反復的で、面倒なものである。
インシデントの総数を減らし、コストを削減し、回復時間を短縮することを優先する組織が増えるにつれて、調査では信頼性がいかに重要であるかが示されました。
- 98%の組織が信頼性の高いクラウドアプリケーションの提供に課題を抱えている
- SREチームは過去12ヶ月で26%増加した
- クラウドフットプリントは過去12か月で38%増加しました
- 現代のテクノロジーはインフラ管理をより困難にしており、73%がマルチクラウドによって仕事が難しくなったと回答し、52%がKubernetesとマイクロサービスによって仕事が難しくなったと回答しています。
「クラウドフットプリントの成長は、オンコールチームの成長を上回っています」と、ディメンショナル・リサーチのプリンシパル、ダイアン・ハグランド氏は声明で述べています。「クラウド環境はますます複雑化しており、オンコールのニーズに対応できる専門知識を持つスタッフを見つけることは特に困難です。そのため、インシデント対応チームは信頼性の要求を満たすのに苦労しています。」
参照:iCloud vs. OneDrive:Mac、iPad、iPhone ユーザーに最適なのはどちら?(無料 PDF) (TechRepublic)
オンコールの生産性を向上させる方法
このレポートでは、オンコールを改善するための次のようないくつかの推奨事項について詳しく説明しています。
インシデント管理システムが洞察力を提供することを確認する
98%の組織がインシデント管理アプローチに課題を抱えていると報告しています。チケットデータを活用してオンコールオペレーションに関する洞察を得ることは、生産性向上の機会を発見する鍵となります。
攻撃のエスカレーション
オンコールの生産性を向上させる最大のチャンスは、オンコール時間の78%を占めるインシデントのエスカレーションを削減することです。サポートチームの能力を強化するセルフサービスツールへの投資は、エスカレーションの総数を削減するだけでなく、より包括的な診断データを提供することにもつながります。
反復的で価値の低い仕事や苦労を攻撃する
インシデントの 48% は反復的なものであり、自己修復型のインシデント修復機能を作成してチームを反復的なタスクから解放し、回復力の向上、環境のセキュリティ保護、コストの削減に多くの時間を費やして生産性をさらに向上させる機会を提供します。
Shoreline.ioの創設者兼CEOであるアヌラグ・グプタ氏は声明で、「クラウドインフラの急速な成長により、SREチームは毎月数千時間もの作業に追われており、現在のオンコール対応は持続不可能です。自動化を活用してエスカレーションに対応し、価値の低い反復作業を削減することで、チームの生産性と顧客体験全体を劇的に向上させることができます」と述べています。
ディメンショナル・リサーチは、実稼働クラウド環境におけるインシデント対応について調査するため、300名以上のオンコール担当者、マネージャー、経営幹部を対象にアンケート調査を実施したと発表した。同社によると、調査対象者は20ノード未満から1万ノードを超える企業の運営責任者だという。