ホーム » 一般 » 研究会 » IOTS2021でゲーム理論のシャープレイ値を用いたシステム異常の原因診断手法について発表しました

SAKURA Internet Inc.

アーカイブ

IOTS2021でゲーム理論のシャープレイ値を用いたシステム異常の原因診断手法について発表しました

さくらインターネット研究所の鶴田(@tsurubee3)です。2021年11月25〜26日にオンラインで開催された第14回 インターネットと運用技術シンポジウム(IOTS 2021)にて、システムの異常の原因診断に関する発表を行ったので、スライドとともに内容を紹介します。

分散システムの性能異常に対する機械学習の解釈性に基づく原因診断手法

鶴田博文(さくらインターネット), 坪内佑樹(さくらインターネット, 京都大学) [論文]

本発表では、Webサービスを構成する分散システムに性能異常が発生した際に、異常の原因となるメトリック(CPU使用率など)を特定することに焦点を当て、軽量な機械学習モデルと協力ゲーム理論のシャープレイ値を組み合わせた原因診断手法を提案しました。機械学習を用いた既存の原因診断手法では、システム構成が変更されて分析対象のメトリックの系列数が変化した場合、機械学習モデルの再学習が必要であるため、システム構成の変更に対する追従性が課題となります。提案手法では、高速に学習が可能である軽量な機械学習モデルを用いて、モデルの学習を異常検知後に行うアーキテクチャを採用することで,システム構成の変更に追従した原因診断を行うことができます。また、機械学習の解釈性の研究分野において注目されているシャープレイ値を用いて、実用的な診断の時間内で、原因診断の精度を高められるか検討しました。提案手法や評価等に関するより詳細な内容については、論文をご覧いただけますと幸いです。

本発表の質疑応答では、大変有意義なご質問やご意見をいただくことができました。特に、「提案手法が原因診断に失敗するのはどういったケースの異常であるか」というご質問があり、今後研究を発展させていく上で重要な視点であると感じました。これらを参考に、引き続き研究活動を進めていきたいと思います。

スライド