IOTS2021でゲーム理論のシャープレイ値を用いたシステム異常の原因診断手法について発表しました

  • Hirofumi TsurutaHirofumi Tsuruta
at
    Tags:
  • AIOps|機械学習

さくらインターネット研究所の鶴田(@tsurubee3)です。2021年11月25〜26日にオンラインで開催された第14回 インターネットと運用技術シンポジウム(IOTS 2021)にて、システムの異常の原因診断に関する発表を行ったので、スライドとともに内容を紹介します。

分散システムの性能異常に対する機械学習の解釈性に基づく原因診断手法

鶴田博文(さくらインターネット), 坪内佑樹(さくらインターネット, 京都大学) [論文]

本発表では、Webサービスを構成する分散システムに性能異常が発生した際に、異常の原因となるメトリック(CPU使用率など)を特定することに焦点を当て、軽量な機械学習モデルと協力ゲーム理論のシャープレイ値を組み合わせた原因診断手法を提案しました。機械学習を用いた既存の原因診断手法では、システム構成が変更されて分析対象のメトリックの系列数が変化した場合、機械学習モデルの再学習が必要であるため、システム構成の変更に対する追従性が課題となります。提案手法では、高速に学習が可能である軽量な機械学習モデルを用いて、モデルの学習を異常検知後に行うアーキテクチャを採用することで,システム構成の変更に追従した原因診断を行うことができます。また、機械学習の解釈性の研究分野において注目されているシャープレイ値を用いて、実用的な診断の時間内で、原因診断の精度を高められるか検討しました。提案手法や評価等に関するより詳細な内容については、論文をご覧いただけますと幸いです。

本発表の質疑応答では、大変有意義なご質問やご意見をいただくことができました。特に、「提案手法が原因診断に失敗するのはどういったケースの異常であるか」というご質問があり、今後研究を発展させていく上で重要な視点であると感じました。これらを参考に、引き続き研究活動を進めていきたいと思います。

スライド

著者

鶴田 博文
鶴田 博文
研究員

2019年8月入社。創薬、材料科学、システム運用等の分野における機械学習・人工知能(AI)技術の研究を担当。

学生時代は材料工学を専攻し、高分子材料の物性に関する研究に従事。2012年9月に修士課程を早期修了。2016年11月にIT業界に飛び込み、機械学習エンジニア、インフラエンジニアを経て、現職に至る。AI創薬のためのデータセット構築に関する主著論文が、AI分野で世界最高峰の国際会議であるNeurIPS(Neural Information Processing Systems)2023および2024のDatasets and Benchmarks Trackに2年連続採択。