ホーム » 一般 » 研究会 » AIOps向けデータセット生成システムの論文をIOTS2021で発表しました

SAKURA Internet Inc.

アーカイブ

AIOps向けデータセット生成システムの論文をIOTS2021で発表しました

さくらインターネット研究所の坪内(@yuuk1t)です。11月25〜26日に開催された、情報処理学会 第14回インターネットと運用技術シンポジウム(IOTS 2021) にて、”Meltria: マイクロサービスにおける異常検知・原因分析のためのデータセットの動的生成システム”と題した論文を発表しました。

ここ1年ほど、研究員の鶴田さん(@tsurubee3)と一緒に、Webアプリケーションに代表されるクラウドの分散アプリケーションにて、インシデント対応の際に要するオペレーターの認知負荷を、統計・機械学習技術によりいかに低減するかをテーマに研究を進めています。このように、ITオペレーションにAIを活用する分野は、AIOps(Artificial Intelligence for IT Operations)と呼ばれています。

AIOpsの研究を進める中で、モデルの性能評価に用いるデータの数や品質を高めないと、妥当な評価が難しいという当たり前の知見に気づきました。そこで、評価用のデータセットを作成することについて試行錯誤してきた内容が、本発表のベースになっています。

実際に、本システムで生成されたデータセットを使用して、異常の原因診断手法を次の共著の論文で提案しています。 IOTS2021でゲーム理論のシャープレイ値を用いたシステム異常の原因診断手法について発表しました

ゆくゆくは、単に研究の評価に使うだけでなく、エンジニアが現場に導入する際に、どのモデルを使えばよいのかわからない、といった課題に対して、現場あるいは現場に近い環境でデータセットを生成し、現場に適したモデルを選択できるようなシステムに発展させたいと考えています。

論文

坪内佑樹(さくらインターネット, 京都大学), 青山真也(さくらインターネット), Meltria: マイクロサービスにおける異常検知・原因分析のためのデータセットの動的生成システム,インターネットと運用技術シンポジウム論文集, 2021, 63-70 (2021-11-18), 2021年11月. [論文] [code]

概要 クラウド上の大規模なアプリケーションの構成は,機能単位で独立して変更可能とするために,単一の巨大なアプリケーションを分解して分散協調させるマイクロサービスアーキテクチャへと変遷している.アプリケーション構成の分散化により,構成要素数が増大し,構成要素間の依存関係が複雑化することから,システム管理者の認知負荷が高まっている.認知負荷を低減するために,システム管理者の経験と直感が要求される異常検知と異常の原因分析を自動化するための研究が盛んである.これらの研究では,データ分析手法を実験により評価する際に,正常データと異常データを含む運用データが必要となる.既存の公開されているデータセットは,その静的な性質故に,データセットに含まれる異常パターンの数は限られる.
本研究では,多様な異常のパターンに対して異常検知・原因分析手法を評価するために,データセットを動的に生成するためのシステムである Meltria の設計基準を提案する.我々が提案する設計基準は,(1) 運用データに異常を含めるために,多様な故障注入を実行し,データを採取するための一連の手続きを実行可能なスケジューリング,および,(2) 故障注入の影響と想定外の異常のそれぞれの有無をデータセットにラベル付けするための検証の自動化である.Meltria を用いて,故障注入の種類やパラメータを変更することにより,様々な異常のパターンを含んだデータセットを生成できる.実験の結果,生成されたデータセットに対する (2) の基準に基づいた検証手法の正解率は 85%となった.

スライド

当日の発表後の質疑では、自動ラベリングの品質、データセットを使う側にたったときに利便性や妥当性について、4件の質問をいただきました。

事前の査読では高評価をいただいていたため、3年連続で論文賞を受賞できるのではないかと密かに期待していましたが、残念ながら受賞は逃しました。今後も精進して参ります。