ホーム » yuuki の投稿

作者アーカイブ: yuuki

大規模言語モデルによるシステム障害の診断技術に関する研究動向

2024-04-08

さくらインターネット研究所の坪内（@yuuk1t）です。

私の個人ブログにて、クラウドのプラットフォームやクラウド上に展開されるアプリケーションの障害を大規模言語モデル（LLM）を用いて、自動で診断するための技術を提案する最新の研究動向を紹介する次の調査記事を書きました。

LLM for SRE“の世界探索 – ゆううきブログ

本記事では、この研究動向の調査をさくらインターネット研究所の研究活動の一環として位置づけ、調査の概要と動機、公開後に得られたフィードバック、今後の研究について紹介します。

[続きを読む]

クラウドの障害診断の自動化に関する論文が国際ジャーナル「IEEE Access」に採録

2024-04-04

さくらインターネット研究所の坪内（@yuuk1t）です。

2024年3月に、さくらインターネット研究所から投稿した学術論文が、アメリカ合衆国に本部を置く電気・情報工学分野の学術研究団体（学会）、技術標準化機関であるIEEEの、査読付き国際オープンアクセスジャーナル「IEEE Access」に採録・掲載されました。掲載された論文の情報は次の通りです。

書誌情報：Yuuki Tsubouchi, Hirofumi Tsuruta, MetricSifter: Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications, IEEE Access (ACCESS) , Vol. 12, pp. 37398-37417, March 2024.
論文のファイル: https://ieeexplore.ieee.org/ielx7/6287639/6514899/10462133.pdf
ソースコードとデータセットのリポジトリ： https://github.com/ai4sre/metricsifter

さくらインターネット研究所では、以前より、機械学習や統計解析技術を用いて、クラウドのシステム障害管理（インシデント管理とも呼ばれる）を自動化する研究を行ってきました。障害管理は、主にクラウドを用いたオンラインサービスの信頼性に着目するソフトウェア工学分野「SRE（Site Reliability Engineering）」が取り扱う重要課題です。

障害管理の自動化に関する我々の研究活動の中で、国際的な学術機関の媒体に掲載された論文は、本論文が初となります。以降では、本論文の概要を紹介します。

[続きを読む]

リモートワークによる孤立から結束へと向かうチームビルディング

2022-10-18

さくらインターネット研究所の坪内（@yuuk1t）です。最近は、大学院の博士課程が3年目の後半に入り、大詰めを迎えています。

さくらインターネット研究所では、研究所メンバーが地理的に分散して仕事していることと、研究所メンバーの専門性と参画プロジェクトが多様であることの2点を理由に、メンバー同士が物理的にも情報的にも孤立しやすい傾向にあります。孤立を避けるためには、特別な工夫が必要であると考え、メンバー間の結束を高め、よりよいコラボレーションを生むための施策をこの半年ほど取り組んできました。そこで、この記事では、コラボレーションを促進するための会をつくり、その会で独自に定義したコラボレーションの構造を表現する階層を提示し、その階層の基底部分の「同じ場にいる」と「互いを知る」ことに着目した施策を紹介します。これらの取り組みが、リモートワーク時代のチームビルディングの参考になれば幸いです。

[続きを読む]

Linux eBPFトレーシングのツール実装に必要な知識の体系化と動機

2022-01-21

さくらインターネット研究所の坪内（@yuuk1t）です。

昨年末に、個人ブログで公開したLinux eBPFトレーシング技術を体系化して整理した記事を、研究成果の一環として紹介します。

Linuxカーネルの拡張技術であるeBPF（extended Berkley Packet Filter）の普及により、ユーザー定義のコードにより、カーネル内部の関数呼び出しなどのイベントを追跡し計測しやすくなりました。この記事では、eBPFとはなにか、トレーシングにおけるeBPFの位置付け、eBPFトレーシングの技術要素（アーキテクチャ、イベントソース、BCC、bpftrace、CO-RE）、1992年の起源から2021年に至るまでの歴史、eBPFトレーシングツールをプログラミングする方法をまとめました。

[続きを読む]

AIOps向けデータセット生成システムの論文をIOTS2021で発表しました

2021-12-07

さくらインターネット研究所の坪内(@yuuk1t)です。11月25〜26日に開催された、情報処理学会第14回インターネットと運用技術シンポジウム（IOTS 2021) にて、”Meltria: マイクロサービスにおける異常検知・原因分析のためのデータセットの動的生成システム”と題した論文を発表しました。

ここ1年ほど、研究員の鶴田さん（@tsurubee3）と一緒に、Webアプリケーションに代表されるクラウドの分散アプリケーションにて、インシデント対応の際に要するオペレーターの認知負荷を、統計・機械学習技術によりいかに低減するかをテーマに研究を進めています。このように、ITオペレーションにAIを活用する分野は、AIOps（Artificial Intelligence for IT Operations）と呼ばれています。

AIOpsの研究を進める中で、モデルの性能評価に用いるデータの数や品質を高めないと、妥当な評価が難しいという当たり前の知見に気づきました。そこで、評価用のデータセットを作成することについて試行錯誤してきた内容が、本発表のベースになっています。

実際に、本システムで生成されたデータセットを使用して、異常の原因診断手法を次の共著の論文で提案しています。 IOTS2021でゲーム理論のシャープレイ値を用いたシステム異常の原因診断手法について発表しました

ゆくゆくは、単に研究の評価に使うだけでなく、エンジニアが現場に導入する際に、どのモデルを使えばよいのかわからない、といった課題に対して、現場あるいは現場に近い環境でデータセットを生成し、現場に適したモデルを選択できるようなシステムに発展させたいと考えています。

[続きを読む]

DICOMO2019で研究組織設計、Fogコンピューティング、ネットワーク依存関係追跡の発表をしました

2019-08-30

さくらインターネット研究所の坪内(@yuuk1t)です。2019年7月3日~5日までの3日間にわたって、福島県磐梯熱海温泉でマルチメディア、分散、協調とモバイル(DICOMO2019)シンポジウムが開催されました。当シンポジウムにて、さくらインターネット研究所から次の3件の発表を行いましたので、各発表について論文とスライドと共に内容を紹介します。