ホーム » 技術 » SRE

SRE」カテゴリーアーカイブ

SAKURA Internet Inc.

アーカイブ

大規模言語モデルによるシステム障害の診断技術に関する研究動向

さくらインターネット研究所の坪内(@yuuk1t)です。

私の個人ブログにて、クラウドのプラットフォームやクラウド上に展開されるアプリケーションの障害を大規模言語モデル(LLM)を用いて、自動で診断するための技術を提案する最新の研究動向を紹介する次の調査記事を書きました。

LLM for SRE“の世界探索 – ゆううきブログ

本記事では、この研究動向の調査をさくらインターネット研究所の研究活動の一環として位置づけ、調査の概要と動機、公開後に得られたフィードバック、今後の研究について紹介します。

[続きを読む]

クラウドの障害診断の自動化に関する論文が国際ジャーナル「IEEE Access」に採録

さくらインターネット研究所の坪内(@yuuk1t)です。

2024年3月に、さくらインターネット研究所から投稿した学術論文が、アメリカ合衆国に本部を置く電気・情報工学分野の学術研究団体(学会)、技術標準化機関であるIEEEの、査読付き国際オープンアクセスジャーナル「IEEE Access」に採録・掲載されました。掲載された論文の情報は次の通りです。

さくらインターネット研究所では、以前より、機械学習や統計解析技術を用いて、クラウドのシステム障害管理(インシデント管理とも呼ばれる)を自動化する研究を行ってきました。障害管理は、主にクラウドを用いたオンラインサービスの信頼性に着目するソフトウェア工学分野「SRE(Site Reliability Engineering)」が取り扱う重要課題です。

障害管理の自動化に関する我々の研究活動の中で、国際的な学術機関の媒体に掲載された論文は、本論文が初となります。以降では、本論文の概要を紹介します。

[続きを読む]