さくらインターネット研究所

MLSys 2026でAI/HPCクラスタ「さくらONE」の設計・性能評価・運用データ分析を発表

さくらインターネット研究所 — Thu, 04 Jun 2026 00:00:00 GMT

さくらインターネット研究所の鶴田（@tsurubee3）です。2026年5月、米国ワシントン州ベルビューにて、機械学習とシステムの交差領域における国際会議「Machine Learning and Systems（MLSys）2026」が開催されました。同会議のIndustry Trackに、当研究所が開発・運用する、AIモデル開発向けのHPC（High Performance Computing）クラスタ「さくらONE」に関する論文が採択され、共著者3名で現地に赴いて発表しました。本記事では、MLSys 2026のIndustry Trackの概要、採択論文の概要、現地でのオーラル発表・ポスター発表の様子について報告します。

MLSys 2026 Industry Trackについて

MLSysは、機械学習とシステムという2つの研究コミュニティが知見を共有し、新たな接点を生み出すことを目的に設立された国際会議です。2018年に「SysML」として第1回が開催されて以来、現在の名称に改称後も毎年開催されており、機械学習の効率化・大規模化を支えるシステム技術から実応用に向けた取り組みまで幅広いテーマが扱われています。

Opening Remarksで発表された数字によると、近年はMLSysへの投稿数が大きく伸びています。MLSys 2025の271件から、MLSys 2026では504件と前年比86%増加しており、機械学習システム分野への関心の高まりがうかがえます。

MLSys 2026では、従来のResearch Trackに加えてIndustry Trackが新設され、注目を集めました。Industry Trackには初年度ながら87本の投稿が集まりました。

Research Trackと比較したIndustry Trackの主な特徴は2点あります。1点目は、評価のフォーカスが「本番運用システムの設計・評価から得られた知見・教訓」に置かれていることです。研究の新規性そのものよりも、実世界での影響、技術的品質、システム構築から得られた経験が重視されます。2点目は、Research Trackのように完全な匿名化は求められないことです。投稿時には、著者名は匿名化しますが、製品名等の識別情報を本文に含めることが認められています。

MLSys 2026全体では504本の投稿のうち135本の論文が採択され、内訳はResearch Track 107本、Industry Track 28本となっています。全体の採択率は26%、Research Track単体では25%、Industry Track単体では32%でした。

採択論文の概要

タイトル: SAKURAONE: An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment
著者: 小西史一、坪内佑樹、鶴田博文（さくらインターネット株式会社）
論文: https://arxiv.org/abs/2604.13600

採択された論文は、「さくらONE」の設計と、TOP-500およびMLPerfに基づく性能評価、その上での大規模言語モデル（LLM）開発における実運用知見を報告したものです。さくらONEは、NVIDIA H100 GPUを800基（100ノード×8基）搭載したAI/HPCクラスタです。高帯域・低レイテンシが求められるAI向けAI/HPCクラスタでは、従来、特定ベンダーに依存した専用の相互接続ネットワーク（InfiniBandなど）が主流でした。これに対しさくらONEは、800ギガビットイーサネット（800 GbE）とネットワークOSのSONiC（Software for Open Networking in the Cloud）を組み合わせたオープンEthernetネットワークを基盤として採用している点が特徴です。

本論文では、以下の2点を中心に報告しています。

ベンダーに依存しないオープンEthernetネットワークを基盤とするAI向けHPCシステムのアーキテクチャ設計・実装と性能評価
単一プロジェクト・単一テナント環境におけるLLM開発の実運用データに基づくワークロード特性の観測と分析

これらの取り組みは、オープンでコスト効率の高いAI/HPCクラスタの実現可能性を実証するとともに、実運用に基づくワークロード分析を通じて、次世代AIインフラの設計指針として産業界・学術界の双方に有用な知見を提供するものです。具体的な性能評価の結果やワークロード分析の知見については、後述のオーラル発表・ポスター発表のセクションで紹介します。

オーラル発表

オーラル発表は坪内（@yuukit）が担当しました。発表スライドは以下で公開しています。

発表の前半では、さくらONEのシステム設計を中心に説明しました。LLM開発においてピークFLOPSだけでなく、長期間にわたって継続的に利用できる計算資源、GPU間通信のための予測可能なネットワーク経路、そしてベンダーに依存しすぎないオープンな運用性を我々は重視しています。そこで、さくらONEでは100ノード・800基のNVIDIA H100 GPU、SONiC/RoCEv2 EthernetによるGPU間相互接続、GPU通信とストレージI/Oの分離、GPU-NIC affinityとrail-optimized topologyを組み合わせた設計を採用していることを説明しました。

続いて、HPL、HPL-MxP、HPCG、IO500、MLPerf-style benchmarkの結果を示し、オープンEthernetを基盤とする構成でも、HPC・AI学習・ストレージを横断して競争力のある性能を示せることを説明しました。さくらONEがスーパーコンピュータの国際ランキングTOP-500 HPLベンチマークにて、49位を獲得したことは、当社のニュースリリースでも公開しています。

GPT-3 175Bを対象としたMLPerf-style benchmarkでは、32、64、96ノードでの実行結果を示し、公開されているNVIDIA Eosの参照値と比較して、同規模のノード数でおおむね9〜17%程度の差に収まることを紹介しました。

さらに、MLPerf GPT-3 175Bベンチマークテスト実行時のPytorch Profilerによるプロファイリング結果についても説明しました。この実行では、pipeline parallelismを16、virtual pipeline parallelismを6に設定しており、多数のpipeline microbatchが発生します。PyTorch profilerで確認したところ、NCCL時間の大部分はpipeline stage間のSendRecv操作で占められており、32ノードおよび64ノードの実行ではSendRecvがNCCL時間の約90%を占めていました。また、32ノードから64ノードへ拡大すると、通信時間の比率は16.4%から19.3%へ増加し、通信と計算のoverlapは72.3%から67.2%へ低下しました。64ノード実行は2つのpodにまたがる配置となるため、cross-pod placementも性能差に影響した可能性があります。

発表の後半では、単一LLM開発プロジェクトの運用トレースから得られた知見を紹介しました。特に強調したのは、ジョブ件数とGPU占有時間がまったく異なる傾向を示す点です。1ノードジョブはジョブ件数の76.9%を占める一方で、GPU占有時間では1.8%にとどまります。逆に、17ノード以上の大規模ジョブはジョブ件数では3.3%にすぎませんが、GPU占有時間では73.3%を占めていました。

また、CANCELLED状態で終了したジョブがGPU占有時間の73.5%を占めるという結果についても紹介しました。これは単なる失敗や無駄な計算時間ではなく、ユーザーが学習曲線や検証結果を見ながら学習ジョブを途中で止める、LLM開発に特有のfeedback-drivenな運用の一部として解釈できるものです。

オーラル発表は12分という限られた時間での発表だったため、詳細なジョブ分類、GPU利用率、障害分析、RoCEv2のチューニングなどは論文本文で補足する構成としました。

発表後のQ&Aでは、さくらONEにおける他のLLM Trainingベンチマーク結果があるかどうかの確認や、ジョブのキャンセル数が多い傾向への興味をもらってもらったことが伺える質問がありました。Q&A時間は3分ほどの短い時間でしたので、ポスター発表にて詳細に議論する形になりました。

ポスター発表

ポスター発表は鶴田（@tsurubee3）が担当しました。セッションでは、以下のポスターを用いて研究内容の説明を行いました。

ポスターセッションは2時間で、その間に多くの参加者に立ち寄っていただき、研究内容について議論を交わしました。特に多く寄せられた質問は、LLM開発のワークロード特性に関するものでした。

「オーラル発表」で紹介したワークロード分析の結果は直感に反すると感じる方が多かったようで、聴講者からは「なぜこのようなことが起きるのか」という質問を多く受け、非常に興味深く受け止められている様子が伝わってきました。これに対しては、LLM開発ではデータセット構築やモデル評価など小規模ジョブも多く実行される一方で、今回のプロジェクトでは継続事前学習など1週間以上連続で回る大規模ジョブも存在したこと、また、LLM開発ではリソース利用の効率化のためにジョブの進捗を継続的にモニタリングし、有望でないジョブを積極的にキャンセルする運用が一般的であることなどを説明しました。

LLM開発では、ユーザーが学習過程に介入してジョブをキャンセルする運用や、開発フェーズごとに異なるジョブパターンへの遷移など、人とシステムが密接に連携する独特のダイナミクスが現れます。こうした実運用から得られた知見が学術コミュニティでも関心を集め、新鮮な視点を提供できることを実感できたのは、今後の研究開発を進めるうえでの大きな励みとなりました。

おわりに

MLSys 2026のIndustry Track新設は、本番環境での開発・運用知見を学術コミュニティに還元する重要な動きと言えます。私たちの発表も、当初は日本の一企業の実システムの事例ということもあり、どの程度関心を持ってもらえるか不安な面もありました。しかし、現地での活発な議論や質疑応答を通じて、産業界からの実運用知見が学術コミュニティで広く関心を持たれ、産業界と学術界をつなぐ場としてのIndustry Trackの意義を実感しました。今後さらに、機械学習システム研究と産業界の運用実践がより密接に結びつき、新たな研究テーマや実装上の知見が次々と生まれる場へと発展していくことが期待されます。

さくらインターネット研究所では引き続き、日本のAI研究・産業競争力を支える大規模AIインフラの研究開発に取り組んでまいります。本会議で得られた議論やフィードバックも、今後のさくらONEの発展と新たな研究課題の探索に活かしていきたいと考えています。

StalwartにおけるJMAP over WebSocketを用いたメールクライアントとメールサーバー間のデータ同期

さくらインターネット研究所 — Tue, 28 Apr 2026 00:00:00 GMT

こんにちは！研究開発エンジニアの森田(@tascript)です。健康づくりの一環として、1か月に1回ほど歯科健診に行っています。歯がきれいだと気持ちも明るくなりますし、そろそろ最強の歯磨きセットを見つけたいなと思っています！

さて、前回のブログでもお伝えしたとおり、さくらインターネット研究所ではプロダクト開発グループを設けており、現在メールに関する研究およびWebメールを開発しています。

Webメールは、ユーザーがメールの状態を正確かつ迅速に認識できるようメールサーバーとメールクライアント間のデータ同期が重要です。例えば、新着メッセージをメールサーバーが受け取ったら、即座にメールクライアントに反映することで、ユーザーは新着メッセージが届いたことを認識できます。メールサーバーとメールクライアント間のデータ同期を実現するプロトコルとしてJMAP(Json Meta Application Protocol)を使用しており、メールサーバーにはJMAPをサポートしているStalwartを採用しました。

Stalwartはメールサーバーにおける状態変更をメールクライアントに通知する方法として、JMAP over WebSocketによる双方向通信、Push Subscriptionsおよび Server Sent Eventによるプッシュ通知を提供しています。私たちのプロジェクトは通知だけではなく、メールクライアントとメールサーバー間のデータ同期がオールインワンで可能なJMAP over WebSocketを採用しましたが、Stalwartのドキュメントには接続方法およびデータ同期方法に関する記載がありません。そこで今回は、JMAP関連のRFCを調査しつつ、JMAP over WebSocketを利用したメールクライアントとメールサーバー間のデータ同期する機能を実装しましたので、その実装方法について紹介します。

JMAPとは

JMAPはRFC8620にて定義されているクライアントとサーバー間でメール、カレンダー、連絡先などを同期するための汎用プロトコルです。JMAPを利用した電子メールデータの同期に必要なデータモデル(JMAP for Mail)についてはRFC8621にて定義されており、メッセージ、スレッドおよびメールボックスなどをJSONオブジェクトとして体系化することができ、メールの検索、読み取り、整理および送信を可能にします。IMAPと比較すると、必要なデータをクライアント側で組み立てるのではなく、メールサーバー側で構造化データとして取り扱うことができるので、より高速かつ容易にデータフェッチが可能です。

JMAP over WebSocketとは

JMAP over WebSocketはRFC 8887にて定義されているWebSocketサブプロトコルであり、WebSocket上でJMAP APIへのリクエスト、レスポンスおよびプッシュ通知を実施します。JMAP over WebSocketを利用すれば、リアルタイムでのメールクライアントとメールサーバー間の同期が実現可能です。

メールクライアントとメールサーバーの同期

この章では、JMAP over WebSocketを利用したメールクライアントとメールサーバーの同期を実現するために必要なフローおよび実装例について記載します。

シーケンス図

JMAP over WebSocketの接続からメールクライアントとメールサーバー間のデータ同期までのフローをシーケンス図にまとめます。

sequenceDiagram     participant Client as Mail Client     participant Proxy as Reverse Proxy     participant Server as Stalwart      Client->>Proxy: WebSocket 接続 (/jmap/ws/)     Proxy->>Server: Authorization Header + Sec-WebSocket-Protocol Header (/jmap/ws/)     Server->>Client: WebSocket 接続完了      Note over Client,Server: 以降はJMAP over WebSocket      Client->>Server: WebSocketPushEnable      Note right of Server: プッシュ通知の有効化      Client->>Server: Email/get { ids: [] }     Server-->>Client: Email/get { state: 'a' }      Client->>Client: 現在のサーバーの状態を記憶(a)      Server->>Server: 新着メールによる状態変更(b)      Server-->>Client: StateChange { Email: 'b', Mailbox, 'b' }      Note left of Client: メールの変更を検知      Client->>Server: Email/changes { sinceState: 'a' }     Server-->>Client: Email/changes { created: [email-1] oldState: 'a' newState: 'b' }      Client->>Client: 最新のサーバー状態を記憶(b)      Note over Client, Server: 「StateChange を受け取ったら Email/changes にリクエスト」を繰り返す

ハンドシェイク

JMAP over WebSocketを実現するためにメールクライアントはHTTP上で接続ハンドシェイクを開始し、メールサーバーに対してWebSocketの接続を試みます。

また、StalwartはBasic認証とBearer認証の2つをサポートしています。しかし、ブラウザ上のWebSocketオブジェクトからはAuthorizaion Headerを設定することはできません。そのため、メールサーバーの前段にリバースプロキシを用意し、メールクライアントから送信された認証用トークンをAuthorizaion Headerに含める必要があります。認証用トークンの送信はURLクエリパラメータもしくはSec-WebSocket-Protocol Headerに含める方法があります。URLクエリパラメータに含める場合は、リバースプロキシのアクセスログおよびブラウザの履歴等に記録されてしまうリスクがあります。よって、Sec-WebSocket-Protocol Headerからサブプロトコルと認証トークンを指定し、リバースプロキシで認証トークンをSec-WebSocket-Protocol Headerから取得後、Authorization Headerを作成してメールサーバーにリクエストします。

ハンドシェイク用のリクエストは次のようなコードで実現します。

const authToken = '....' const socket = new WebSocket('wss://mail.test/jmap/ws/', ['jmap', `token.{$authToken}`])

メールサーバーの前段にリバースプロキシを設置し、Sec-WebSocket-Protocol Headerに含めたtokenを取得してAuthorization Headerを生成します。今回はリバースプロキシとして、Caddyを採用したので、以下のようなCaddyfileを用意します。

https://mail.test {     tls            @auth_token {         header_regexp token Sec-WebSocket-Protocol token.(.+)         path /jmap/ws/*     }          handle @auth_token {         reverse_proxy [対象のメールサーバー] {             header_up Authorization "Bearer {re.token.1}"             header_up Sec-WebSocket-Protocol "jmap"         }     } }

以上により、メールサーバーへのリクエストに対してSec-WebSocket-ProtocolにてサブプロトコルをJMAPに再設定し、Authorization HeaderにBearer Tokenを指定することができます。認証が成功すれば、通信はHTTPからWebSocketに切り替わります。なお、認証情報はWebSocketの接続期間中であれば再度認証を実施する必要はありません。

プッシュ通知の有効化

WebSocket接続が完了後、クライアントがメールサーバーからのプッシュ通知を受け取るためには、WebSocketPushEnableオブジェクトをメールサーバーに送信する必要があります。

プッシュ通知有効化のリクエストは以下のようなコードで実現します。

...  const webSocketPushEnableObject = {   '@type': 'WebSocketPushEnable',    dataTypes: ['Mailbox', 'Email'] // プッシュ通知を受け取りたいデータ型一覧 }  // プッシュ通知有効化のリクエスト socket.send(JSON.stringify(webSocketPushEnableObject))

WebSocket.send()メソッドを利用してメールボックスとメールに関する変更をプッシュ通知できるようになります。

クライアントの現在の状態(sinceState)を取得

JMAPではメールに関する状態をstateプロパティでバージョン管理システムのように管理します。stateプロパティはメールに関するJMAP APIのレスポンスから取得可能であり、不特定多数のメールクライアントからメールサーバーの状態を確認することが出来ます。つまりメールクライアントとメールサーバのデータ同期は、メールクライアントとメールサーバーでstateを共有することで達成します。

プッシュ通知を有効化したことで、以降はメールサーバーで発生した変更を受け取ることができるようになりました。メールサーバーの変更はstateChangeオブジェクトをWebSocket上でクライアントが受け取ることで検知可能です。このとき、メールサーバーはクライアントがどの時点以降の変更を通知してほしいのかわかりません。そのため、メールクライアントは現時点と比較したメールサーバーにおける状態変更を通知してほしいことをメールサーバーにリクエストする必要があります。その際に必要なパラメータがsinceStateです。

sinceStateは、stateChangeによって変更されたターゲットを確認する/changesメソッドで利用するプロパティであり、指定した状態以降の変化を受け取るために必要です。sinceStateは/getメソッドのレスポンスであるstateから取得することができるので、プッシュ通知の有効化されたら、Email/getメソッドを実施し、stateを取得してsinceStateにバインドします。これにより、メールクライアントが持っているstateをメールサーバに共有することができます。

また、Email/getメソッドはidsをnullで指定すると、メールサーバーに存在する全てのメールを取得しますが、これまでに一度もメールサーバーのデータをクライアントに同期してない場合に有効なので、sinceStateを取得する前に一度リクエストしておくとよいでしょう。全件のメールがメールクライアントに同期済みの場合かつsinceStateがない場合は、特定のメール情報を取得する必要がないので、Email/getメソッドに対してidsを空配列でリクエストします。

Email/getメソッドへのリクエストは以下のようなコードで実現します。

...  const pendingRequest = new MAP() let sinceState = ''  const sendRequest = (ws, name, params, callId) => {   return new Promise((resolve, reject) => {     pendingRequest.set(callId, {resolve, reject})          socket.send(JSON.stringify({       '@type': 'Request',       using: ['urn:ietf:params:jmap:core', 'urn:ietf:params:jmap:mail']       methodCalls: [name, params, callId]     })      setTimeoout(() => {       if (pendingRequest.has(callId)) {         pendingRequest.delete(callId)         reject(new Error('JMAP Request timeout'))       }     }, 10000)   }) }  const handleResponse = (message) => {   for (const [name, data, callId] of message.methodResponses) {     const pr = pendingRequest.get(callId)     if (!pr) {       continue     }     const {resolve} = pr     pendingRequest.delete(callId)     resolve(response)   } }  socket.onmessage = (event) => {   const message = JSON.parse(event.data)    switch(message['@type']) {     case 'Response':       handleReponse(message)       break     ...   } }  // Email/getメソッドへのリクエスト const response = await sendRequest(socket, 'Email/get', {accountId: 'test', ids: []} 'email-get-1') sinceState = response.state

メールサーバーにEmail/getメソッドのリクエストを送る関数にて、PromiseコンストラクターのresolveFuncをMapオブジェクトに保存します。メールサーバーはリクエストに対してWebSocketを通じて、メールクライアントにレスポンスを返します。メールクライアントでは、WebSocketのmessageイベントにてメールサーバーからレスポンスを受け取り、resolveにラップして返すことで、Email/getメソッドの実行結果を取得します。

また、Email/getメソッドのレスポンスは以下のようになります。

[   "Email/get",   {     "accountId": "test",     "state": "a",     "list": [],     "notFound": []   },   "email-get-1" ]

stateプロパティは現在のメールサーバーの状態を表現する文字列です。stateプロパティはメールサーバーにて対象データの変更があると変化します。これをsessionStateに保存し、メールサーバーの状態変更を確認する/changesメソッドのリクエストに含めることで、メールクライアントとメールサーバーの状態を同期します。

メールサーバーの状態変更を検知する

メールサーバーにて状態変更が発生すると、StateChnageオブジェクトをメールクライアントに送信します。メールクライアントでは、WebSocketのmessageイベントにてこれを受け取ります。例えば、メールサーバーにてメールを受信した際には以下のようなStateChangeオブジェクトをメールクライントに送信します。

{   "@type":"StateChange",   "changed": {     "test": {       "Mailbox": "b",       "Email": "b"     }   } }

アカウント単位で対象データにおける最新のstateプロパティを返しており、Email/getリクエストで取得した際の値と異なる(aからbに変化)ことから、メールボックスとメールに対する変更が確認できます。メールクライアントでは、StateChangeオブジェクトをWebSocketのmessageイベントにて受け取ることができますので、続けてメールクライアントからEmail/changesメソッドに対してリクエストを実施し、どのメールに対してどのような変更があったかを確認します。

一連のフローは以下のようなコードで実現します。

...  const handleStateChange = (message) => {   const response = await sendRequest(     socket,     'Email/changes',     {       accountId: 'test',       sinceState // sinceStateは'a'     },     'email-changes-1'   )   ... }  socket.onmessage = (event) => {   const message = JSON.parse(event.data)    switch(message['@type']) {     case 'Response':       handleReponse(message)       break     case 'StateChange':       handleStateChange(message)       break     ...   } }

また、Email/changes APIは以下のようなレスポンスを返します。

{   "@type":"Response",   "methodResponses": [     [       "Email/changes",       {         "accountId": "test",         "oldState": "a",         "newState": "b",         "hasMoreChanges": false,         "created": ["email-1"],         "updated": [],         "destroyed": []       },       "email-changes-1"     ]   ],   "sessionState": "session-state" }

oldStateとnewStateの値がそれぞれEmail/getメソッドのレスポンスのstateプロパティ(a)とStateChangeオブジェクトにおける各データのstate(b)に一致していることから、メールに関してaからbまでの状態変更を検知したことが確認できます。また、createdプロパティにメールのidが含まれていることから、idがemail-1のメールを受信したことが確認できます。あとは必要に応じて、対象IDのメールをEmail/get APIから取得するなどしてメールクライアントとメールサーバー間でデータを同期します。

Stalwartが抱える課題

Stalwartの認証時、ブラウザ上のWebSocketオブジェクトでは、Authorization Headerを指定できないのでメールサーバーの前段にリバースプロキシを置いて対応しましたが、2026年1月にStalwartのdiscussionsにて対策が提案されています。

JMAP WebSocket Ticket-Based Authentication for Browser Clients · stalwartlabs/stalwart · Discussion #2680 · GitHub

Summary Browser-based JMAP clients cannot use WebSocket push notifications because browsers do not allow setting custom HTTP headers (like Authorization: Bearer) on WebSocket connections. This is a...

https://github.com/stalwartlabs/stalwart/discussions/2680

このdiscussionsでは先にAuthorizaion Header付きのHTTPリクエストで有効期限の短いチケットを受け取るエンドポイントを用意して、受け取ったチケットをWebSocketサーバーのURLにクエリパラメータとして含めて認証するという方法が提案されています。フォークされたリポジトリには実装済みであり、この方法だとリバースプロキシは不要になるのでより便利になるかもしれません。

JMAPは認証スキームに関して、IANA公開されているHTTP Authentication Scheme Registryを参考にするよう明示しており、上記の認証方法は含まれていないのでStalwartの独自実装になることが望ましいと考えています。

最後に

JMAPはIMAPと比較してパフォーマンスの観点において非常に優れたプロトコルですが、2026年4月現在、JMAPに関する実装は充足しているとは言えません。よって基本はRFCを読みながら実装することになります。もちろんRFCを読むことは大事ですが、より多くの実装や知見を増やすことで技術は汎用的になっていくと考えています。今後もJMAPおよびメールに関する情報共有を進めていきますので、ご覧いただけますと幸いです。

AIは教育を変えるのか？ ―北欧・日本の教育変革から導かれる「文化・歴史的活動理論」という視点

さくらインターネット研究所 — Mon, 27 Apr 2026 00:00:00 GMT

2026年4月18日（土）、大阪国際会議場で「AI、教育と文化・歴史的活動理論（以下、CHAT）」に関する国際シンポジウムが開催され、スウェーデン、フィンランド、日本の研究者が集まり、AI時代の教育をどう捉えるべきかが議論された。

本記事は拡張的学習理論及びCHATに関する専門的な知見をもとに構成されている。本記事での議論を含む拡張的学習理論、CHATに興味のある方には、ぜひInternational Society of Cultural-historical Activity Research（ISCAR）への参加を推奨したい。

ISCAR: International Society for Cultural-historical Activity Research – The International Society for Cultural-Historical Activity Research

ISCAR is a scientific association that aims at: Developing multidisciplinary theoretical and empirical research on societal, cultural and historical dimensions of human practices Promoting mutual scientific communication and research cooperation among its members.

https://iscar.org/

シンポジウム概要

International Symposium on AI, Education, and Cultural-Historical Activity Theory

シンポジウムテーマ：

Transforming Education through AI in Schools: International Collaborative Research on Activity-Theoretical Formative Interventions for Fairness and Inclusion

日時：2026年4月18日（土）15:00–18:30

場所：大阪国際会議場　1101会議室、オンライン

使用言語：英語

参加費：無料

主催：2022年度〜2026年度科学研究費・基盤研究（Ａ）「拡張する学校を創る―変革的エージェンシーの形成へ―」（研究代表者：山住勝広、課題番号：22H00084）

プログラム

Keynote Address

Johan Lundin (University of Gothenburg, Sweden)
AI, school development and school leadership in Swedish municipalities
—acting strategically or dealing with the inevitable

Presentation

Norio Tokumaru (Kansai University, Japan)
Innovation through creative tension: Capitalist logic and social needs in EdTech development in Finland and Japan

Presentation

Erik Winerö (University of Gothenburg, Sweden)
Learning, knowledge, and assessment in the age of generative AI

Presentation

Marie Utterberg Modén (University of Gothenburg, Sweden)
Using provotypes to explore how teachers value AI in education

Presentation

Sofia Serholt (University of Gothenburg, Sweden)
Telepresence robots for remote classroom participation in the Swedish context

Presentation

Katsuhiro Yamazumi (Kansai University, Japan)
Can AI in Japanese elementary schools serve as an instrument for expansive learning and transformative agency? An activity-theoretical case study

Discussant’s Comments

Yrjö Engeström (University of Helsinki, Finland) [online]

スウェーデンの教育における「アナログ回帰」は何を意味するのか

結論から言えば、このシンポジウムは「AIの教育利用の是非」や「AIをどう使うか」という話ではなかった。

むしろ問いはこうだった。

そもそも、教育とは何をする営みなのか？

そしてこの問いこそが、近年注目されている拡張的学習理論（Expansive Learning）や、CHATの核心にある。

まず注目すべきは、スウェーデンの教育をめぐる状況である。最近日本では、スウェーデンの教育が「デジタル教育から紙へ回帰している」という報道が多く見られ、それがデジタル教育の失敗に結び付けられた論調が目立つ。しかし、今回の基調講演でスウェーデンヨーテボリ大学Johan Lundin教授が示したのは、それとは少し異なる風景だった。彼によれば、スウェーデンでは「AI国家戦略の推進」「教育のデジタル化の継続」の一方で「スクリーンタイム削減」の議論が同時に存在している。つまりこれは単純な「デジタル失敗→紙回帰」ではなく、社会全体の矛盾が教育現場に現れている状態だという。

実際、自治体レベルの議論では、AIは単一のものとして理解されているわけではなかった。むしろ議論は、次のような異なる「関心の方向」に分かれていた。

効率化（業務削減）
法制度・安全性
データ分析
学習支援
民主主義・AIリテラシー

AI, SCHOOL DEVELOPMENT AND SCHOOL LEADERSHIP IN SWEDISH MUNICIPALITIES
- ACTING STRATEGICALLY OR DEALING WITH THE INEVITABLE（2026, Lundin）

ここで重要なのは、これらはAIの機能分類などではなく、AIをめぐる議論がどこに向かっているか（オリエンテーション）を示している点である。

AI, SCHOOL DEVELOPMENT AND SCHOOL LEADERSHIP IN SWEDISH MUNICIPALITIES
- ACTING STRATEGICALLY OR DEALING WITH THE INEVITABLE（2026, Lundin）

例えば、効率化はAIに業務を担わせる発想である一方、法制度や安全性はAIをどのように制御するかという人間側の課題である。さらに、民主主義やAIリテラシーは、AIそのものではなく、それを取り巻く社会のあり方に関わる問題である。

つまり、AIは単なる技術ではなく、労働・統治・教育・社会を横断する複合的な対象として扱われている。そして実際の議論では、これらの方向は必ずしも統合されることなく、むしろ互いに競合していた。結果として、効率化や安全性が優先され、教育や民主主義に関わる議論は後景に退きがちである。この「議論の分裂」そのものが、AIが教育にもたらしている最も重要な変化の一つなのかもしれない。

フィンランドの「デジタルと紙を対立させない」発想と政治経済学的視点

関西大学徳丸宜穂教授の発表は、この問題をさらに構造的に捉えるものだった。

フィンランドでは、デジタル化は否定されていない。むしろ重要なのは「教育的に意味のある形でデジタルを使う」という原則である。その結果として、ある自治体では数学や外国語では紙教材に戻るがデジタル化自体は継続という判断がなされている。ここで重要なのは、「紙かデジタルか」という二択ではなく、教育的に適切かどうかという基準で選択されている点だ。

さらに興味深いのは、フィンランドでは

教師の裁量が大きい
自治体が調達をコントロール
研究者・学校・企業が連携

という仕組みによって、企業主導ではなく教育者側が技術を選ぶ構造が成立していることである。

Innovation through creative tension: Capitalist logic and social needs in EdTech development in Finland and Japan
（2026, Tokumaru）

さらに興味深いのは、徳丸教授がこの問題を教育学ではなく、政治経済学の視点から捉えている点である。彼の発表の出発点は、「デジタルか紙か」という教育論的な問いではない。むしろ、EdTechという領域を「資本主義の論理（企業の利益追求）と社会的ニーズ（教育）の緊張関係の中にあるもの」として位置づけるところから議論が始まる。この視点に立つと、フィンランドの特徴は単に「デジタルをうまく使っている」ということではなく、市場と教育の関係が一方向ではないことにある。

徳丸教授はこれを、Karl Polanyiの「double movement」概念を用いて「資本主義の論理と社会的論理の“創造的緊張”」として説明する。

Innovation through creative tension: Capitalist logic and social needs in EdTech development in Finland and Japan
（2026, Tokumaru）

ここで重要なのは、この緊張関係が単に対立するのではなく、むしろイノベーションの源泉になっていると捉えられている点である。したがって、フィンランドにおける「紙への回帰」も、デジタル化の否定ではなく、

教育の論理が市場の論理に対してブレーキをかける動き
あるいは両者のバランスを取り直す過程

として理解されるべきものになる。

このように見ると、「デジタルか紙か」という二項対立そのものが問題なのではなく、どのような社会的力関係の中で技術が選ばれているのかが問われていることがわかる。

実証的研究から見えるAIの影響

今回のシンポジウムでは、AIと教育の関係を理論的・制度的に捉える議論と並行して、より現場に近いレベルでの実証的研究も報告された。

視点①　評価をめぐる制度の問題

Winerö氏は、生成AIの普及が評価の仕組みそのものを揺るがしていることを指摘する。従来の学校教育では、学習の成果物（レポートや作文など）が学習の達成度を測る基準となってきた。しかし生成AIによって、成果物が必ずしも学習者自身の理解を反映しなくなる。スライドでも、AI導入後には「学習」と「成果物（Product）」の関係が切り離され、従来の評価が成立しにくくなる構造が示されていた。

視点②　設計に埋め込まれる価値観の問題

Modén氏は、AIをどのように設計するかという観点から、教師の関与の重要性を論じた。AIは中立的な道具ではなく、その設計には特定の価値観が埋め込まれる。にもかかわらず、現状では教育的価値、特に公平性や多様性といった観点が十分に反映されていない。そこで彼女は、教師がAI設計に参加し、その中にある矛盾（例えば「個別最適化」と「共同学習」の対立）を明示化する方法として「provotypes」という手法を提示した。これは、AIをより良くするための設計手法であると同時に、教育そのものを問い直すプロセスでもある。

視点③　参加と社会関係の問題

Serholt氏は、遠隔参加ロボット（AV1）を事例に、AIが学習環境における参加やアイデンティティのあり方をどのように変えるかを検討した。このロボットは、病気や不登校の子どもが遠隔で授業に参加するための装置であり、スウェーデンではすでに多くの自治体で利用されている。しかし彼女の関心は技術の有効性そのものではなく、それによって

子どもの「参加」はどのように変わるのか
人間としての関係性は維持されるのか
本当に学校への復帰につながるのか

といった問いに向けられている。

これら3つの発表に共通しているのは、AIを単なる「便利なツール」としてではなく、教育実践の具体的な構造を変える存在として捉えている点である。そして興味深いのは、それぞれが扱うテーマ――評価、設計、参加――が、いずれも教育の中核に関わる領域であるにもかかわらず、それらが現在のAI導入の議論ではしばしば周縁化されていることである。

この意味でこれらの研究は、シンポジウム全体の理論的議論を補完しつつ、AIが現場にもたらしている変化を具体的に可視化する役割を果たしていたと言えるだろう。

AIは「活動」を変革する道具となり得るか？

ここまでの発表を受けて山住教授の発表で強調されていたのは、AIを活動システムの中にどのように位置づけるかという点である。文化・歴史的活動理論において、AIはあくまで「道具（instrument）」として理解される。実際、彼の分析でもAIは活動システムの中で主体と対象を媒介する存在として位置づけられている。しかしここで重要なのは、CHATにおける「道具」は単なる補助的な手段ではないということである。道具が変わると、それを用いた活動のあり方そのものが変化するということである。

山住教授は研究協力先である大阪教育大学付属天王寺小学校へのチェンジラボラトリーによる介入研究により、小学生が利用するAIの役割を「知識の提供者」ではなく「探究を促す媒介」として再定義する試みであると位置づけた。天王寺小学校では学習用として単に質問者の指示により答えを出すツールではなく、あえて答えを出さず視点や問いを提示するように設計された生成AIを利用している。

Can AI in Japanese elementary schools serve as an instrument for expansive learning and transformative agency? An activity-theoretical case study（2026, Yamazumi）

実際、AIの導入によって変わるのは単なる作業の効率ではない。例えば、

学習の目的（答えを出すことから問いを探究することへ）
子どもとAIの役割分担
授業のルールや進め方

といった、活動の基本的な構造が変わり始めている。具体的には、授業で用いられた生成AI（tomoLinks）は、

直接答えを出さない
代わりに複数の視点を提示する
調べるための方向や問いを示す

といった形で応答するように設計されていた。

例えば、生徒がある歴史的事象について質問した場合、AIはその答えを説明するのではなく、「どの立場から考えるか」「どのような資料を参照すべきか」といった形で思考の方向性を示す。つまり、答えを提示するのではなく、探究のプロセスそのものを支援する役割を担っている。さらに教師自身も、このAIを「学習をナビゲートする存在」として捉えており、AIの役割は知識の提供ではなく、探究を支える媒介として再定義されている。

Can AI in Japanese elementary schools serve as an instrument for expansive learning and transformative agency? An activity-theoretical case study（2026, Yamazumi）

さらに重要なのは、このようなAIの使い方によって、学習の目的そのものが変化している点である。従来の授業では、正しい答えに到達することが中心的な目標であったが、この実践では、問いを立て、視点を広げ、調べるプロセスそのものが学習の中心に据えられている。

山住教授はこの変化を、単なるツールの違いではなく、活動システムの再構成として捉えている。AIは「知識の提供者」としてではなく、「探究を促す媒介」として再設計されることで、学習の対象（object）そのものを「正解の獲得」から「問いの探究」へと転換させているのである。

Can AI in Japanese elementary schools serve as an instrument for expansive learning and transformative agency? An activity-theoretical case study（2026, Yamazumi）

このように見ると、AIは確かに「道具」であるが、その影響は道具にとどまらない。AIは拡張的学習、変革的エージェンシーのための手段となり得る。AIが活動の一部として組み込まれることで、活動そのものを再構成する存在になる。

学校は何を教えるのか

そして最後に、討論者のYrjö Engeström（フィンランド）が、最も根本的な問いを提示した。彼の指摘はシンプルだが重い。

学校教育の対象とは何か

学校は通常公式の教科書を学校教育の対象、あるいは疑似的な対象として扱い、生徒は公式の知識内容を獲得し、内面化し、再現する。これが伝統的な学校教育の組織化の仕方である。また、それは試験によって完結し、評価につながる。これは、学校の教科書が世界を理解するための手段ではなく、それ自体が目的化していることを意味する。この構造が変わらない限り、デジタル化してもAIを導入しても本質的な問題は解決しない。

学校はAIの登場によって生徒がアクセスできる教科書以外の知識や情報の源と競争しなければならなくなっている。AIやインターネット、ソーシャルメディアが与える情報や知識、娯楽が学習者の生活においてますます強力な存在感を示しているという事実によって緊張関係を悪化させている。

そして彼は、次のような問いを投げかける。

AIは現実世界を対象とする学びを可能にするのか
それとも既存の教育を補強するだけなのか

まとめ

本シンポジウムで特に印象的だったのは、AIをめぐる議論が単一の専門領域に収まるものではなく、教育、情報技術、経済、社会、さらには価値や民主主義といった多様な視点が交差する問題として立ち現れていたことである。こうした状況において重要になるのは、それぞれの分野を分断したまま扱うのではなく、相互の関係性（そこにある矛盾）の中で捉え直す枠組みである。Engeström教授が指摘するように、学校教育はしばしば「世界」ではなく「教科書」を対象としてきたが、AIの登場はこの前提そのものを問い直す契機となっている。

CHATは異なる立場や実践を結びつけ、学習の対象（object）を再定義しながら学校という活動システム全体を変革していくための理論的基盤となり得る。AIは単なる技術ではなく、こうした横断的対話と再設計を促す媒介であり、ISCARはその国際的な議論を牽引する中心的な場として、今後ますます重要な役割を担うだろう。

また、ISCARでは日本も参加する東アジア地域部会が新たにスタートすることが予定されている。拡張的学習理論やCHATを深く学び、日本の教育を幅広い視点から問い直していく機会として、ぜひ様々な領域の研究者や実践者に参画いただきたい。

入会についての問い合わせは朝倉（m-asakura [at] sakura.ad.jp）まで。

東京大学工学部計数工学科での特別講義を実施しました

さくらインターネット研究所 — Tue, 21 Apr 2026 00:00:00 GMT

こんにちは、さくらインターネット研究所の菊地です。

2026/4/14(火)に、東京大学の工学部計数工学科で、計数工学特別講義というものを担当させて頂く機会がありました。

105分という比較的長丁場の時間でしたが、データセンター業界の状況とさくらインターネットの取り組み、またさくらインターネット研究所の研究テーマの紹介、また今旬のネタとして、ワットビット連携関連、エッジコンピューティング(フィジカルAI)、さくらのスーパーコンピュータ(さくらONE)などについてお話させていただきました。学生さんたちにとって興味深い話になったかな？

講義資料を公開いたします。

さくらインターネット研究所ではこの様な出張講義なども可能な範囲で受け付けておりますので、ご要望があれば随時どうぞ。

スマートIoT推進フォーラム第18回テストベッド分科会の発表資料の公開

さくらインターネット研究所 — Wed, 11 Mar 2026 00:00:00 GMT

こんにちは、さくらインターネット研究所の菊地です。

2026年3月10日(火)に開催されました、スマートIoT推進フォーラム第18回テストベッド分科会にて、「データセンター事業者を取り巻く近年の状況とその中での研究開発動向、テストベッドへの貢献の可能性」というタイトルで発表しました。

発表資料を以下に公開いたします。
データセンター事業者としてのさくらインターネットの取り組み(AIに向けた取り組み、ワットビット対応)、研究所と研究テーマの紹介、JGNおよびテストベッドとのかかわりなどについて述べています。ご覧ください。

ACM/IFIP Middlewareの併設ワークショップMid4ccでWasmのチェックポイント・レストアについて発表しました

さくらインターネット研究所 — Thu, 25 Dec 2025 00:00:00 GMT

研究所の中田 (@chiku_wait)です。

2025年12月15日から19日にかけて、アメリカのナッシュビルで開催された国際会議26th ACM/IFIP International Middleware Conference（Middleware）の併設ワークショップ、3rd International Workshop on Middleware for the Computing Continuum (Mid4CC 25)で自身の研究について発表しました。

Middleware/mid4cc

Middlewareは、クラウド・エッジ・分散システムのためのミドルウェアや、ミドルウェアの設計・プログラミング原則・フォールトトレランスなどを対象としたミドルウェアに関する国際会議です。学術系国際会議の格付けであるCore Rankによると、A（上位14%）に位置づけられており、この分野における有力な難関国際会議といえます。

mid4ccは、Middlewareに併設されたワークショップであり、エッジやクラウドなど、異なる特性のコンピューティングプラットフォームをシームレスに連携させるためのミドルウェアを主に扱っています。

会場のヴァンダービルト大学に、世界中から100人程度の研究者が集まり、興味深い発表と活発な議論が行われました。

発表内容

この研究は、Wasmランタイム間での効率的なチェックポイント・レストアにセルフホストWasmランタイム（WasmにコンパイルされたWasmランタイム）を活用するものです。Wasmランタイムには特性の異なる多様な実装があり、クラウドやエッジ、組み込みデバイスなど、それぞれの計算機環境の制約やユースケースに適したランタイムがあります。これらのランタイム間でチェックポイント・レストアが可能になると、ステートフルなアプリケーションのライブマイグレーションによるオフローディングやハンドオフが実現できます。一方、ランタイム間で実装や性能最適化手法が異なることで実行状態の互換性がなく、そのままではチェックポイント・レストアを実現できません。この研究では、軽量でコンパクトなセルフホストWasmランタイムをランタイム中立な内部実行状態表現として活用し、ランタイム中立なチェックポイント・レストアを実現しています。

論文：Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge-Cloud Continuum

おわりに

難関国際会議の併設ワークショップということもあり、メインシンポジウムとワークショップ双方で非常に興味深い発表を聞くことができ、研究に関するモチベーションが更にアップしました。また、活発な質疑応答によって今後の研究のアイデアや改善の種を得られたので、研究をよりブラッシュアップさせ、一流国際会議やジャーナルに挑戦したいと思います。

NeurIPS 2025招待講演：「異質な知能」としてのAI — 認知能力を評価する6つの原則

さくらインターネット研究所 — Wed, 24 Dec 2025 00:00:00 GMT

はじめに

さくらインターネット研究所の鶴田（@tsurubee3）です。2025年12月にサンディエゴで開催されたNeurIPS 2025に参加してきました。本記事では、サンタフェ研究所のMelanie Mitchell氏による招待講演「On the Science of "Alien Intelligences": Evaluating Cognitive Capabilities in Babies, Animals, and AI」の内容を紹介します。

近年、大規模言語モデル（LLM）は多くのベンチマークで人間を超えるスコアを達成しています。しかし、その高い精度は本当に「知性」や「理解」を示しているのでしょうか。Mitchell氏は、AIの認知能力評価における根本的な問題を提起し、発達心理学や比較認知科学の知見を踏まえた、より厳密な評価のための6つの原則を示しました。非常に示唆に富んだ講演でしたので、本記事ではその要点を共有します。

エイリアン・インテリジェンスとは

講演タイトルにある「エイリアン・インテリジェンス（Alien Intelligence：異質な知能）」とは、人間とは異なる形で知性を持つ存在を指す概念です。本講演の冒頭では、Terry Sejnowski氏の論文「Large Language Models and the Reverse Turing Test (2022)」から以下の一節が引用され、LLMの知性の本質についての疑問が投げかけられました。

ほんの数年前には予想もされていなかったことが起こり始めている。あたかも、不気味なほど人間的な方法でコミュニケーションができる宇宙人（エイリアン）が突然現れたかのようだ。ただ一つ明らかなのは、LLMは人間ではないということだ。しかし世界中のテキストデータベースから情報を抽出する能力においては超人的である。その行動の一端は知的に見えるが、もしそれが人間の知性ではないなら、その知性の本質とは何なのか？

ベンチマークの問題点

Mitchell氏はまず、今日の生成AIシステムが多くのベンチマークで人間のパフォーマンスを超えている一方で、実世界のタスクにおいては依然として人間とは異なる形で苦戦していることを指摘しました。この背景には、現在のAI評価手法には以下のような深刻な問題があります。

データ汚染：学習データにテストデータの内容が含まれている。
近似的な検索：真の理解ではなく、検索やパターンマッチングに近い形で回答している。
疑似相関の利用：表面的な相関をショートカットとして利用して回答している。
一貫性・頑健性・汎化性の欠如：これらを検証するテストが不足している。
構成概念妥当性の欠如：測定しようとしている概念や特性を正しく測定できていない。
擬人化（anthropomorphism）の問題：人間向けテストの前提条件がAIシステムには当てはまらない。

発達心理学・比較認知科学からの知見

講演の核心は、発達心理学や比較認知科学からの知見の応用です。Mitchell氏はMichael Frank氏の論文「Baby steps in evaluating the capacities of large language models (2023)」ら以下の一節を引用しました。

エイリアン・インテリジェンスとの初めての接触を想像してみてください。科学者はこう問うかもしれません。エイリアンは人間と同じ概念を持っているのか？他者の心を理解できるのか？因果関係を推論できるのか？こうしたシナリオはSF作品でよく見られる。そしてここ数年、大規模言語モデル（LLM）との対話においても同様だ。しかし発達心理学者は長年、別のエイリアン・インテリジェンス、つまり人間の子どもについて同じ疑問を投げかけてきた。この研究の手法は、LLMの能力を探る上で研究者に役に立つだろう。

発達心理学者や比較認知科学者は、長年にわたり人間の乳幼児という、ある意味での「エイリアン・インテリジェンス」を研究対象としてきました。Mitchell氏は、これらの分野で培われた知見がAIの認知能力評価にも応用できると主張しています。

認知能力をより厳密に評価するための6つの原則

講演では、AIの認知能力をより厳密に評価するための「6つの原則」が提示されました。

1. 擬人化への認知バイアスを自覚する

講演中では例として、赤ちゃんが笑ったとき、人間は喜んでいると解釈するが、猿は恐怖やストレスを感じたときに笑ったような表情（Fear grimaceと呼ばれる）を示すことが挙げられました。それでは、AIが組み込まれたロボットが笑ったときはどう解釈すべきでしょうか。この例は、AIが人間と同じように感じたり考えたりしていると安易に思い込まないよう注意を促しています。

2. 仮説を疑う

観察された行動を生み出しうる代替戦略（暗記やショートカット）を考慮し、それらに対する統制を設計すべきです。これについては、乳児の道徳的な推論に関する論文「Social evaluation by preverbal infants (2007)」から非常にユニークな事例が紹介されました。この研究では、生後6〜10ヶ月の乳児に以下に示す2種類のアニメーション動画を見せます。左側がHelperシナリオで、赤い丸のキャラクターが坂を登ろうとするのを黄色い三角のキャラクターが後ろから押して助け、無事に坂を登りきります。一方、右側がHindererシナリオで、赤い丸のキャラクターが坂を登ろうとするのを青い四角のキャラクターが上から押し戻して邪魔をし、坂を登れません。この2種類の動画を見せた後、乳児にどちらのキャラクターがより好きかを選んでもらいます。

出典：「Social evaluation by preverbal infants」のFigure 1

その結果、乳児は有意にHinderer（青い四角）よりもHelper（黄色い三角）を選びました。この論文では、乳児はキャラクターの社会的行動に基づいて他者を評価しており、道徳の概念を持っていると主張しています。しかし、後続研究の論文「Social Evaluation or Simple Association? Simple Associations May Explain Moral Reasoning in Infants (2012)」では、この乳児の選択は道徳的な概念ではなく、別の要因による単純な連想に起因することが示されました。実は元の動画では、Helperシナリオの場合のみ、丘の頂上まで登りきった際に赤いキャラクターが小さく小刻みにジャンプを繰り返す演出が含まれていました。そこで、Hindererシナリオでも丘を登れなかった際にキャラクターが小刻みにジャンプするよう変更したところ、Hindererを選ぶ乳児が有意に増えたのです。このように、観測される結果が本来意図していない要因によって引き起こされている可能性を常に疑う必要があります。

3. 失敗のタイプを分析する

多くの場合、失敗は成功よりも多くの洞察を与えてくれるため、ネガティブな結果を受け入れることが重要です。この点に関連して、ICML 2024で発表された論文「Position: Embracing Negative Results in Machine Learning (2024)」を紹介しています。この論文では、新しい機械学習手法を提案する論文が、選択された問題に対する予測性能のみで評価されがちな現状に警鐘を鳴らしています。著者らは、予測性能だけでは論文の価値を測る良い指標にはならないと主張しています。むしろ、予測性能のみを重視することは、機械学習研究コミュニティ全体の非効率性を助長し、研究者に誤ったインセンティブを与える問題を引き起こすと指摘しています。そこで著者らは「ネガティブな結果」の発表を呼びかけており、これによりこれらの問題の一部が緩和され、機械学習研究コミュニティの科学的成果が向上すると論じています。

4. 頑健性と汎化性をテストするためのバリエーションを設計する

この原則については、文字列の類推問題（letter-string analogy problems）が例に用いられました。文字列の類推問題とは、例えば「a b c d → a b c e」と与えられたときに「i j k l → ?」の答えを推論する（この場合、最後の文字を一つ進めて「i j k m」と答える）というような問題です。

2023年に発表された論文「Emergent analogical reasoning in large language models (2023)」では、文字列の類推問題においてGPT-3が人間を凌駕するスコアを達成したと報告されました。しかし、このようなLLMの文字列推論は本当に頑健なのでしょうか。この疑問を検証するため、Mitchell氏は自身の研究論文「Evaluating the Robustness of Analogical Reasoning in Large Language Models (2024)」を紹介しました。
本論文の実験では、元の類推問題の変種に対する頑健性を人間とGPTモデルで比較しています。具体的には、「a b c d」のような通常のアルファベット順の中でn個の文字の位置をランダムに入れ替えて再配置したアルファベットを用いた場合と、文字の代わりに非文字記号（non-letter symbols）を特定の順序で並べたものを用いた場合について、人間とLLMの類推精度を比較しました。その結果を以下の図に示します。

出典：「Evaluating the Robustness of Analogical Reasoning in Large Language Models」のFigure 4

これらの変種問題は同じ抽象的推論能力をテストするものであり、真に類推能力を持っているならば、性能が著しく低下すべきではありません。しかし結果を見ると、人間は2種類の変種問題のいずれでも高い性能を維持している一方、GPTモデルの性能は急激に低下し、特に記号を用いた場合には著しく低下することが判明しました。このことは、LLMが人間の類推能力のような頑健性を欠いていることを示しており、AIシステムの認知能力を評価する際には精度だけでなく頑健性も慎重に検証すべきであることを示唆しています。

5. CompetenceとPerformanceを区別する

CompetenceとPerformanceは心理学や言語学でよく用いられる概念で、Competenceは「潜在的な知識・能力」を、Performanceは「その知識・能力を実際の状況で使った結果」を指します。システムがある能力（Competence）を持っていても、それを実際の状況で実行（Performance）できるとは限らず、逆もまた然りです。

この原則については、LLMの抽象化と推論能力を評価するためのAbstraction and Reasoning Corpus（ARC）が例に用いられました。ARCは、オブジェクト性、単純な幾何学と位相、基本的な数といった「コア知識」に基づいて手動で作成された1,000のタスクが含まれています。例えば、以下のようなタスクです。

出典：「On the Measure of Intelligence (2019)」のFigure 8

このタスクでは、水色のピクセルの延長線が赤い障害物に接触すると「跳ね返る」というルールを外挿して解くものになっています。これらのタスクに対する人間の精度は64%程度であり、LLMはこれを超えられずにいました。しかし2024年、OpenAIのo3モデルがブレイクスルーを起こし、驚異の88%という精度を叩き出しました。
ここでMitchell氏はある疑問を投げかけました。これらのモデルは、意図された「コア知識」の抽象化をどの程度把握しているのか？それとも、これらの課題を解決するために「異質な」推論方法を用いているのか？

この疑問を検証した論文「Investigating Abstraction Capabilities of the o3 Model Using Textual and Visual Modalities (2025)」が、NeurIPS 2025のMultimodal Algorithmic Reasoning Workshopで発表されています。この論文はMitchell氏自身も共著者として参加しており、ARCを単純化したConceptARCベンチマークを用いてo3モデルの抽象化能力を評価しています。
実験では、o3に出力グリッドだけでなく、変換ルールを自然言語で説明させました。そして、生成されたルールを「correct-intended（タスク作成者が意図した抽象化を捉えている）」「correct-unintended（正しく機能するが、意図した抽象化を捉えていない）」「incorrect（誤り）」の3つに分類しました。以下の図はその結果を示しています。

出典：「Investigating Abstraction Capabilities of the o3 Model Using Textual and Visual Modalities (2025)」のFigure 2

この実験では、入力モダリティ（テキスト形式か画像形式か）とReasoning effort（lowかmediumか）を変えて評価が行われました。テキスト入力・medium設定において、o3は出力グリッドの精度では人間に匹敵する性能を示しました。しかし、正解した出力のうち約28%は、correct-unintendedまたはincorrectなルールに基づいていることが判明しました。つまり、意図された抽象概念ではなく、表面的なパターンに基づいた推論で正解を導き出していたのです。一方、人間が生成したルールの約90%はcorrect-intendedでした。

テキスト形式では色が数値（例：黒=0、青=1、赤=2）でエンコードされているため、o3モデルの変換ルールはオブジェクトの形状ではなく、数値比較をショートカットとして利用するケースが見られました。correct-unintendedの具体例として、以下の図のTask 2を見てみましょう。

出典：「Investigating Abstraction Capabilities of the o3 Model Using Textual and Visual Modalities (2025)」のFigure 1

Task 2において、意図された変換ルールは次の通りです。「入力グリッドには、特定のパターンの中に場違いな図形が含まれている。出力グリッドはこの図形であり、寸法と色をコピーするが、入力グリッドに含まれる元のパターンはコピーしない。」これに対し、o3が生成した変換ルールは次の通りでした。「入力グリッド内で最も高い非ゼロの色値を持つセルをすべて含む最小の長方形を切り取る。この長方形の内側ではその色を保持し、他のすべてのセルを0（黒）に変換する。その長方形を出力する。」
o3のルールは、与えられたデモンストレーションに対しては正しく機能しますが、「場違いな図形を抽出する」という意図された抽象化を捉えておらず、代わりに「最も高い色値」という数値的なショートカットに依存しています。このため、本実験ではcorrect-unintendedと分類されました。
これらの結果は、AIシステムの認知能力を評価する際には、単純な精度だけでなく、頑健性やシステムが汎化可能なメカニズムを使用しているかどうかを評価することの重要性を浮き彫りにしています。

6. 他者の成果を再現し発展させる

先行研究を再現して異なる結果を得たり、少しだけ実験条件を変えて同じような結果を得たりした成果を学会に投稿すると、査読者から「新規性がない」と指摘されるかもしれません。しかし、優れた科学の特徴は、先行研究の再現とその「漸進的」な発展にあります。Mitchell氏は、このような研究に対してコミュニティがより価値を認めるようになることを望んでいると述べています。
実際に、本講演で紹介された研究事例も、先行研究の結果を疑い、異なる実験条件で検証したものばかりです。乳児の道徳的推論に関する研究では、元の実験の動画に含まれていた小刻みなジャンプという交絡要因を特定しました。文字列の類推問題では、アルファベットの順序を入れ替えたり記号に置き換えたりすることで、LLMの頑健性の欠如を明らかにしました。そしてARCベンチマークにおけるo3モデルの評価では、出力の正解・不正解だけでなく生成されたルールの質を分析することで、高い精度の裏に隠れたショートカット的推論を浮き彫りにしました。これらはいずれも、先行研究の追試や条件の変更を通じて、新たな洞察を得た好例といえます。

精度だけでは測れない知性

重要なメッセージとして、Mitchell氏はベンチマークでの高い精度が、必ずしもモデルがタスク作成者の意図した抽象概念を認識し推論していることを意味しないと強調しました。精度だけでは、表面的な特徴の利用やショートカット、人間らしくない推論を覆い隠してしまう可能性があります。人間とAIの「理解」の整合性についての洞察は、これらのシステムが人間世界でどのように能力を汎化させるかを予測するために不可欠です。

AIに求められる性質の二面性

また、Mitchell氏はAIシステムに人間と同じような推論が求められるかどうかは文脈によって異なることも指摘しました。AIシステムに求められる思考の在り方には二面性があります。

人間とは異なる思考が求められるケース：AlphaFoldがタンパク質・DNA・RNAの立体構造を予測し、データから新しいパターンを見出すような場面。
人間と同じ世界理解が求められるケース：自動運転車が、看板に描かれた一時停止標識の画像を本物の標識と誤認して急ブレーキをかけてしまうような、人間世界での安全性が問われる場面。

前者のように、AIシステムに人間とは異なる思考を期待する場合もありますが、後者のように人間社会で共生するシステムには、人間と同じように世界を理解することが求められます。人間とAIの「理解」がどれだけ一致しているかを知ることは、AIシステムが人間世界でどのように振る舞うかを予測するために不可欠です。

より厳密な評価手法の必要性

結論として、Mitchell氏は動物、子ども、そして機械といった「エイリアン・インテリジェンス」の本質を見極めるには、相当な厳密さと創造性が必要であると述べました。私たちはAI評価においてもっとそのような厳密さと創造性を必要としており、現在必要なのはより難易度の高いベンチマークを作ることではなく、本講演で紹介した原則に基づいた、より厳密な評価手法を確立することなのだと締めくくりました。

まとめ

本講演を通じてMitchell氏は、AIがベンチマークで示す「高い精度」が、必ずしも人間のような「真の理解」を意味しないことを浮き彫りにしました。この課題に対処するため、発達心理学や比較認知科学の知見を応用した6つの原則が提示されました。これらの原則は、AIが「正解を出せるか」ではなく「どのように正解に至ったか」を問う姿勢の重要性を示しています。AIが科学の進歩に寄与する「異質な思考」を持つ一方で、人間社会で安全に機能するためには、私たちの世界理解と整合する頑健な汎化能力が欠かせません。精度という指標の先にある「知性の本質」を多角的に検証し続ける姿勢こそが、これからのAI研究においてますます重要になっていくのではないかと思いました。

WasmCon North America 2025でセルフホストWasmランタイムに関して発表しました

さくらインターネット研究所 — Wed, 24 Dec 2025 00:00:00 GMT

研究所の中田 (@chiku_wait)です。

2025年11月にアメリカのアトランタで開催されたWasmCon North America 2025にて、自身の研究の一つを発表しました。

WasmConとは

WasmConは、クラウドネイティブ技術に関する最大の技術カンファレンスであるKubeCon + CloudNativeCon North Americaの併設イベントで、WebAssembly（Wasm）に関する内容に特化しています。Wasmの標準化やWasm関連のOSS、Wasmに関するハックなど多くの有用な情報や最新動向が共有されるイベントです。WasmConは、KubeConや他の併設イベントと同様に、プロポーザルの質やオリジナリティ、エコシステムへの貢献などの項目で内容をレビューされ、発表の採録・不採録が決定されます。

発表内容

私が研究開発用に実装している、セルフホストに特化したWasmランタイム（https://github.com/oss-fun/chiwawa）について発表をしました。

セルフホストWasmランタイムは、軽量でコンパクトなWasmランタイムをWasmにコンパイルし、任意のWasmランタイム上で実行することで互換レイヤーとして様々な機能拡張や検証に活用できるものです。元々はランタイム中立なライブマイグレーションのために実装していましたが、今回の発表ではより汎用的な機能拡張機構としてユースケースを検討し、その有用性を議論するものとなっています。

発表の様子 (Photo by @amsy810氏)

おわりに

自身の研究について、学術コミュニティだけではなく業界のカンファレンスで発表することは、実用的なソフトウェアという観点で自身の研究を見直すきっかけとなりました。発表者や運営メンバーは、Wasm/WASIの標準化に関わっている方やWasm向けOSSの作者なども多く、ソフトウェアとしての実用性や有用性を議論できるのは非常に有意義でエキサイティングでした。また、偶然にも自身の研究で大いに参考としている研究のPhD学生が発表しており、Wasm関連の研究をしている者同士で研究に関して深い議論をするなど、思わぬ出会いもありました。

今後も学術的な新規性と、ソフトウェアとしての有用性やOSSコミュニティへの貢献を両立する研究開発を目指していきます。

NeurIPS 2025参加レポート：新設のPosition Paper TrackとAI4Mat Workshopでの発表

さくらインターネット研究所 — Mon, 22 Dec 2025 00:00:00 GMT

はじめに

さくらインターネット研究所の鶴田（@tsurubee3）です。このたび、大規模言語モデル（LLM）を用いた実験プロセスの構造化データ抽出に関する研究論文が、AIおよび機械学習分野の最難関国際会議であるNeural Information Processing Systems (NeurIPS) 2025のAI for Accelerated Materials Discovery (AI4Mat) Workshopに採択されました。
Workshopは会期後半の開催でしたが、初日のメインカンファレンスから現地参加してきました。本記事では、NeurIPS 2025の概要、新設されたPosition Paper Trackの概要、そして自身のポスター発表について報告します。

NeurIPS 2025の概要

NeurIPS 2025は、2025年12月2日から7日にかけて、アメリカ・カリフォルニア州サンディエゴで開催されました。

会場となったSan Diego Convention Centerには世界中から研究者が集まり、Opening Remarksで発表された数字によると、バーチャル参加者を含めた参加者総数は29,124名にのぼりました。また、Main Trackへの今年の論文投稿数は21,575件、採択率は24.52%でした。

Position Paper Trackの新設

NeurIPS 2025ならではの特徴の一つとして、Position Paper Trackが新設されたことが挙げられます。ICML 2024・2025に続く形での導入であり、NeurIPSとしては初めての試みとなりました。

このトラックの重要性を語る上で欠かせないのが、近年の論文投稿プラットフォームの大きな変化です。2025年10月、arXivのコンピュータサイエンス（CS）カテゴリにおいて、レビュー論文（サーベイ論文）およびPosition Paperの投稿を「ジャーナルやカンファレンスで採択・査読されたもの」に限定するという運用変更が発表されました。arXivという「誰でも自由に未査読のアイデアを公開できる場」で投稿要件が厳格化された今、NeurIPSという最高峰のカンファレンスで厳格な査読を勝ち抜き、「お墨付き」を得たPosition Paperを読めることの価値は、これまで以上に高まっていくと思います。

Position Paperとは

NeurIPS 2025 Call for Position Papersによると、Position Paperは以下のような役割を担うものとされています。

Position Paperとは、すでに達成された研究成果を報告する「Research Track」の論文とは対照的に、「今後何がなされるべきか」という視点や展望についての議論を展開するものです。また、個別の研究領域を超えた、機械学習分野全体に対するメタレベルの視点を持つことが求められます。

つまり、具体的なアルゴリズムの提案よりも、「私たちはどこに向かうべきか」というビジョンや、現在の研究の進め方に対する提言に重きを置いたトラックと言えます。

独自の査読基準

Position Paper Trackでは、査読の基準もResearch Track (Main Paper Track)とは大きく異なります。

Research Track：研究の独創性や、新規性のある結果を重視
Position Paper Track：その主張が「機械学習コミュニティにおいて、より広く議論されるべき説得力のある主張を提示しているかどうか」が最大の判断基準

たとえ査読者がその主張に個人的に賛成できなくても、それがコミュニティにとって有益で建設的な議論を促すものであれば高く評価されます。公式に「議論を呼ぶような（Controversialな）トピックも歓迎する」と明言されている点も、このトラックのユニークな特徴です。

採択状況

初開催となったPosition Paper Trackを振り返る公式ブログが公開されています。ブログによると、初回の投稿数は約700件に達し、運営チームも予想を上回る反響があったとしています。取り下げやデスクリジェクトを除くと、496件が本審査の対象となりました。この中から40件の論文がカンファレンスでの発表に選ばれ、採択率は他のトラックと比較しても非常に低い約8%でした。この低い採択率の背景には、採択された論文に対して、より集中的な注目を集めるという事務局側の戦略的な判断があったようです。

現地での発表：オーラルとパネルディスカッション

NeurIPS 2025では、採択された40件のPosition Paperの中から3件のオーラル発表と2件のパネルディスカッション（それぞれ3件の論文で構成）が選ばれました。ここでは、どのようなPosition Paperが採択されているかを概観するために、簡単に内容を紹介します。

オーラル①「Position: If Innovation in AI systematically Violates Fundamental Rights, Is It Innovation at All?」

規制とイノベーションは対立するものではなく、むしろ適切な規制こそがイノベーションの基盤となると主張しています。EU AI Actをリスクベースかつ責任重視の規制モデルとして検討し、規制サンドボックスや中小企業支援などの適応的メカニズムが、技術的進歩を遅らせるのではなく責任ある形で加速させることを示しています。

オーラル②「More effort is needed to protect pedestrian privacy in the era of AI」

自動運転や監視システムの開発において、公共の場でのデータ収集が歩行者の同意なしに行われている現状に警鐘を鳴らしています。AIコミュニティに対してデータ収集・匿名化の方法を再考するよう呼びかけています。

オーラル③「Real-Time Hyper-Personalized Generative AI Should Be Regulated to Prevent the Rise of "Digital Heroin"」

リアルタイムで生成される超パーソナライズされたAIコンテンツが、SNS中毒を超える「デジタル・ヘロイン」とも言える依存性の危険を指摘しています。特に若年層のメンタルヘルスへの悪影響を防ぐため、依存性薬物と同様の厳格な政府監視と、開発者向けの倫理ガイドラインの策定を強く訴えました。

パネルディスカッション①「Responsible AI Research & Unlearning: From Consent to Compliance to Critique」

責任あるAI/ML研究に向けて、データに対する同意の問題とモデルのアンラーニングの技術的・法的課題に焦点を当てた3つの論文が取り上げられました。

「Stop the Nonconsensual Use of Nude Images in Research」：裸体検出や裸体画像データセットに関する研究が、しばしば同意なく進められ、非同意のコンテンツの流通を正常化し、被害を永続させている問題を指摘しています。
「Position: Bridge the Gaps between Machine Unlearning and AI Regulation」：機械学習モデルのアンラーニング（データの影響の削除など）技術と、EU AI Actなどの既存の規制フレームワークを比較検討し、法的・技術的なギャップを明らかにしています。
「Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy, Research, and Practice」：生成AIシステムにおける技術的なアンラーニング手法と、法律・政策の関係者がこれらの手法に期待するものとの間のミスマッチを深く掘り下げています。

パネルディスカッション②「Strengthening the AI Research Ecosystem: Integrity, Critique, and Consensus」

機械学習研究エコシステムの構造的な脆弱性を指摘し、大胆な改革を提案する3つの論文が議論されました。

「Stop DDoS Attacking the Research Community with AI-Generated Survey Papers」：AI生成による大量生産されたサーベイ論文の急増を、研究記録を氾濫させ劣化させる「サーベイ論文DDoS攻撃」の一形態として問題提起しています。
「Position: Machine Learning Conferences Should Establish a ”Refutations and Critiques” Track」：主要なMLカンファレンスには、先行研究に対する厳密な批評や訂正のための信頼性・可視性の高い場が欠如していると主張し、専用の「反論・批評」トラックの創設を提案しています。
「NeurIPS should lead scientific consensus on AI policy」：NeurIPS（ひいてはMLコミュニティ全体）がAI政策に関する科学的コンセンサスの形成において積極的な役割を果たすべきであると主張し、エビデンスの統合と意思決定における重要なギャップを埋めることを求めています。

AI4Mat Workshopでのポスター発表

NeurIPSでは例年、メインカンファレンス終了後に各Workshopが並列で開催されます。NeurIPS 2025では合計56のWorkshopが2日間にわたって開催されました。私は2023年から3年連続でNeurIPSに参加していますが、2024年のAlphaFold関連のノーベル賞受賞などの影響もあってか、AI for Science系のWorkshopは参加人数も増え、非常に盛り上がっているように感じました。

私は「AI4Mat Workshop (AI for Accelerated Materials Design)」にてポスター発表を行ってきました。「AI4Mat Workshop」は、材料科学とAIの研究者が、AIによる材料発見の最前線を切り開く課題や成果を議論・共有する場として2022年に発足したワークショップです。今年は他のWorkshopと比べても大きな部屋が割り当てられており、参加者数も多く盛況でした。

NeurIPSのメインカンファレンスでは、各ポスターに専用の展示ボードが用意されるのが通例ですが、ワークショップは少し勝手が異なります。写真のように、会場の壁面に自分の好きな場所を見つけてポスターを直接貼り付けるという、スタイルとなっています。AI4Mat Workshopではポスター数も多かったため、隣のポスターとの間隔が数センチしかないような密集地帯も多く、発表しづらさを感じる場面もありました。

そんな過密状態の中での発表でしたが、セッション中は聴衆が絶えることがなく、研究内容への関心の高さを実感しました。本研究の内容は、以前のブログ「LLMによる構造化データ抽出に関する論文が「NeurIPS 2025 AI4Mat Workshop」に採択」にて解説しています。

今回の発表で特に手応えを感じたのは、公開したデータセットに対する反応です。多くの参加者がその場でポスターに記載したQRコードを読み込んでダウンロードページにアクセスしていたのが印象的でした。このことは、我々の研究成果が理論的な貢献に留まらず、具体的な研究リソースとしても実用性・有用性を認められたことを示しており、大変嬉しく思いました。

おわりに

NeurIPS 2025への参加を通じて、機械学習コミュニティが技術的な成果だけでなく、研究の方向性や倫理的課題についても活発に議論する場へと進化していることを実感しました。新設されたPosition Paper Trackは、「私たちはどこに向かうべきか」という問いを正面から扱う貴重な試みであり、今後の発展が楽しみです。また、AI4Mat Workshopでのポスター発表では、公開したデータセットへの関心の高さから、研究成果が実際に活用される手応えを得ることができました。この経験を糧に、さくらインターネット研究所からより実用的で価値のある研究成果を生み出せるよう、引き続き研究開発に取り組んでいきたいと思います。

Github Actionsにおけるフロントエンドテストの安定化とテストカバレッジの収集

さくらインターネット研究所 — Fri, 21 Nov 2025 00:00:00 GMT

こんにちは！研究開発エンジニアの森田(@tascript)です。今年は筋トレを頑張ったので肩と背中が去年より大きくなりました。もはやトレーニングというより「育てる」感覚に近いので、最近は肩と背中に語りかけるようにしています。今のところ特に返事はありません。

さて、さくらインターネット研究所ではプロダクト開発グループを設けており、研究成果をプロダクトを通じて社会実装し社会に役立てるという目標があります。今回はプロダクト開発グループ内で採用したフロントエンドのテスト設計の一部を紹介します。

テスト実行時間の増大とFlaky Testの発生

プロダクト開発グループでは Vitest と React Testing Library (以下、RTL)を活用してユニットテストおよびインテグレーションテストを実施しています。開発初期段階からテストを導入していて、開発が進むにつれてCI上でのテスト実行時間が増大する傾向を確認しました。また、既存のテストに依存しない新規テストケースを追加した際に、開発環境ではパスするもののCI上では失敗するといったFlaky Testが発生しました。Flaky Testの原因を追求すべく調査した結果、CIで以下のような現象が発生していました。

インテグレーションテストにてデータがDOMに反映されないままテストが開始されている
ユーザーアクションによる状態変化がDOMに反映されないままテストが開始されている

CI上でのテスト実行時間が開発環境の約3倍長い

 Test Files  41 passed (41)       Tests  325 passed (325)    Start at  06:08:03    Duration  167.13s (transform 1.18s, setup 4.68s, collect 19.12s, tests 106.83s, environment 21.60s, prepare 4.31s)

Github Actionsでのテスト実行時間

 Test Files  41 passed (41)       Tests  325 passed (325)    Start at  15:32:23    Duration  61.28s

開発環境でのテスト実行時間

CIにはGithub Actionsを利用していますが、Github-hosted runnersで割り当てられるコンピューティングリソースと開発マシンで使用できるリソースとの差異が大きいことによってFlaky Testが発生していると予想し、CI上のリソース不足課題に取り組みました。（Self-hosted runnersを使ってお金の力で雑にスペックアップする方法は今回見送っています）

VitestのSharding

Vitestにはテストケースを分割する Sharding と呼ばれる機能があります。例えば、以下のコマンドを実行することでテストケースを4つに分割してそのうちの1つ目(シャード)を実行することができます。

$ vitest run --shard=1/4

Shardingによる分割はテストケースを追加しない限り一定で、オプションを付与することで、テストカバレッジのレポートを作成することもできます。例えば、以下のようなコマンドを実行することでテストケースを4つに分割して実行およびテストカバレッジを収集します。

$ vitest run --shard=1/4 --coverage.enabled --coverage.reportsDirectory=coverage/shard-1 $ vitest run --shard=2/4 --coverage.enabled --coverage.reportsDirectory=coverage/shard-2 $ vitest run --shard=3/4 --coverage.enabled --coverage.reportsDirectory=coverage/shard-3 $ vitest run --shard=4/4 --coverage.enabled --coverage.reportsDirectory=coverage/shard-4

マトリックス戦略を利用したテストの並列実行

Github Actionsではワークフローのジョブ内部にマトリックスを作成することが可能です。こちらと先ほどのVitest Shardingを利用してテストを並列実行します。ワークフローは下記のように記述します。

name: Parallel Test  on:   workflow_dispatch:   push:     branches:       - main   pull_request:    jobs:   # テストを並列実行   test:     name: UI Tests     runs-on: ubuntu-latest     strategy:       matrix:         shardTotal: [4]         shardIndex: [1,2,3,4]     steps:       - uses: actions/checkout@v5       - uses: pnpm/action-setup@v4         with:           version: 10           run_install: false       - uses: actions/setup-node@v4         with:           node-version: 22       - run: echo "STORE_PATH=$(pnpm store path --silent)" >> $GITHUB_ENV       - uses: actions/cache@v4         with:           path: ${{ env.STORE_PATH }}           key: ${{ runner.os }}-pnpm-store-${{ hashFiles('**/pnpm-lock.yaml') }}           restore-keys: |             ${{ runner.os }}-pnpm-store-       - name: Install Dependencies         run: pnpm install --frozen-lockfile       - name: Run UI Test         run: pnpm exec vitest run --shard=${{ matrix.shardIndex }}/${{ matrix.shardTotal }} --coverage.enabled --coverage.reportsDirectory=./coverage/shard-${{ matrix.shardIndex }}       - name: Upload Coverage Artifact         uses: actions/upload-artifact@v4         with:           name: shard-${{ matrix.shardIndex  }}           path: ./coverage/shard-${{ matrix.shardIndex  }}

shardTotal にてテストを4分割(4つのシャードを生成)することを宣言し、shardIndex にマトリックス戦略によって起動する各VM上で担当するシャードの番号を宣言します。これにより、各VM上では各VMにて下記のコマンドがそれぞれ実行されるため、テストを並列で実行することができます。

VM1

$ pnpm exec vitest run --shard=1/4 --coverage.enabled --coverage.reportsDirectory=coverage/shard-1

VM2

$ pnpm exec vitest run --shard=2/4 --coverage.enabled --coverage.reportsDirectory=coverage/shard-2

VM3

$ pnpm exec vitest run --shard=3/4 --coverage.enabled --covera3e.reportsDirectory=coverage/shard-3

VM4

$ pnpm exec vitest run --shard=4/4 --coverage.enabled --coverage.reportsDirectory=coverage/shard-4

各VMは以前までのテストと比較して1/4の量を処理すればよいので、以前よりもテスト実行による負荷が軽減します。結果として、Flakyテストの発生率が低下すると同時にテスト実行時間も短縮することができました。

 Test Files  41 passed (41)       Tests  325 passed (325)    Start at  03:00:24    Duration  139.39s (transform 1.64s, setup 4.64s, collect 19.01s, tests 85.13s, environment 20.33s, prepare 2.28s)

直列でテストを実行した場合は139.39sで完了

 Test Files  10 passed (10)       Tests  75 passed (75)    Start at  09:54:09    Duration  37.64s (transform 1.44s, setup 1.38s, collect 7.31s, tests 21.60s, environment 5.16s, prepare 228ms)

並列で実行したテストの内、最も時間を要しても37.64sで完了

並列実行していることが確認できる

また、マトリックス戦略の具体的な数値は、同時実行できるjob(起動できるVMのインスタンス数)にあわせて設定するとよいでしょう。例えば、Github-hosted runnersの場合はプランによって異なるため注意が必要です。

また、各jobで生成されたカバレッジレポートは、一時的に下記のように保存されます。

coverage/ ├─ shard-1/ │  └─ coverage-final.json ├─ shard-2/ │  └─ coverage-final.json ├─ shard-3/ │  └─ coverage-final.json └─ shard-4/    └─ coverage-final.json

今後のジョブでこれらのカバレッジレポートを再利用するため、upload-artifactを利用してアップロードします。各レポートはshard-1 、shard-2 、shard-3 、shard-4 として保存されます。

カバレッジの集計

生成したカバレッジレポートをマージしてテスト全体のカバレッジを集計するためのジョブを作成します。ワークフローは下記のように記述します。

name: Parallel Test  on:   workflow_dispatch:   push:     branches:       - main   pull_request:    jobs:   # テストを並列実行   test:     name: UI Tests     runs-on: ubuntu-latest     strategy:       matrix:         shardTotal: [4]         shardIndex: [1,2,3,4]     steps:       - uses: actions/checkout@v5       - uses: pnpm/action-setup@v4         with:           version: 10           run_install: false       - uses: actions/setup-node@v4         with:           node-version: 22       - run: echo "STORE_PATH=$(pnpm store path --silent)" >> $GITHUB_ENV       - uses: actions/cache@v4         with:           path: ${{ env.STORE_PATH }}           key: ${{ runner.os }}-pnpm-store-${{ hashFiles('**/pnpm-lock.yaml') }}           restore-keys: |             ${{ runner.os }}-pnpm-store-       - name: Install Dependencies         run: pnpm install --frozen-lockfile       - name: Run UI Test         run: pnpm exec vitest run --shard=${{ matrix.shardIndex }}/${{ matrix.shardTotal }} --coverage.enabled --coverage.reportsDirectory=./coverage/shard-${{ matrix.shardIndex }}       - name: Upload Coverage Artifact         uses: actions/upload-artifact@v4         with:           name: shard-${{ matrix.shardIndex  }}           path: ./coverage/shard-${{ matrix.shardIndex  }}      # レポートをマージしてカバレッジを集計する   report:     name: Report Test Coverage     needs: [test]     runs-on: ubuntu-latest     steps:       - uses: actions/checkout@v5       - uses: pnpm/action-setup@v4         with:           version: 10           run_install: false       - uses: actions/setup-node@v4         with:           node-version: 22       - run: echo "STORE_PATH=$(pnpm store path --silent)" >> $GITHUB_ENV       - uses: actions/cache@v4         with:           path: ${{ env.STORE_PATH }}           key: ${{ runner.os }}-pnpm-store-${{ hashFiles('**/pnpm-lock.yaml') }}           restore-keys: |             ${{ runner.os }}-pnpm-store-       - name: Install Dependencies         run: pnpm install --frozen-lockfile       - uses: actions/download-artifact@v4         with:           pattern: shard-*           path: ./coverage       - name: Generate Reports         uses: ./generate-report.sh       - name: Run octocov         uses: k1LoW/octocov-action@v1

download-artifactsを利用して先程アップロードしたカバレッジレポート(shard-1 、shard-2 、shard-3 、shard-4)をダウンロードします。取得したカバレッジレポートをマージするためにnycを利用します。nycはIstanbulJSのCLIで、テストカバレッジをマージおよび様々な形式のカバレッジレポートを作成することができます。VitestのBlob Reporterおよびmerge-reportsオプションを利用することで各シャードから生まれたJSONをマージしてレポートを生成することができます。しかし、他の形式のカバレッジレポートに変換する機能がないことおよびoctcovを使ってテストカバレッジを集計したいというユースケースから今回はnycを採用しました。Vitestではカバレッジプロバイダーとしてv8とistanbulのどちらかが選択できますが、Vitest v3.2.0からv8でもistanbulと同一のレポートを生成することができます。また、カバレッジの精度もistanbulと同等な上、メモリ使用量がistanbulより少ないため今回のユースケースにはv8が適切だと判断しました。最終的なレポート作成のスクリプト(generate-report.sh)は以下のように記述します。記述後はスクリプトの実行権限を付与しておきましょう。

#!/usr/bin/env bash  set -euo pipefail  DIST_DIR="coverage" TEMP_DIR="_temp" FLATTEN_DIR="$DIST_DIR/$TEMP_DIR" MERGED_FILE="coverage-final.json"  rm -rf "$FLATTEN_DIR" mkdir -p "$FLATTEN_DIR"  # レポートをcoverage/_temp配下で平坦化 find $DIST_DIR -type d -name $TEMP_DIR -prune -o -type f -name "$MERGED_FILE" -print0 | while IFS= read -r -d '' f; do   parent="$(basename "$(dirname "$f")")"   output="$FLATTEN_DIR/${parent}.json"   cp "$f" "$output" done  # coverage/_tempに配置したレポートをマージしてcoverage/coverage-final.jsonに集約 pnpm exec nyc merge "$FLATTEN_DIR" "$DIST_DIR/$MERGED_FILE"  # coverage/coverage-final.jsonを元にlcov形式でレポートをcoverage/reportに保存 pnpm exec nyc report -t coverage \   --reporter=lcov \   --report-dir=coverage/report

上記のコマンドを実施後、CI上にてcoverageディレクトリ配下は以下のような構成になります。

coverage/ ├─ _temp/ │  ├─ shard-1.json │  ├─ shard-2.json │  ├─ shard-3.json │  └─ shard-4.json ├─ report/ │  ├─ lcov-report/ │  └─ lcov.info ├─ shard-1/ │  └─ coverage-final.json ├─ shard-2/ │  └─ coverage-final.json ├─ shard-3/ │  └─ coverage-final.json ├─ shard-4/ │  └─ coverage-final.json └─ coverage-final.json

coverage/report ディレクトリには、最終的なテストカバレッジをlcov形式(lcov.info)で保存し、k1LoW/octocov-actionを利用することで、テストカバレッジを集計します。

テストカバレッジをoctcovで集計

複合アクションの活用

Node.js環境のセットアップや、テストの並列実行など再利用性の高いものは複合アクションにまとめました。　例えば、Node.js環境セットアップの複合アクションは以下のように記述します。

# .github/actions/set-up/action.yml runs:   using: "composite"   steps:     - uses: pnpm/action-setup@v4       with:         version: 10         run_install: false     - uses: actions/setup-node@v4       with:         node-version: 22     - run: echo "STORE_PATH=$(pnpm store path --silent)" >> $GITHUB_ENV       shell: bash     - uses: actions/cache@v4       with:         path: ${{ env.STORE_PATH }}         key: ${{ runner.os }}-pnpm-store-${{ hashFiles('**/pnpm-lock.yaml') }}         restore-keys: |           ${{ runner.os }}-pnpm-store-     - run: pnpm install --frozen-lockfile       shell: bash

テストおよびカバレッジのアップロードの複合アクションは以下のように記述します。inputsを利用してジョブのマトリックス戦略に対応します。

# .github/actions/run-test-and-upload-report/action.yml inputs:   shardIndex:      description: "The index of the shard"     required: true   shardTotal:     description: "The total number of shards"     required: true runs:   using: "composite"   steps:     - name: Run UI Test       run: pnpm exec vitest run --shard=${{ inputs.shardIndex }}/${{ inputs.shardTotal }} --coverage.enabled --coverage.reportsDirectory=./coverage/shard-${{ inputs.shardIndex }}       shell: bash     - name: Upload Coverage Artifact       uses: actions/upload-artifact@v4       with:         name: shard-${{ inputs.shardIndex }}         path: ./coverage/shard-${{ inputs.shardIndex }}

最終的なレポート作成のアクションは以下のように記述します。github.action_path は複合アクションが存在するパスを指します。コロケーションを意識して最終的なレポート作成のスクリプトも同一パス配下に配置します。

# .github/actions/generate-report runs:   using: "composite"   steps:     - run: ${{ github.action_path }}/script.sh       shell: bash

これらの複合アクションを利用したワークフローは以下のように記述します。

name: Parallel Test  on:   workflow_dispatch:   push:     branches:       - main   pull_request:    jobs:   # テストを並列実行   test:     name: UI Tests     runs-on: ubuntu-latest     strategy:       matrix:         shardTotal: [4]         shardIndex: [1,2,3,4]     steps:       - uses: actions/checkout@v5       - name: Setup Node.js         uses: ./.github/actions/setup       - name: Run Test And Upload Report         uses: ./.github/actions/run-test-and-upload-report         with:           shardIndex: ${{ matrix.shardIndex }}           shardTotal: ${{ matrix.shardTotal }}      # レポートをマージしてカバレッジを集計する   report:     name: Report Test Coverage     needs: [test]     runs-on: ubuntu-latest     steps:       - uses: actions/checkout@v5       - name: Setup Node.js         uses: ./.github/actions/setup       - uses: actions/download-artifact@v4         with:           pattern: shard-*           path: ./coverage       - name: Generate Reports         uses: ./.github/actions/generate-report       - name: Run octocov         uses: k1LoW/octocov-action@v1

こうすることでコードの視認性も高くなり、類似したアクションを記載する必要がなくなります。

最後に

Flaky Testは、今回のようにCI環境だけでなく、アプリケーションの実装やテストの手法が要因となって発生します。テストコードを増やすことはプロダクトの品質を上げるために必須です。そして、テストをいかに安定して動作させるか、ということも同時に達成しなければ開発の体験はもちろん、顧客への価値提供が遅れてしまう要因になります。これからもFlaky Testとの戦いに備えて、常に考え抜く力と探求する力を鍛錬していきたいと思い筆を取った次第です。少しでもお役に立てれば幸いです。

さくらインターネット研究所

MLSys 2026でAI/HPCクラスタ「さくらONE」の設計・性能評価・運用データ分析を発表

MLSys 2026 Industry Trackについて

採択論文の概要

オーラル発表

ポスター発表

おわりに

StalwartにおけるJMAP over WebSocketを用いたメールクライアントとメールサーバー間のデータ同期

JMAPとは

JMAP over WebSocketとは

メールクライアントとメールサーバーの同期

シーケンス図

ハンドシェイク

プッシュ通知の有効化

クライアントの現在の状態(sinceState)を取得

メールサーバーの状態変更を検知する

Stalwartが抱える課題

最後に

AIは教育を変えるのか？ ―北欧・日本の教育変革から導かれる「文化・歴史的活動理論」という視点

シンポジウム概要

プログラム

スウェーデンの教育における「アナログ回帰」は何を意味するのか

フィンランドの「デジタルと紙を対立させない」発想と政治経済学的視点

実証的研究から見えるAIの影響

視点① 評価をめぐる制度の問題

視点② 設計に埋め込まれる価値観の問題

視点③ 参加と社会関係の問題

AIは「活動」を変革する道具となり得るか？

学校は何を教えるのか

まとめ

東京大学工学部計数工学科での特別講義を実施しました

スマートIoT推進フォーラム 第18回テストベッド分科会の発表資料の公開

ACM/IFIP Middlewareの併設ワークショップMid4ccでWasmのチェックポイント・レストアについて発表しました

Middleware/mid4cc

発表内容

おわりに

NeurIPS 2025招待講演：「異質な知能」としてのAI — 認知能力を評価する6つの原則

はじめに

エイリアン・インテリジェンスとは

ベンチマークの問題点

発達心理学・比較認知科学からの知見

認知能力をより厳密に評価するための6つの原則

1. 擬人化への認知バイアスを自覚する

2. 仮説を疑う

3. 失敗のタイプを分析する

4. 頑健性と汎化性をテストするためのバリエーションを設計する

5. CompetenceとPerformanceを区別する

6. 他者の成果を再現し発展させる

精度だけでは測れない知性

AIに求められる性質の二面性

より厳密な評価手法の必要性

まとめ

WasmCon North America 2025でセルフホストWasmランタイムに関して発表しました

WasmConとは

発表内容

発表の様子 (Photo by @amsy810氏)

おわりに

NeurIPS 2025参加レポート：新設のPosition Paper TrackとAI4Mat Workshopでの発表

はじめに

NeurIPS 2025の概要

Position Paper Trackの新設

Position Paperとは

独自の査読基準

採択状況

現地での発表：オーラルとパネルディスカッション

オーラル①「Position: If Innovation in AI systematically Violates Fundamental Rights, Is It Innovation at All?」

オーラル②「More effort is needed to protect pedestrian privacy in the era of AI」

オーラル③「Real-Time Hyper-Personalized Generative AI Should Be Regulated to Prevent the Rise of "Digital Heroin"」

パネルディスカッション①「Responsible AI Research & Unlearning: From Consent to Compliance to Critique」

パネルディスカッション②「Strengthening the AI Research Ecosystem: Integrity, Critique, and Consensus」

AI4Mat Workshopでのポスター発表

おわりに

Github Actionsにおけるフロントエンドテストの安定化とテストカバレッジの収集

テスト実行時間の増大とFlaky Testの発生

VitestのSharding

マトリックス戦略を利用したテストの並列実行

カバレッジの集計

複合アクションの活用

最後に

視点①　評価をめぐる制度の問題

視点②　設計に埋め込まれる価値観の問題

視点③　参加と社会関係の問題

スマートIoT推進フォーラム第18回テストベッド分科会の発表資料の公開