TMS2025でLLMを用いた実験プロセスの構造化抽出について発表しました

at
    Tags:
  • Machine Leaning
  • LLM

さくらインターネット研究所の鶴田(@tsurubee3)です。2025年3月23日から27日にかけて、アメリカ合衆国ネバダ州ラスベガスで開催された「TMS 2025 Annual Meeting & Exhibition (TMS2025)」にて、「A Data Structure and Collection System for Experimental Processes in Materials Science」と題した研究についてポスター発表しました。

A Data Structure and Collection System for Experimental Processes in Materials Science

熊谷将也1,2, 鶴田博文1, 田中諒介1, 黒﨑健2

1. さくらインターネット株式会社 2. 京都大学

研究概要

本研究では、材料科学分野の論文からChatGPTを用いて材料の合成プロセスを抽出し、それをPROV-JSONLD形式で構造化データとして記述するアプローチを提案しました。下図は、本研究の全体像を示しています。

Image

近年、大規模言語モデル(LLM)の急速な進展により、科学文献から構造化された知識を抽出する研究が活発に行われています。しかし、材料の合成手順に焦点を当てた研究はまだ少なく、プロンプト設計や抽出データの構造に関する検討は十分ではありません。中でもデータ構造については、先行研究の多くが特定の材料系に特化した独自のJSON形式を定義しており、汎用的な構造としては統一されていないのが現状です。
そこで本研究では、World Wide Web Consortium(W3C)により標準化された来歴情報を表現するためのデータモデルであるPROV-DMを基にしたPROV-JSONLDを採用しました。これにより、材料の合成手順を統一的に表現できるデータ構造を設計し、さらにChatGPTを用いて、材料科学論文から合成手順をPROV-JSONLD形式で自動抽出するアプローチを提案しました。
本研究の評価実験では、材料科学の研究者が手動で作成した正解データと比較することで、抽出精度を評価しました。その結果、Precision: 0.906、Recall: 0.753、F1-score: 0.823 という精度を達成し、LLMを活用した合成手順の自動抽出が実用的なレベルに近いことを示しました。
今後は、さらなる抽出精度の向上と、多様な材料科学論文への適用を通じて、合成手順の大規模なデータベース構築を目指しています。

ポスター発表

研究発表は、現地時間2025年3月25日に開催されたポスターセッションにて行いました。以下のポスターを用いて研究内容を説明しました。

Image

当日のポスター発表では、世界中の研究者の方々から絶え間なく質問や議論をいただき、大変刺激的な時間となりました。特に印象的だったのは、材料科学分野の国際会議であるにも関わらず、AIやLLMに関する関心の高さです。多くの研究者が材料科学とAI技術の融合に大きな可能性を見出していることが伺えました。

Image
Image

発表を終えての感想

2024年のAlphaFoldのノーベル賞受賞や、Microsoftの無機材料の生成モデルであるMatterGenに関する論文が2025年にNatureに採録されたことなど、AI for Scienceの研究分野は現在最も可能性を秘めた研究領域の一つとして注目を集めています。こうした世界的な潮流は、材料科学分野の国際会議であるTMS2025にも明確に現れていました。実際に会場に足を運んでみると、多くのAI系の発表やセッションが開催されていることに驚きました。毎年TMSに参加している研究者からも「今年は急激にAI系の発表が増えている」という声を聞き、この分野の加速度的な発展を実感しました。
このような世界的な潮流の中で、TMS2025で「LLMを用いた材料の合成手順の構造化抽出」についての研究を発表できたことは、私たちの研究の方向性が時代の要請に応えるものであることを強く実感させてくれました。ポスターセッションでは、世界中の研究者から途切れることなく質問や議論が寄せられ、材料科学とAI技術の融合に対する関心の高さを肌で感じることができました。この経験を糧に、より実用的で価値のある研究成果を生み出せるよう、今後も研究開発に邁進していきたいと思います。

著者

鶴田 博文
鶴田 博文
研究員

2019年8月入社。創薬、材料科学、システム運用等の分野における機械学習・人工知能(AI)技術の研究を担当。

学生時代は材料工学を専攻し、高分子材料の物性に関する研究に従事。2012年9月に修士課程を早期修了。2016年11月にIT業界に飛び込み、機械学習エンジニア、インフラエンジニアを経て、現職に至る。AI創薬のためのデータセット構築に関する主著論文が、AI分野で世界最高峰の国際会議であるNeurIPS(Neural Information Processing Systems)2023および2024のDatasets and Benchmarks Trackに2年連続採択。