
こんにちは、東京大学松尾・岩澤研究室です。
本記事では、2025/10/13(月・祝) 15:00-18:30に東京大学 情報学環・福武ホールで開催された、松尾研LLMコンペ2025 決勝戦結果発表会の様子と、決勝進出チーム各リーダーのインタビューをご紹介します。
松尾研LLMコンペとは?
東京大学松尾・岩澤研究室が主催する松尾研LLMコンペは、松尾研の講座修了生および一般公募によって集まった有志の開発者(⺠間企業・研究者・学生で構成)がチームに分かれ、コンペティション形式でLLM開発を行うプロジェクトです。国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が推進する「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」プロジェクトの一環として、2025年7月から9月にかけて実施されました。
前身となる昨年の「GENIAC2024」から今年は大幅に規模を拡大し、全国から358名・12チームの開発者が参加。
16歳の高校生から70代のエンジニアまで多様な層が集まり、最難関ベンチマーク「Humanity’s Last Exam (HLE)」および安全性ベンチマーク「Do-Not-Answer(DNA)」での性能向上を競いました。
- Humanity’s Last Exam (HLE):LLMの限界を試すために設計された高難度ベンチマークで、専門家レベルの知識と推論力を問う問題が多数含まれる
- Do-Not-Answer(DNA):安全性に特化したベンチマークで、モデルが有害・違法・非倫理的な指示を適切に拒否できるか(=回答すべきでないことを回答しないか)を評価する
また、本コンペは安全で高品質な汎用LLMの開発だけではなく、開発ノウハウのオープン化と共有・若手開発者の育成とコミュニティ形成も重視しています。年代・バックグラウンドの異なる開発者が対話を重ね、よりよいモデルを追求することを通して、日本のAI開発力の底上げと次世代人材育成の両面で意義ある取り組みとなりました。
本コンペに関する詳細なプレスリリースはこちらから:https://weblab.t.u-tokyo.ac.jp/news/2025-12-03-1/
予選から決勝までの振り返り
7月13日から8月25日にかけて行われた予選(Phase1)には、12チームが参加。
既存モデルをベースに各チームが独自の事後学習を施し、HLE・DNAの両指標で競いました。
約1ヶ月半にわたる開発期間の末、上位3チームのRAMEN・Pont Neuf・oNo.1が決勝(Phase2)へ進出し、さらに高度なモデル開発に挑みました。
決勝結果発表イベントの様子
2025年10月13日(月・祝)、東京大学情報学環・福武ホールで開催された決勝発表会では、上位3チームが決勝期間の取り組みを発表しました。開発手法、データ設計、チームならではの強みなど、熱気に包まれたプレゼンテーションが続きました。
イベントの様子はYouTubeからもご覧いただけます。
優勝はチームRAMEN


激戦の末に見事優勝の座を掴んだのは、チームRAMEN。最新論文を活用した高品質なデータ構築とDPO(Direct Preference Optimization)による事後学習で、HLEスコアを着実に向上させました。
準優勝はチームPont Neuf。数学・物理領域に特化したSFT(Supervised Fine-Tuning)を実施し、数理推論分野で高い精度を達成しました。
第3位はチームoNo.1。少量の高品質データで効率的に性能を向上させる独自のトレーニング手法「HARI TRAINING」※を開発・実施したことが功を奏しました。
※HARI TRAINING:LoRAで学習しつつ、LoRA無効の参照出力との距離(KLやKV/Hidden Statesの自己蒸留)を正則化するSFT手法。ベース挙動を維持しながら高効率に性能向上を図ります。
各チームの評価結果は以下をご覧ください。
コンペ決勝での HLE*, DNA** ベンチマーク評価結果 及び ベースモデルの評価


(参考) HLEカテゴリ別の評価結果

総合スコア = (HLE正答率) * 0.9 + (DNA正答率) * 0.1
* HLE : Humanity’s Last Exam (HLE)は、Center for AI Safety と Scale AIが共同で開発した、モデルの能力を評価するためのベンチマークの一つ。100を超える科目にわたる2,500問の難問で構成されている。
** DNA : Do-Not-Answer (DNA) とは、LLMの安全性ベンチマークで用いられる主要な評価指標の一つ。モデルが有害、危険、非倫理的な指示(プロンプト)に対し、その要求に応じず意図的に回答を拒否する能力を測定する。
*** 各チームがモデルの提出時に指定した推論用のハイパーパラメータ「入出力の最大トークン長(max_model_len)」「出力の最大トークン長(max_completion_len)」も併記しました。これらのハイパーパラメータの設定次第で、ベースモデルの性能が大きく変動することが確認されました。
コンペ参加者・リーダーの声
チーム RAMEN (優勝):チーム全員のトライアンドエラーで掴んだ成果

—優勝を受けた率直な感想を教えてください。
鈴木さん
「率直に言うと、本当に嬉しいです。ここまで支えてくださったチームメンバーの皆さんへの感謝の気持ちが、今いちばん大きいです。」
—今回優勝できた要因はどのような点にあると思いますか?
鈴木さん
「とにかく『コミットしてやり切る』ことを徹底し、トライアンドエラーを繰り返した点だと思います。
今回、データの選定や学習手法の検討などで、70回以上の試行錯誤を重ねました。そうした地道な積み重ねこそが、今回の最大の勝因だったと思います。」
—コンペが始まる前と後で、自分自身やチームに起きた変化があれば教えてください。
鈴木さん
「私自身、大規模なチームをマネジメントするのは初めてで、しかもオンライン中心の活動だったため、最初は不安も大きかったです。
それでも、メンバーと信頼関係を築きながら判断を重ねていく中で、『どうすれば最善の決断を下せるか』という部分を多く学ぶことができました。
チーム全体としては、当初はメンバーが私や副リーダーの指示を待つ場面が多かったのですが、コンペが進むにつれて、自発的に動く姿勢が見られるようになりました。
例えば、データ班のメンバーが評価班のミーティングに自主的に参加して、そこで得た知見を自分の班にフィードバックするなど、チーム間の連携が自然に生まれていきました。
決勝フェーズでは、全員が『自分にできる最善の貢献は何か』を主体的に考えて行動に移せるようになっていて、この変化こそがチームの最大の成長だったと思います。」
—今回のコンペの学びを、今後どのようなところに活かしていきたいですか?
鈴木さん
「私は普段ロボットの研究開発を行っており、VLM(Vision-Language Model)を扱うことはありますが、LLMの専門というわけではありません。それでも今回の経験を通して、LLM技術の社会実装に強い関心を持つようになりました。
今後は、今回のコンペで学んだことを活かして、日本におけるLLM活用の場を広げ、実社会での応用を推進していく一助になりたいと考えています。」
チーム Pont Neuf (準優勝):優秀なメンバーと走り切った3か月

—準優勝を受けた率直な感想を教えてください。
佐原さん
「正直、予選のときもあまり自信があったわけではなかったんです。でも、いざ結果を見てみたら準優勝ということで、『意外といい結果が出せたな』と思いました。うれしい驚きでしたね。」
—開発の中でぶち当たった壁はありましたか?どのように乗り越えましたか?
佐原さん
「うちのチームは少し特殊で、リーダーである私自身はほとんど開発に関わらず、序盤から『やりたいことは自由にやっていいよ』というスタイルで進めていました。
ただ、やはり限られたリソースの中で、みんなの”やりたい”をすべて実現するのは難しく、特に後半は折り合いをつける必要が出てきました。
最終的には、『ここはこうしよう』と私の判断で方向性を定めた部分もあります。もちろん合理的な理由もありましたが、チーム全体の力を最大限に活かすための決断でした。」
—コンペが始まる前と後で、自分自身やチームに起きた変化があれば教えてください。
佐原さん
「自分自身について言うと、予選の結果発表が印象に残っています。あれだけ優秀な人たちが集まっても、スコアを上げるのは本当に難しいんだと痛感しました。そこで気持ちを新たにして決勝に臨んだことで、『難しい課題に挑戦する』ということの意義をあらためて感じました。
チームについては、もちろん波もありましたが、結果的に予選・決勝ともに2位という成果を出せたのは大きかったです。スコアがすべてではありませんが、努力が形になったことで『やってきたことが報われた』と実感できた瞬間でした。メンバー全員でその喜びを共有できたのは、とても良かったと思います。」
—今回のコンペの学びを、今後どのようなところに活かしていきたいですか?
佐原さん
「LLMは学習データに強く依存するため、出力にもその性質が反映されます。たとえば、西洋的な価値観が強く出たり、望ましくないバイアスが入り込んだりすることもあります。
そうした偏りをどう緩和するか、自分たちの手で新しいモデルをどう作っていくか——この課題意識は以前から持っていましたが、今回のコンペを通してその思いはいっそう強くなりました。
事後学習を重ねてスコアを上げる中で、技術的にも可能性を感じましたし、今後の研究や開発の方向性に確信が持てた気がします。」
チーム oNo.1 (第3位):自主性がもたらしたチームワーク

—今回の結果(第3位)を受けた率直な感想を教えてください。
小野さん
「vLLMの推論トークン長の設定だけで負けてしまったようなものなので、うっかりしたなという悔しさが大きいです。ただ、HLEのスコアでは、同一トークン長でベースモデル比+2.31%を達成できたので、その点については誇りを持っています。」
—リーダーとしてチームを引っ張っていくために意識したことや工夫した点はなんですか?
小野さん
「チーム結成直後は、皆でチーム名を提案して投票で決めたり、戦略についても私が独断で決めることはせず、『このチームでは皆が主体性を持って動いてほしい』と言動で示すようにしていました。最初のうちは私があまり強く意見を言わなかったため、メンバーからは“意見がないリーダー”に見えていたかもしれません。
当初はマネジメントに専念する予定でしたが、中盤以降は私自身がモデル学習や推論のボトルネックをいくつか解消してメンバーの信頼を得てから、開発全般を部門リーダーと共に管理するようになりました。常に開発全体を把握していたので、現実的な意思決定を行えたと思います。
決勝では、チームの弱点であったデータ部門を強化するため、きつねチームと合併してデータ処理をお願いしました。
予選で1位だったこともあり、新たに約40人が加わってチームは70人規模になりました。3週間という短期間で完全な組織化は難しかったため、コミュニティのような楽しく居場所のある空間作りを心がけていました。
常に心がけたこととしては、メンバーがなるべく発言しやすいようにポジティブなフィードバックを心がけたこと、また、チャレンジしたいメンバーには何度でも挑戦できる機会を与えたことです。
私がボトルネックになるとよくないので、レスポンスやアクションは可能な限り迅速に行い、チームのボトルネックも早期に解消するよう努めていました。」
—コンペが始まる前と後で、自分自身やチームに起きた変化があれば教えてください。
小野さん
「チームとしては、100Bを超えるLLMの開発経験者やマルチノード経験者が誰もいない状態から始まったにもかかわらず、多くのメンバーがそれらを難なく扱えるようになったのは大きな成長だと思います。
また、当初はお互い全く知らない他人同士でしたが、今では喜怒哀楽を共有しながら楽しく議論できる、良いチームであり良いコミュニティになったと感じています。
私自身、この規模のチームマネジメントもLLM開発も初めてだったため、うまく進められるか不安もありましたが、しっかり成果を出せて良かったです。この規模であれば、もう自信を持ってプロジェクトを進められるようになりました。」
—今回のコンペの学びを、今後どのようなところに活かしていきたいですか?
小野さん
「直近では、大規模LLMを自社開発している海外企業のプロジェクトで、モデルのチューニングを担当しています。今回のコンペで得た知見を活かし、より良いモデルを作れたらと思っています。
また、私は寝たきりなこともあり、障害というテーマに関心があります。障害分野でのLLM活用はある程度進展していると思いますが、LLMの障害分野での安全性といった、モデル自体の障害の観点からの研究はまだ十分進んでいない印象です。今後機会があれば、この分野に取り組みたいと考えています。
さらに今回、30-70人規模の開発チームのリーダーとしてマネジメント方法を学びました。この経験を糧に、社会を変えるようなプロダクトを作りたいです。」
現役高校生がコンペで得た学び

—現役高校生でありながら、チームの副リーダーを務めた感想を教えてください。
ほーりーふぉっくすさん
「自分ならできるだろうという自信はありました。また、2つのチームが合併(※)することで、互いの強みを活かし合えるシナジーを生み出せると確信しました。もともと、副リーダーという役職自体はリーダーである小野さんからの提案によるもので、データ班と学習班を統合する上で意味のある立ち位置だったと感じています。」
※チームoNo.1は決勝進出にあたり、ほーりーふぉっくすさんをリーダーとしていたチームきつねと合併
—チームを引っ張っていくために工夫した点はなんですか?
ほーりーふぉっくすさん
「特に意識したのは 『統合』です。メンバー同士の知識や経験をうまく融合させ、全員が持つ知識をチーム全体で共有できるようにしました。
その上で、チームとしてどの方向を目指しているのかを常に確認し、メンバー一人ひとりが自分の立ち位置をしっかり把握できるよう心がけました。これがチームをまとめる上で大きなポイントだったと思います。」
—今回、コンペで評価された結果以外で「このチームだからこそ実現できた」と思えることはありますか?
ほーりーふぉっくすさん
「SDG(Synthetic Data Generator)※の完成です。これは私が昨年から取り組んでいる合成データ生成ツールで、効率的なデータ生成パイプラインを構築するものです。今回、そのツールをチームで完成させ、使い方を共有・発展させることができました。この成果は、このチームだからこそ実現できたものだと思います。」
※SDG(Synthetic Data Generator):ほーりーふぉっくすさんが独自で開発に取り組んでいる、実世界のデータと統計的に似た特徴を持つ、人工的なデータ(合成データ)を生成するツールやアルゴリズム
—本コンペを踏まえて、今後はどのような活動に挑戦していきたいですか?
ほーりーふぉっくすさん
「日本一のLLMを作るという目標は変わりません。そして、将来的には世界一のLLMの開発にも挑戦したいと考えています。
さらにその先には、誰もが自分専用のAIモデルを持てる世界、複数のAIが協調して“ひとつの超個体”のように機能する世界――そんな次の次元のAGI(汎用人工知能)を創り出したいです。」
松尾豊教授より総評
「優勝チームの皆さん、本当におめでとうございます。
今回のベンチマークは非常に難易度が高く、その中でスコアを0.8ポイント上げるという成果は素晴らしいものだと思います。
一方で、海外のビッグテック企業のように、膨大なGPUリソースとデータを用いて精度を高めていく国々(特にアメリカや中国)と比べると、日本ではまだ十分な取り組みができていないのが現状であり、もどかしさも感じています。
大規模なフロンティアモデルの開発は投資対効果(ROI)が合いづらく、マネタイズが難しいという課題もあります。そのため、LLM開発とアプリケーションをどう結びつけるかが今後の鍵になると考えています。目的やタスクが明確になれば、そこに必要な能力向上の方向性も定まり、技術的には十分実現可能です。
その競争こそがマネタイズのポイントですが、現状では世界的にもまだ十分に進んでいません。
ぜひ今回のコンペティションで得た経験を通じて、LLM開発とアプリケーションをつなげる視点を持ち、実社会での価値創出やビジネス化につなげていってほしいと思います。
この経験を、今後さまざまな場面で活かしていってください。」
まとめ
本記事では、松尾研LLMコンペ2025 決勝戦結果発表会の様子と、決勝進出チーム各リーダーのインタビューをご紹介しました。
若手を中心とする開発者たちが自らの力で世界水準の成果を上げた本コンペは、まさに次世代のAI開発を担う人々の成長の場となりました。

本プロジェクトの成果物(モデル・コード・技術記事など)は、以下のプラットフォームで順次公開予定です。
- 特設ページ:https://weblab.t.u-tokyo.ac.jp/lm-compe-2025/
- テックブログ (Qiita): https://qiita.com/organizations/matsuolab-aicommunity
- コード (GitHub): https://github.com/matsuolab/llm_competition_2025_bridge_code
- モデル (Hugging Face): https://huggingface.co/weblab-llm-competition-2025-bridge/models
松尾研は今後もLLMのオープン開発と人材育成を継続していく予定です。
日本独自のオリジナリティと国際競争力を両立するモデル開発に向けて、新たな挑戦が始まります。
本コンペに関する詳細なプレスリリースはこちらから