松尾研LLM開発コンペ2025

松尾研LLM開発コンペ2025を約360名(昨年の1.5倍)規模で開催

本プロジェクトは、大規模言語モデル講座の修了生を含む、松尾・岩澤研究室講座の修了生および一般公募によって集まった有志の開発者(⺠間企業・研究者・学生で構成)約360名によって構成されています。参加者は12チームに分かれ、既存の大規模言語モデル（LLM）に対して事後学習を行い推論モデル（reasoningモデル）の開発に取り組みました。

本コンペティションでは、最難関のベンチマークとされるHumanity’s Last Exam(HLE)において、オープンモデルとして最高性能（SOTA）の達成を目指すとともに、安全性評価のベンチマークであるDo-Not-Answerにおいても高水準の性能を追求します。最終的には、開発されたモデルやコード、そしてその開発過程で得られた知見を広く公開・共有する事を目的としています。

本プロジェクトは、国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)の「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」における基盤モデルの開発プロジェクトの一環として行われます。

LLM開発者を増やし、日本からイノベーションを生み出す

2つのフェーズから構成されており、
Phase1では12チームが、H100 GPU (80GB) 36基 × 約30日分という大規模な計算資源を活用し、
チームごとにコンペティション形式でモデル開発を実施。
Phase2では、Phase1の上位3チームが、追加の計算資源を用いてさらに高度なモデル開発に挑戦しました。

詳細はこちら

Phase1(予選) コンペティション結果

7月13日から8月25日にかけて行われた予選（Phase1）には、12チームが参加。
既存モデルをベースに各チームが独自の事後学習を施し、HLE・DNAの両指標で競いました。

開発チーム

oNo.1

リーダー：小野克樹
開発方針：実験の量と質を極める

RAMEN

リーダー：鈴木佑晟
開発方針：超推論特化モデルの開発

Promptia

リーダー：田口昂樹
開発方針：革新的・効率的な推論能力強化

K.A.T.O

リーダー：加藤純
開発方針：数学の可能性を広げる

チーム蝉時雨

リーダー：渡部泰樹
開発方針：知識積み上げ型Reasoning Modelの開発

ねこ

リーダー：本田大明
開発方針：安全かつ高性能な Reasoning モデルの開発

TruthOwl🦉

リーダー：村上元規
開発方針：フクロウ型推論性能のLLM開発

Pont Neuf

リーダー：佐原恭平
開発方針：各メンバーの専門分野に即したデータ収集

Camino

リーダー：神野大輔
開発方針：強化学習の難易度調整による性能向上

Cogito

リーダー：秋山達彦
開発方針：スタンドプレーから生じるチームワーク

チームきつね

リーダー：Holy-fox
開発方針：定義の言語化で高品質な学習

朱雀

リーダー：林武
開発方針：世界最高難度の課題に特化

総合ランキング

順位	チーム名	リーダー	利用したベースモデル	正答率			部分点 (参考値)
順位	チーム名	リーダー	利用したベースモデル	合計点	HLE	DNA	HLE	DNA
1	oNo.1	小野克樹	DeepSeek-R1-0528	19.72	11.68	92.12	55.03	95.77
2	Pont Neuf	佐原恭平	Qwen3-235B-A22B	19.63	11.63	91.59	37.61	98.39
3	RAMEN	鈴木佑晨	Qwen3-235B-A22B	19.19	11.12	91.80	41.28	97.56
4	きつね	Holy-fox	DeepSeek-R1-0528	18.84	10.33	95.42	45.55	94.98
5	ねこ	本田大明	Qwen3-235B-A22B	17.49	8.80	95.63	54.35	95.74
6	蝉時雨	渡部泰樹	Qwen3-32BのMoE	16.57	8.48	89.35	38.31	95.56
7	朱雀	林武	Qwen3-235B-A22B	16.34	7.79	93.29	32.46	95.73
8	Camino	神野大輔	Phi-4-reasoning-plus	15.82	6.77	97.23	51.42	97.42
9	Cogito	秋山達彦	DeepSeek-R1-0528	14.63	6.02	92.12	47.57	96.80
10	TruthOwl	村上元規	DeepSeek-R1-Distill-Qwen-32B	13.64	4.50	95.95	30.56	81.77
11	K.A.T.O	加藤純	Qwen3-32B	12.77	5.51	78.06	11.83	81.72
12	Promptia	田口昂樹	Qwen3-32B	11.62	4.03	79.87	21.16	85.42

ベースモデル自体の評価結果

モデル別性能サマリー

ベースモデル	正答率			部分点 (参考値)
ベースモデル	合計点	HLE	DNA	HLE	DNA
DeepSeek-R1-0528 (max_model_len: 16384)	19.56	11.49	92.23	50.23	95.95
DeepSeek-R1-Distill-Qwen-32B	12.03	4.59	79.02	31.05	94.90
Qwen3-235B-A22B	20.67	12.60	93.29	39.63	97.69
Qwen3-32B	16.37	8.16	90.31	35.41	96.81
Phi-4-reasoning-plus	16.50	7.23	99.89	49.65	98.62

リーダーボードはこちら(外部リンク)

Phase2(決勝) コンペティション結果

上位3チームのRAMEN・Pont Neuf・oNo.1が決勝（Phase2）へ進出し、さらに高度なモデル開発に挑みました。
2025年10月13日（月・祝）に東京大学情報学環・福武ホールにて開催された決勝結果発表イベントにて、以下の通り最終順位を発表しました。

開発チーム

oNo.1

リーダー：小野克樹
開発方針：実験の量と質を極める

Pont Neuf

リーダー：佐原恭平
開発方針：各メンバーの専門分野に即したデータ収集

RAMEN

リーダー：鈴木佑晟
開発方針：超推論特化モデルの開発

詳細ランキング

順位	チーム名	リーダー	利用したベースモデル	ハイパーパラメータ		正答率
順位	チーム名	リーダー	利用したベースモデル	入出力の最大トークン長(max_model_len)	出力の最大トークン長(max_completion_len)	合計点	HLE	DNA
1	RAMEN	鈴木佑晨	Qwen3-235B-A22B-Thinking-2507	262,144	131,072	26.328	18.58	96.06
2	Pont Neuf	佐原恭平	Qwen3-235B-A22B-Thinking-2507	262,144	248,741	26.236	18.49	95.95
3	oNo.1	小野克樹	Qwen3-235B-A22B-Thinking-2507	49,152	32,768	23.963	15.94	96.17

HLEカテゴリ別の評価結果

HLEカテゴリ別ランキング

順位	チーム名	リーダー	HLE カテゴリ別
順位	チーム名	リーダー	数学 Math	物理 Physics	生物医学 Biology/Medicine	人文科学 Humanities/Social Science	計算科学/AI Computer Science/AI	工学 Engineering	化学 Chemistry	その他 Other
1	RAMEN	鈴木佑晨	26.43	12.38	13.96	11.92	14.73	15.63	8.91	6.82
2	Pont Neuf	佐原恭平	27.05	12.87	15.77	8.29	14.73	10.94	7.92	5.68
3	oNo.1	小野克樹	21.21	9.41	16.57	9.84	11.61	14.06	11.88	8.52

ベースモデル自体の評価結果

Thinkingモデル性能

ベースモデル	ハイパーパラメータ		正答率
ベースモデル	入出力の最大トークン長(max_model_len)	出力の最大トークン長(max_completion_len)	合計点	HLE	DNA
Qwen3-235B-A22B-Thinking-2507	262,144	131,072	25.692	17.79	96.81
Qwen3-235B-A22B-Thinking-2507	262,144	248,741	27.412	19.37	99.79
Qwen3-235B-A22B-Thinking-2507	49,152	32,768	24.116	16.17	95.63

決勝進出者コメント

鈴木佑晟さん(RAMEN)

高品質なデータ合成や多様な学習手法の実装・検証に取り組み、再現性と開発速度を両立した開発体制を構築しました。その結果、モデル性能と開発プロセスの両面で確かな成果を上げ、Humanity’s Last Exam において世界最高水準のオープンモデル Qwen3-235B-A22B-Thinking-2507 を 0.8pt 上回る性能を達成しました。数々の技術的挑戦を通じて、チームRAMENのメンバーが大きく成長できたことも貴重な財産です。この成果と経験を次の開発や社会実装へと繋げ、今後も挑戦を続けていきます。このような機会をいただき、誠にありがとうございました。

佐原恭平さん(Pont Neuf)

実は予選決勝を通じて、私は 1 行もコードを書いていません。結果は準優勝でしたが、非常に難易度の高い課題に対してトップまであとわずか 0.1 ポイントに迫る成果を残すことができたのは、ひとえにチームのみなさんの創意工夫があったからこそだと思います。自分自身、本コンペティションから非常に多くのことを学びましたし、私たちの取り組みが Pont Neuf のメンバー、ひいては関わってくださった方々の今後の活動に、少しでも貢献するものになったのであればうれしい限りです。今回はこのような機会をいただき、本当にありがとうございました！

小野克樹さん(oNo.1)

推論のトークン長でスコアが変わることは把握していたにも関わらず、公式のトークン長のみで開発を進めてしまったことが敗因です。一方で、公式のトークン長(32768)でモデルにHLEを解かした際に、ベースモデルのスコアが13.58%に対して、私たちのモデルは15.89%のスコアを出しており+2.31ポイント（相対 +17%）のスコア向上が確認できます。また、分野別に見ても全ての分野のスコアが上がっています。このような性能の改善が可能になったのは、我々が独自に開発したHARIという新たなチューニング手法と高品質な合成データによります。コンペの結果自体は残念でしたが、価値のある新技術を開発したチームとして、このチームを誇りに思います。

松尾研LLMコンペ2025 決勝戦結果発表会

2025年10月13日（月・祝）、東京大学情報学環・福武ホールで開催された決勝発表会では、上位3チームが決勝期間の取り組みを発表しました。開発手法、データ設計、チームならではの強みなど、熱気に包まれたプレゼンテーションが続きました。

プロジェクト成果物 / ノウハウ共有

テックブログ

(外部リンク: Qiita)

コード

(外部リンク: GitHub)

決勝結果発表イベント

(外部リンク: YouTube)

開発の過程はすべてSlackなどに記録されています。詳細をご覧になりたい方は、
ぜひ「松尾研 LLMコミュニティ」へご参加ください。

松尾研 LLM Community

次回の講座案内、コンペ開催情報はコミュニティ内でご案内いたします！

このコミュニティは、LLM（大規模言語モデル）に関心を持つ方々のために、オープンな学び場として松尾・岩澤研究室が運営する Slack コミュニティです。現在、約12,000名の方々が活動しています。
当コミュニティでは、各種LLMに関するイベントや開発コンペなど様々な企画を実施しています。

参加することで得られること

開発の記録（ログ）を閲覧でき、プロジェクトにも参加できる
内部で開催されるLLM関連イベントに参加できる
それらの活動を通じて、LLMに対する理解をより深めることができる

LLMコミュニティに参加する

大規模言語モデル講座2025、受付中

応用編はこちら

松尾研LLM開発コンペ2025