
松尾研LLM開発コンペ2025

松尾研LLM開発コンペ2025を約360名(昨年の1.5倍)規模で開催
本プロジェクトは、大規模言語モデル講座の修了生を含む、松尾・岩澤研究室講座の修了生および一般公募によって集まった有志の開発者(⺠間企業・研究者・学生で構成)約360名によって構成されています。参加者は12チームに分かれ、既存の大規模言語モデル(LLM)に対して事後学習を行い推論モデル(reasoningモデル)の開発に取り組みました。
本コンペティションでは、最難関のベンチマークとされるHumanity’s Last Exam(HLE)において、オープンモデルとして最高性能(SOTA)の達成を目指すとともに、安全性評価のベンチマークであるDo-Not-Answerにおいても高水準の性能を追求します。最終的には、開発されたモデルやコード、そしてその開発過程で得られた知見を広く公開・共有する事を目的としています。
本プロジェクトは、国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)の「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」における基盤モデルの開発プロジェクトの一環として行われます。
LLM開発者を増やし、日本からイノベーションを生み出す

2つのフェーズから構成されており、
Phase1では12チームが、H100 GPU (80GB) 36基 × 約30日分という大規模な計算資源を活用し、
チームごとにコンペティション形式でモデル開発を実施。
Phase2では、Phase1の上位3チームが、追加の計算資源を用いてさらに高度なモデル開発に挑戦しました。
Phase1(予選) コンペティション結果
7月13日から8月25日にかけて行われた予選(Phase1)には、12チームが参加。
既存モデルをベースに各チームが独自の事後学習を施し、HLE・DNAの両指標で競いました。
開発チーム
oNo.1
- リーダー:小野 克樹
- 開発方針:実験の量と質を極める
oNo.1
開発方針:
実験の量と質を極める
リーダー
小野 克樹
開発メンバー
近藤 汰一, 大野佳寿馬, 宮本大雅, 富樫 史彦, Sato Hiito, Yudai_Nakagawa, 小野克樹, Hiroto Shibuya, 弓場 亮介, 新谷 元紀, 松本 将太, 山本 高史, 田中 真, 遠藤 祥子, 舘田 俊, ishikawa kazuhiko, 北川 廣野, AKIO UEKI, 河田 暁基, 勝見
MVPメンバー
山本 高史, 遠藤 祥子
成果物
RAMEN
- リーダー:鈴木 佑晟
- 開発方針:超推論特化モデルの開発
RAMEN
開発方針:
超推論特化モデルの開発
リーダー
鈴木 佑晟
開発メンバー
Manato ITO, KHaraFumitaka, 佐藤 諒平, YuYamada, 鈴木 佑晟, tamagawa tomoya, 竹市 文, 朝岡 忠, 浦上裕介, OGI, 田中 雅明, 大谷 圭佑, 薗頭隆太, Yosuke Morishima, ひろさん, 本橋 伸一, 神崎 裕之, 西脇 正通, Holy_KTQ, nagayaoh, 中埜渡 丈嘉, K1
MVPメンバー
Holy_KTQ, nagayaoh
成果物
Promptia
- リーダー:田口 昂樹
- 開発方針:革新的・効率的な推論能力強化
Promptia
開発方針:
革新的・効率的な推論能力強化

リーダー
田口 昂樹
開発メンバー
榊原 仁, 澤井, 田口 昂樹, 石川竜聖, Yuki Tashiro, 武藤克大, Jiawei Chen, 野口 栄司, 小寺雅司, 馮 奇, なおき, Yu339k, nishimae, H.Kajiya, 鈴木 健一, Tomo, 細見 保史, Aikiti, saitoy, 城ヶ崎 寛, kiwadoh
MVPメンバー
馮 奇(ひょう)
成果物
K.A.T.O
- リーダー:加藤 純
- 開発方針:数学の可能性を広げる
K.A.T.O
開発方針:
数学の可能性を広げる

リーダー
加藤 純
開発メンバー
川島 能就, 藤越 颯人, 白石尽誠, 孫根 吉聖, nakashi104 (Slack HN), koki sugishita, 西澤 克彦, 榮 政宏, 加藤 純, Chattso-GPT(柳澤康仁), 稲留 隆之, 古舘 健, Yukie Kawano, mori yuto, ikedatakayasu, 元谷 崇, 佐々木 太郎, Toshi, 服部励起, 樋口 千洋
MVPメンバー
yukie Kawano, 西澤 克彦
成果物
チーム 蝉時雨
- リーダー:渡部 泰樹
- 開発方針:知識積み上げ型Reasoning Modelの開発
チーム 蝉時雨
開発方針:
知識積み上げ型Reasoning Modelの開発

リーダー
渡部 泰樹
開発メンバー
戸田結斗, もとき, 堀 諒丞, 板井 孝樹, 渡部 泰樹, 荒木 章伍, 尾崎 大晟, 森 竜太朗, 横井志保, yokoe, 藤岡 裕平, rick, シブヤ ユウスケ, 飯田 大貴, 中尾 武, Rumi Nakagawa, トモ, 原口 健, 辻 大地, 濱谷 光吉, 田中としみつ, Masashi Fujimoto, 柴田 健郎, 清田学, yochimachika, 仮屋 智由, mas3
MVPメンバー
尾崎 大晟, 辻 大地
成果物
ねこ
- リーダー:本田 大明
- 開発方針:安全かつ高性能な Reasoning モデルの開発
ねこ
開発方針:
安全かつ高性能な Reasoning モデルの開発

リーダー
本田 大明
開発メンバー
mumumu6, 橘 祐貴, sugiyama_ryu, 中西俊太郎, 嶋中 雄大, ケイゴ, 本郷 颯人, 田中 勇吾, 本田大明, 栗田 侑弥, 小谷 真士, chococoa, 濱田祥希, Yuki Miyagawa, km, 谷 天太, オカムラマサキ, 須田 真弘, LIU Junyu, 永石 優, 加地 翔太, 緑川 雄一, 松儀良広, 大宅 悠介, 森田 純一郎, taro nakano
MVPメンバー
小谷 真士, 嶋中 雄大
成果物
TruthOwl🦉
- リーダー:村上 元規
- 開発方針:フクロウ型推論性能のLLM開発
TruthOwl🦉
開発方針:
フクロウ型推論性能のLLM開発

リーダー
村上 元規
開発メンバー
福井 まほろ, 鬼頭 雅軌, kojo, Tantan0605, Ryota Kami, おれっち, 石川 宏輔, 岡本 広, Masahito Kumada, 筒井 正二郎, 宮臺 美帆, Magellan, Leng Mingbin, 村上 元規, 新谷 正嶺, 銀の鳳凰座, ジュン0320, 横野 春彦, 田所 卓, reiwa7, 内藤 睦博
MVPメンバー
田所 卓, Masahito Kumada
成果物
Pont Neuf
- リーダー:佐原 恭平
- 開発方針:各メンバーの専門分野に即したデータ収集
Pont Neuf
開発方針:
各メンバーの専門分野に即したデータ収集
リーダー
佐原 恭平
開発メンバー
はるyuzu, あともす, Masashi Iwamoto, 尾近 洸行, 増淵耕平, PlanetMERON, 佐原 恭平, lbao40, 下川床 潤, NT, Kumakura, Akihito, maruNishi, Hideko Inoue, シゲ, maty
MVPメンバー
Kumakura, Akihito
yuzu
成果物
Camino
- リーダー:神野 大輔
- 開発方針:強化学習の難易度調整による性能向上
Camino
開発方針:
強化学習の難易度調整による性能向上

リーダー
神野 大輔
開発メンバー
中井 勇希, 粟飯原 有輝, 今里郁弥, R.Ueda, 小原 昇, Takumi Okazaki, 佐久間 吉行, 堀江 佐和, jtaki873, 鈴木 啓太, 染谷 実奈美, 竹田 詩韻, togakyo, Yuki Nakamura, kn, 原 雄輝, yuhsuke777, T.Maekawa, 天野 智仁, 宮崎 修, Ogawa Hiroyuki, porChe1223, 森永 雄一朗, 神野 大輔, 田中 裕之
MVPメンバー
染谷 実奈美, Yuki Nakamura
成果物
Cogito
- リーダー:秋山 達彦
- 開発方針:スタンドプレーから生じるチームワーク
Cogito
開発方針:
スタンドプレーから生じるチームワーク

リーダー
秋山 達彦
開発メンバー
秋山達彦puwaer, 井川 雄貴, 岡田 條永, こうた, 河本 隼輔, 高 慎之助, 藤原大喜tha, 加藤 侑希人, 堀田凱世, 平岡 拓海, 友成 未久, Nibiru, 佐藤 良明, issei.fujimoto, かよ, 高橋聡明, Takashi Shibata, 渡邉 邦宏, Yu373300, Hideaki Hayashi, 小野塚 荘一, 永原 恒治, onodera susumu
MVPメンバー
puwaer, 渡邉 邦宏
チームきつね
- リーダー:Holy-fox
- 開発方針:定義の言語化で高品質な学習
チームきつね
開発方針:
定義の言語化で高品質な学習

リーダー
ほーりーふぉっくす
開発メンバー
ほーりーふぉっくす, milktear, みのD, Aratako, 西 健太, 竹澤 巧基, 横山 亮磨, 山坂 巧, yuiseki, 田島逸郎,
田中 総一郎, 池田 新二
MVPメンバー
Aratako、田島逸郎
成果物
朱雀
- リーダー:林武
- 開発方針:世界最高難度の課題に特化
朱雀
開発方針:
世界最高難度の課題に特化

リーダー
林武
開発メンバー
林 武, 新川大翔, 新井翔太, 目時 大暉, 村上 広樹, 長田健五, 宮川 大樹, 高山 一樹, ささかま, 山嵜 裕真, Shogo Nakamura, 高井 大輔, 間瀬 省吾, Mitch, 桒原 隆亮, 古賀 義章, NISHIMURA Masakazu, 小野川 浩, Kanazawabunemon, 大谷 義信, jyuan0128, 毛利 篤史
MVPメンバー
高井 大輔, jyuan0128
成果物
| 順位 | チーム名 | リーダー | 利用したベースモデル | 正答率 | 部分点 (参考値) | |||
|---|---|---|---|---|---|---|---|---|
| 合計点 | HLE | DNA | HLE | DNA | ||||
| 1 | oNo.1 | 小野 克樹 | DeepSeek-R1-0528 | 19.72 | 11.68 | 92.12 | 55.03 | 95.77 |
| 2 | Pont Neuf | 佐原 恭平 | Qwen3-235B-A22B | 19.63 | 11.63 | 91.59 | 37.61 | 98.39 |
| 3 | RAMEN | 鈴木 佑晨 | Qwen3-235B-A22B | 19.19 | 11.12 | 91.80 | 41.28 | 97.56 |
| 4 | きつね | Holy-fox | DeepSeek-R1-0528 | 18.84 | 10.33 | 95.42 | 45.55 | 94.98 |
| 5 | ねこ | 本田 大明 | Qwen3-235B-A22B | 17.49 | 8.80 | 95.63 | 54.35 | 95.74 |
| 6 | 蝉時雨 | 渡部 泰樹 | Qwen3-32BのMoE | 16.57 | 8.48 | 89.35 | 38.31 | 95.56 |
| 7 | 朱雀 | 林武 | Qwen3-235B-A22B | 16.34 | 7.79 | 93.29 | 32.46 | 95.73 |
| 8 | Camino | 神野 大輔 | Phi-4-reasoning-plus | 15.82 | 6.77 | 97.23 | 51.42 | 97.42 |
| 9 | Cogito | 秋山 達彦 | DeepSeek-R1-0528 | 14.63 | 6.02 | 92.12 | 47.57 | 96.80 |
| 10 | TruthOwl | 村上 元規 | DeepSeek-R1-Distill-Qwen-32B | 13.64 | 4.50 | 95.95 | 30.56 | 81.77 |
| 11 | K.A.T.O | 加藤 純 | Qwen3-32B | 12.77 | 5.51 | 78.06 | 11.83 | 81.72 |
| 12 | Promptia | 田口 昂樹 | Qwen3-32B | 11.62 | 4.03 | 79.87 | 21.16 | 85.42 |
ベースモデル自体の評価結果
| ベースモデル | 正答率 | 部分点 (参考値) | |||
|---|---|---|---|---|---|
| 合計点 | HLE | DNA | HLE | DNA | |
| DeepSeek-R1-0528 (max_model_len: 16384) | 19.56 | 11.49 | 92.23 | 50.23 | 95.95 |
| DeepSeek-R1-Distill-Qwen-32B | 12.03 | 4.59 | 79.02 | 31.05 | 94.90 |
| Qwen3-235B-A22B | 20.67 | 12.60 | 93.29 | 39.63 | 97.69 |
| Qwen3-32B | 16.37 | 8.16 | 90.31 | 35.41 | 96.81 |
| Phi-4-reasoning-plus | 16.50 | 7.23 | 99.89 | 49.65 | 98.62 |
Phase2(決勝) コンペティション結果
上位3チームのRAMEN・Pont Neuf・oNo.1が決勝(Phase2)へ進出し、さらに高度なモデル開発に挑みました。
2025年10月13日(月・祝)に東京大学情報学環・福武ホールにて開催された決勝結果発表イベントにて、以下の通り最終順位を発表しました。
開発チーム
oNo.1
- リーダー:小野 克樹
- 開発方針:実験の量と質を極める
oNo.1
開発方針:
実験の量と質を極める
リーダー
小野 克樹
開発メンバー
近藤 汰一, 大野佳寿馬, 宮本大雅, 富樫 史彦, Sato Hiito, Yudai_Nakagawa, 小野克樹, Hiroto Shibuya, 弓場 亮介, 新谷 元紀, 松本 将太, 山本 高史, 田中 真, 遠藤 祥子, 舘田 俊, ishikawa kazuhiko, 北川 廣野, AKIO UEKI, 河田 暁基, 勝見, 川村 正春, 松本航太朗, 横井志保, 佐々木悠, 新川大翔, Masashi Fujimoto, Kuwahara, ささかま, 柳澤康仁, 新谷正嶺, 永原 恒治, satoyuto, 中尾武, 永石優, Toshiaki Takahashi, 柴田たけお, 宮川 大樹, Rumi Nakagawa, Mitch, Nibiru, yochimachika, Sawa HORIE, Shibuya Yusuke, 田島逸郎, ほーりーふぉっくす, 池田新二, 田中総一郎, 竹澤巧基, Aratako, 横山亮磨, mleng, 福田 健人, milktea, 渡部泰樹
MVPメンバー
遠藤 祥子, ほーりーふぉっくす, 池田新二, 舘田 俊, Masashi Fujimoto
成果物
Pont Neuf
- リーダー:佐原 恭平
- 開発方針:各メンバーの専門分野に即したデータ収集
Pont Neuf
開発方針:
各メンバーの専門分野に即したデータ収集
リーダー
佐原 恭平
開発メンバー
0326haru, yuzu, あともす, Masashi Iwamoto, Hiromichi Okon, komasu0318, Genki Ishibashi, Kyohei Sahara(k), Long Bao, 下川床 潤, TakeshiNakashima, kumakura, maru, Nishi, Hiko Ino, Yukishige Kawaguchi, Masabumi Ishihara, nkkbr, 加藤純, Taisei Ozaki, 渡邉 邦宏, Taiki Metoki, 小野川浩
MVPメンバー
Kumakura, Akihito, Taisei Ozaki
成果物
RAMEN
- リーダー:鈴木 佑晟
- 開発方針:超推論特化モデルの開発
RAMEN
開発方針:
超推論特化モデルの開発
リーダー
鈴木 佑晟
開発メンバー
Manato Ito, Kazuyuki, 原史恭, 佐藤諒平, YuYamada, Yusei Suzuki, tamagawa tomoya, AyaTakeichi, asaoka_tadashi, YusukeUrakami, OGI, CHRONO, KeisukeOtani, sonodd, Yosuke Morishima
舘野, shinichi motohashi, Hiroyuki Kanzaki, nisiwaki, HORIE Satoshi, RickeyIron, WatariNAKANO, K1, 森永雄一朗, Fumiya Imazato, M.Kumada, Y Nakamura, 染谷 実奈美, knishimae, K. Nishizawa, Ryota Kami, 高井 大輔, Hisashi Takagi, 稲留 隆之, 森 勇登, 飯田 大貴, ryokoe, 林 武, yukie Kawano, ryokoe, 香村尚輝
MVPメンバー
HaraFumitaka, 染谷 実奈美, 飯田 大貴, K1, Holy_KTQ
成果物
| 順位 | チーム名 | リーダー | 利用したベースモデル | ハイパーパラメータ | 正答率 | |||
|---|---|---|---|---|---|---|---|---|
| 入出力の最大トークン長(max_model_len) | 出力の最大トークン長(max_completion_len) | 合計点 | HLE | DNA | ||||
| 1 | RAMEN | 鈴木 佑晨 | Qwen3-235B-A22B-Thinking-2507 | 262,144 | 131,072 | 26.328 | 18.58 | 96.06 |
| 2 | Pont Neuf | 佐原 恭平 | Qwen3-235B-A22B-Thinking-2507 | 262,144 | 248,741 | 26.236 | 18.49 | 95.95 |
| 3 | oNo.1 | 小野 克樹 | Qwen3-235B-A22B-Thinking-2507 | 49,152 | 32,768 | 23.963 | 15.94 | 96.17 |
HLEカテゴリ別の評価結果
| 順位 | チーム名 | リーダー | HLE カテゴリ別 | |||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 数学 Math | 物理 Physics | 生物医学 Biology/Medicine | 人文科学 Humanities/Social Science | 計算科学/AI Computer Science/AI | 工学 Engineering | 化学 Chemistry | その他 Other | |||
| 1 | RAMEN | 鈴木 佑晨 | 26.43 | 12.38 | 13.96 | 11.92 | 14.73 | 15.63 | 8.91 | 6.82 |
| 2 | Pont Neuf | 佐原 恭平 | 27.05 | 12.87 | 15.77 | 8.29 | 14.73 | 10.94 | 7.92 | 5.68 |
| 3 | oNo.1 | 小野 克樹 | 21.21 | 9.41 | 16.57 | 9.84 | 11.61 | 14.06 | 11.88 | 8.52 |
ベースモデル自体の評価結果
| ベースモデル | ハイパーパラメータ | 正答率 | |||
|---|---|---|---|---|---|
| 入出力の最大トークン長(max_model_len) | 出力の最大トークン長(max_completion_len) | 合計点 | HLE | DNA | |
| Qwen3-235B-A22B-Thinking-2507 | 262,144 | 131,072 | 25.692 | 17.79 | 96.81 |
| Qwen3-235B-A22B-Thinking-2507 | 262,144 | 248,741 | 27.412 | 19.37 | 99.79 |
| Qwen3-235B-A22B-Thinking-2507 | 49,152 | 32,768 | 24.116 | 16.17 | 95.63 |
決勝進出者コメント

鈴木 佑晟さん(RAMEN)
高品質なデータ合成や多様な学習手法の実装・検証に取り組み、再現性と開発速度を両立した開発体制を構築しました。その結果、モデル性能と開発プロセスの両面で確かな成果を上げ、Humanity’s Last Exam において世界最高水準のオープンモデル Qwen3-235B-A22B-Thinking-2507 を 0.8pt 上回る性能を達成しました。数々の技術的挑戦を通じて、チームRAMENのメンバーが大きく成長できたことも貴重な財産です。この成果と経験を次の開発や社会実装へと繋げ、今後も挑戦を続けていきます。このような機会をいただき、誠にありがとうございました。

佐原 恭平さん(Pont Neuf)
実は予選決勝を通じて、私は 1 行もコードを書いていません。結果は準優勝でしたが、非常に難易度の高い課題に対してトップまであとわずか 0.1 ポイントに迫る成果を残すことができたのは、ひとえにチームのみなさんの創意工夫があったからこそだと思います。自分自身、本コンペティションから非常に多くのことを学びましたし、私たちの取り組みが Pont Neuf のメンバー、ひいては関わってくださった方々の今後の活動に、少しでも貢献するものになったのであればうれしい限りです。今回はこのような機会をいただき、本当にありがとうございました!

小野 克樹さん(oNo.1)
推論のトークン長でスコアが変わることは把握していたにも関わらず、公式のトークン長のみで開発を進めてしまったことが敗因です。 一方で、公式のトークン長(32768)でモデルにHLEを解かした際に、ベースモデルのスコアが13.58%に対して、私たちのモデルは15.89%のスコアを出しており+2.31ポイント(相対 +17%)のスコア向上が確認できます。また、分野別に見ても全ての分野のスコアが上がっています。 このような性能の改善が可能になったのは、我々が独自に開発したHARIという新たなチューニング手法と高品質な合成データによります。 コンペの結果自体は残念でしたが、価値のある新技術を開発したチームとして、このチームを誇りに思います。
松尾研LLMコンペ2025 決勝戦結果発表会
2025年10月13日(月・祝)、東京大学情報学環・福武ホールで開催された決勝発表会では、上位3チームが決勝期間の取り組みを発表しました。開発手法、データ設計、チームならではの強みなど、熱気に包まれたプレゼンテーションが続きました。
プロジェクト成果物 / ノウハウ共有
開発の過程はすべてSlackなどに記録されています。詳細をご覧になりたい方は、
ぜひ「松尾研 LLMコミュニティ」へご参加ください。

松尾研 LLM Community
次回の講座案内、コンペ開催情報はコミュニティ内でご案内いたします!

このコミュニティは、LLM(大規模言語モデル)に関心を持つ方々のために、オープンな学び場として松尾・岩澤研究室が運営する Slack コミュニティです。現在、約12,000名の方々が活動しています。
当コミュニティでは、各種LLMに関するイベントや開発コンペなど様々な企画を実施しています。
参加することで得られること
- 開発の記録(ログ)を閲覧でき、プロジェクトにも参加できる
- 内部で開催されるLLM関連イベントに参加できる
- それらの活動を通じて、LLMに対する理解をより深めることができる
大規模言語モデル講座2025、受付中

