松尾研LLM開発コンペ2025

  • Home
  • 松尾研LLMコンペ2025
  • 松尾研LLM開発コンペ2025を約360名(昨年の1.5倍)規模で開催

  • Home
  • 松尾研LLMコンペ2025
  • 本プロジェクトは、大規模言語モデル講座の修了生を含む、松尾・岩澤研究室講座の修了生および一般公募によって集まった有志の開発者(⺠間企業・研究者・学生で構成)約360名によって構成されています。参加者は12チームに分かれ、既存の大規模言語モデル(LLM)に対して事後学習を行い推論モデル(reasoningモデル)の開発に取り組みました。

    本コンペティションでは、最難関のベンチマークとされるHumanity’s Last Exam(HLE)において、オープンモデルとして最高性能(SOTA)の達成を目指すとともに、安全性評価のベンチマークであるDo-Not-Answerにおいても高水準の性能を追求します。最終的には、開発されたモデルやコード、そしてその開発過程で得られた知見を広く公開・共有する事を目的としています。

    本プロジェクトは、国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)の「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」における基盤モデルの開発プロジェクトの一環として行われます。

    LLM開発者を増やし、日本からイノベーションを生み出す

    2つのフェーズから構成されており、
    Phase1では12チームが、H100 GPU (80GB) 36基 × 約30日分という大規模な計算資源を活用し、
    チームごとにコンペティション形式でモデル開発を実施。
    Phase2では、Phase1の上位3チームが、追加の計算資源を用いてさらに高度なモデル開発に挑戦しました。

    Phase1(予選) コンペティション結果

    7月13日から8月25日にかけて行われた予選(Phase1)には、12チームが参加。
    既存モデルをベースに各チームが独自の事後学習を施し、HLE・DNAの両指標で競いました。

    開発チーム

    oNo.1

    • リーダー:小野 克樹
    • 開発方針:実験の量と質を極める

    oNo.1

    開発方針:
    実験の量と質を極める

    リーダー

    小野 克樹

    開発メンバー

    近藤 汰一, 大野佳寿馬, 宮本大雅, 富樫 史彦, Sato Hiito, Yudai_Nakagawa, 小野克樹, Hiroto Shibuya, 弓場 亮介, 新谷 元紀, 松本 将太, 山本 高史, 田中 真, 遠藤 祥子, 舘田 俊, ishikawa kazuhiko, 北川 廣野, AKIO UEKI, 河田 暁基, 勝見

    MVPメンバー

    山本 高史, 遠藤 祥子

    成果物

    RAMEN

    • リーダー:鈴木 佑晟
    • 開発方針:超推論特化モデルの開発

    RAMEN

    開発方針:
    超推論特化モデルの開発

    リーダー

    鈴木 佑晟

    開発メンバー

    Manato ITO, KHaraFumitaka, 佐藤 諒平, YuYamada, 鈴木 佑晟, tamagawa tomoya, 竹市 文, 朝岡 忠, 浦上裕介, OGI, 田中 雅明, 大谷 圭佑, 薗頭隆太, Yosuke Morishima, ひろさん, 本橋 伸一, 神崎 裕之, 西脇 正通, Holy_KTQ, nagayaoh, 中埜渡 丈嘉, K1

    MVPメンバー

    Holy_KTQ, nagayaoh

    成果物

    Promptia

    • リーダー:田口 昂樹
    • 開発方針:革新的・効率的な推論能力強化

    Promptia

    開発方針:
    革新的・効率的な推論能力強化

    リーダー

    田口 昂樹

    開発メンバー

    榊原 仁, 澤井, 田口 昂樹, 石川竜聖, Yuki Tashiro, 武藤克大, Jiawei Chen, 野口 栄司, 小寺雅司, 馮 奇, なおき, Yu339k, nishimae, H.Kajiya, 鈴木 健一, Tomo, 細見 保史, Aikiti, saitoy, 城ヶ崎 寛, kiwadoh

    MVPメンバー

    馮 奇(ひょう)

    成果物

    K.A.T.O

    • リーダー:加藤 純
    • 開発方針:数学の可能性を広げる

    K.A.T.O

    開発方針:
    数学の可能性を広げる

    リーダー

    加藤 純

    開発メンバー

    川島 能就, 藤越 颯人, 白石尽誠, 孫根 吉聖, nakashi104 (Slack HN), koki sugishita, 西澤 克彦, 榮 政宏, 加藤 純, Chattso-GPT(柳澤康仁), 稲留 隆之, 古舘 健, Yukie Kawano, mori yuto, ikedatakayasu, 元谷 崇, 佐々木 太郎, Toshi, 服部励起, 樋口 千洋

    MVPメンバー

    yukie ​Kawano, 西澤 克彦

    成果物

    チーム 蝉時雨

    • リーダー:渡部 泰樹
    • 開発方針:知識積み上げ型Reasoning Modelの開発

    チーム 蝉時雨

    開発方針:
    知識積み上げ型Reasoning Modelの開発

    リーダー

    渡部 泰樹

    開発メンバー

    戸田結斗, もとき, 堀 諒丞, 板井 孝樹, 渡部 泰樹, 荒木 章伍, 尾崎 大晟, 森 竜太朗, 横井志保, yokoe, 藤岡 裕平, rick, シブヤ ユウスケ, 飯田 大貴, 中尾 武, Rumi Nakagawa, トモ, 原口 健, 辻 大地, 濱谷 光吉, 田中としみつ, Masashi Fujimoto, 柴田 健郎, 清田学, yochimachika, 仮屋 智由, mas3

    MVPメンバー

    尾崎 大晟, 辻 大地

    成果物

    ねこ

    • リーダー:本田 大明
    • 開発方針:安全かつ高性能な Reasoning モデルの開発

    ねこ

    開発方針:
    安全かつ高性能な Reasoning モデルの開発

    リーダー

    本田 大明

    開発メンバー

    mumumu6, 橘 祐貴, sugiyama_ryu, 中西俊太郎, 嶋中 雄大, ケイゴ, 本郷 颯人, 田中 勇吾, 本田大明, 栗田 侑弥, 小谷 真士, chococoa, 濱田祥希, Yuki Miyagawa, km, 谷 天太, オカムラマサキ, 須田 真弘, LIU Junyu, 永石 優, 加地 翔太, 緑川 雄一, 松儀良広, 大宅 悠介, 森田 純一郎, taro nakano

    MVPメンバー

    小谷 真士, 嶋中 雄大

    成果物

    TruthOwl🦉

    • リーダー:村上 元規
    • 開発方針:フクロウ型推論性能のLLM開発

    TruthOwl🦉

    開発方針:
    フクロウ型推論性能のLLM開発

    リーダー

    村上 元規

    開発メンバー

    福井 まほろ, 鬼頭 雅軌, kojo, Tantan0605, Ryota Kami, おれっち, 石川 宏輔, 岡本 広, Masahito Kumada, 筒井 正二郎, 宮臺 美帆, Magellan, Leng Mingbin, 村上 元規, 新谷 正嶺, 銀の鳳凰座, ジュン0320, 横野 春彦, 田所 卓, reiwa7, 内藤 睦博

    MVPメンバー

    田所 卓, Masahito Kumada

    成果物

    Pont Neuf

    • リーダー:佐原 恭平
    • 開発方針:各メンバーの専門分野に即したデータ収集

    Pont Neuf

    開発方針:
    各メンバーの専門分野に即したデータ収集

    リーダー

    佐原 恭平

    開発メンバー

    はるyuzu, あともす, Masashi Iwamoto, 尾近 洸行, 増淵耕平, PlanetMERON, 佐原 恭平, lbao40, 下川床 潤, NT, Kumakura, Akihito, maruNishi, Hideko Inoue, シゲ, maty

    MVPメンバー

    Kumakura, Akihito
    yuzu

    成果物

    Camino

    • リーダー:神野 大輔
    • 開発方針:強化学習の難易度調整による性能向上

    Camino

    開発方針:
    強化学習の難易度調整による性能向上

    リーダー

    神野 大輔

    開発メンバー

    中井 勇希, 粟飯原 有輝, 今里郁弥, R.Ueda, 小原 昇, Takumi Okazaki, 佐久間 吉行, 堀江 佐和, jtaki873, 鈴木 啓太, 染谷 実奈美, 竹田 詩韻, togakyo, Yuki Nakamura, kn, 原 雄輝, yuhsuke777, T.Maekawa, 天野 智仁, 宮崎 修, Ogawa Hiroyuki, porChe1223, 森永 雄一朗, 神野 大輔, 田中 裕之

    MVPメンバー

    染谷 実奈美, Yuki Nakamura

    成果物

    Cogito

    • リーダー:秋山 達彦
    • 開発方針:スタンドプレーから生じるチームワーク

    Cogito

    開発方針:
    スタンドプレーから生じるチームワーク

    リーダー

    秋山 達彦

    開発メンバー

    秋山達彦puwaer, 井川 雄貴, 岡田 條永, こうた, 河本 隼輔, 高 慎之助, 藤原大喜tha, 加藤 侑希人, 堀田凱世, 平岡 拓海, 友成 未久, Nibiru, 佐藤 良明, issei.fujimoto, かよ, 高橋聡明, Takashi Shibata, 渡邉 邦宏, Yu373300, Hideaki Hayashi, 小野塚 荘一, 永原 恒治, onodera susumu

    MVPメンバー

    puwaer, 渡邉 邦宏

    チームきつね

    • リーダー:Holy-fox
    • 開発方針:定義の言語化で高品質な学習

    チームきつね

    開発方針:
    定義の言語化で高品質な学習

    リーダー

    ほーりーふぉっくす

    開発メンバー

    ほーりーふぉっくす, milktear, みのD, Aratako, 西 健太, 竹澤 巧基, 横山 亮磨, 山坂 巧, yuiseki, 田島逸郎,
    田中 総一郎, 池田 新二

    MVPメンバー

    Aratako、田島逸郎

    成果物

    朱雀

    • リーダー:林武
    • 開発方針:世界最高難度の課題に特化

    朱雀

    開発方針:
    世界最高難度の課題に特化

    リーダー

    林武

    開発メンバー

    林 武, 新川大翔, 新井翔太, 目時 大暉, 村上 広樹, 長田健五, 宮川 大樹, 高山 一樹, ささかま, 山嵜 裕真, Shogo Nakamura, 高井 大輔, 間瀬 省吾, Mitch, 桒原 隆亮, 古賀 義章, NISHIMURA Masakazu, 小野川 浩, Kanazawabunemon, 大谷 義信, jyuan0128, 毛利 篤史

    MVPメンバー

    高井 大輔, jyuan0128

    成果物

    総合ランキング
    順位 チーム名 リーダー 利用したベースモデル 正答率 部分点 (参考値)
    合計点 HLE DNA HLE DNA
    1 oNo.1 小野 克樹 DeepSeek-R1-0528 19.72 11.68 92.12 55.03 95.77
    2 Pont Neuf 佐原 恭平 Qwen3-235B-A22B 19.63 11.63 91.59 37.61 98.39
    3 RAMEN 鈴木 佑晨 Qwen3-235B-A22B 19.19 11.12 91.80 41.28 97.56
    4 きつね Holy-fox DeepSeek-R1-0528 18.84 10.33 95.42 45.55 94.98
    5 ねこ 本田 大明 Qwen3-235B-A22B 17.49 8.80 95.63 54.35 95.74
    6 蝉時雨 渡部 泰樹 Qwen3-32BのMoE 16.57 8.48 89.35 38.31 95.56
    7 朱雀 林武 Qwen3-235B-A22B 16.34 7.79 93.29 32.46 95.73
    8 Camino 神野 大輔 Phi-4-reasoning-plus 15.82 6.77 97.23 51.42 97.42
    9 Cogito 秋山 達彦 DeepSeek-R1-0528 14.63 6.02 92.12 47.57 96.80
    10 TruthOwl 村上 元規 DeepSeek-R1-Distill-Qwen-32B 13.64 4.50 95.95 30.56 81.77
    11 K.A.T.O 加藤 純 Qwen3-32B 12.77 5.51 78.06 11.83 81.72
    12 Promptia 田口 昂樹 Qwen3-32B 11.62 4.03 79.87 21.16 85.42
    ベースモデル自体の評価結果 モデル別性能サマリー
    ベースモデル 正答率 部分点 (参考値)
    合計点 HLE DNA HLE DNA
    DeepSeek-R1-0528 (max_model_len: 16384) 19.56 11.49 92.23 50.23 95.95
    DeepSeek-R1-Distill-Qwen-32B 12.03 4.59 79.02 31.05 94.90
    Qwen3-235B-A22B 20.67 12.60 93.29 39.63 97.69
    Qwen3-32B 16.37 8.16 90.31 35.41 96.81
    Phi-4-reasoning-plus 16.50 7.23 99.89 49.65 98.62

    Phase2(決勝) コンペティション結果

    上位3チームのRAMEN・Pont Neuf・oNo.1が決勝(Phase2)へ進出し、さらに高度なモデル開発に挑みました。
    2025年10月13日(月・祝)に東京大学情報学環・福武ホールにて開催された決勝結果発表イベントにて、以下の通り最終順位を発表しました。

    開発チーム

    oNo.1

    • リーダー:小野 克樹
    • 開発方針:実験の量と質を極める

    oNo.1

    開発方針:
    実験の量と質を極める

    リーダー

    小野 克樹

    開発メンバー

    近藤 汰一, 大野佳寿馬, 宮本大雅, 富樫 史彦, Sato Hiito, Yudai_Nakagawa, 小野克樹, Hiroto Shibuya, 弓場 亮介, 新谷 元紀, 松本 将太, 山本 高史, 田中 真, 遠藤 祥子, 舘田 俊, ishikawa kazuhiko, 北川 廣野, AKIO UEKI, 河田 暁基, 勝見, 川村 正春, 松本航太朗, 横井志保, 佐々木悠, 新川大翔, Masashi Fujimoto, Kuwahara, ささかま, 柳澤康仁, 新谷正嶺, 永原 恒治, satoyuto, 中尾武, 永石優, Toshiaki Takahashi, 柴田たけお, 宮川 大樹, Rumi Nakagawa, Mitch, Nibiru, yochimachika, Sawa HORIE, Shibuya Yusuke, 田島逸郎, ほーりーふぉっくす, 池田新二, 田中総一郎, 竹澤巧基, Aratako, 横山亮磨, mleng, 福田 健人, milktea, 渡部泰樹

    MVPメンバー

    遠藤 祥子, ほーりーふぉっくす, 池田新二, 舘田 俊, Masashi Fujimoto

    成果物

    Pont Neuf

    • リーダー:佐原 恭平
    • 開発方針:各メンバーの専門分野に即したデータ収集

    Pont Neuf

    開発方針:
    各メンバーの専門分野に即したデータ収集

    リーダー

    佐原 恭平

    開発メンバー

    0326haru, yuzu, あともす, Masashi Iwamoto, Hiromichi Okon, komasu0318, Genki Ishibashi, Kyohei Sahara(k), Long Bao, 下川床 潤, TakeshiNakashima, kumakura, maru, Nishi, Hiko Ino, Yukishige Kawaguchi, Masabumi Ishihara, nkkbr, 加藤純, Taisei Ozaki, 渡邉 邦宏, Taiki Metoki, 小野川浩

    MVPメンバー

    Kumakura, Akihito, Taisei Ozaki

    成果物

    RAMEN

    • リーダー:鈴木 佑晟
    • 開発方針:超推論特化モデルの開発

    RAMEN

    開発方針:
    超推論特化モデルの開発

    リーダー

    鈴木 佑晟

    開発メンバー

    Manato Ito, Kazuyuki, 原史恭, 佐藤諒平, YuYamada, Yusei Suzuki, tamagawa tomoya, AyaTakeichi, asaoka_tadashi, YusukeUrakami, OGI, CHRONO, KeisukeOtani, sonodd, Yosuke Morishima
    舘野, shinichi motohashi, Hiroyuki Kanzaki, nisiwaki, HORIE Satoshi, RickeyIron, WatariNAKANO, K1, 森永雄一朗, Fumiya Imazato, M.Kumada, Y Nakamura, 染谷 実奈美, knishimae, K. Nishizawa, Ryota Kami, 高井 大輔, Hisashi Takagi, 稲留 隆之, 森 勇登, 飯田 大貴, ryokoe, 林 武, yukie ​Kawano, ryokoe, 香村尚輝

    MVPメンバー

    HaraFumitaka, 染谷 実奈美, 飯田 大貴, K1, Holy_KTQ

    成果物

    詳細ランキング
    順位 チーム名 リーダー 利用したベースモデル ハイパーパラメータ 正答率
    入出力の最大トークン長(max_model_len) 出力の最大トークン長(max_completion_len) 合計点 HLE DNA
    1 RAMEN 鈴木 佑晨 Qwen3-235B-A22B-Thinking-2507 262,144 131,072 26.328 18.58 96.06
    2 Pont Neuf 佐原 恭平 Qwen3-235B-A22B-Thinking-2507 262,144 248,741 26.236 18.49 95.95
    3 oNo.1 小野 克樹 Qwen3-235B-A22B-Thinking-2507 49,152 32,768 23.963 15.94 96.17
    HLEカテゴリ別の評価結果 HLEカテゴリ別ランキング
    順位 チーム名 リーダー HLE カテゴリ別
    数学 Math 物理 Physics 生物医学 Biology/Medicine 人文科学 Humanities/Social Science 計算科学/AI Computer Science/AI 工学 Engineering 化学 Chemistry その他 Other
    1 RAMEN 鈴木 佑晨 26.43 12.38 13.96 11.92 14.73 15.63 8.91 6.82
    2 Pont Neuf 佐原 恭平 27.05 12.87 15.77 8.29 14.73 10.94 7.92 5.68
    3 oNo.1 小野 克樹 21.21 9.41 16.57 9.84 11.61 14.06 11.88 8.52

    ベースモデル自体の評価結果 Thinkingモデル性能
    ベースモデル ハイパーパラメータ 正答率
    入出力の最大トークン長(max_model_len) 出力の最大トークン長(max_completion_len) 合計点 HLE DNA
    Qwen3-235B-A22B-Thinking-2507 262,144 131,072 25.692 17.79 96.81
    Qwen3-235B-A22B-Thinking-2507 262,144 248,741 27.412 19.37 99.79
    Qwen3-235B-A22B-Thinking-2507 49,152 32,768 24.116 16.17 95.63

    決勝進出者コメント

    鈴木 佑晟さん(RAMEN)

    高品質なデータ合成や多様な学習手法の実装・検証に取り組み、再現性と開発速度を両立した開発体制を構築しました。その結果、モデル性能と開発プロセスの両面で確かな成果を上げ、Humanity’s Last Exam において世界最高水準のオープンモデル Qwen3-235B-A22B-Thinking-2507 を 0.8pt 上回る性能を達成しました。数々の技術的挑戦を通じて、チームRAMENのメンバーが大きく成長できたことも貴重な財産です。この成果と経験を次の開発や社会実装へと繋げ、今後も挑戦を続けていきます。このような機会をいただき、誠にありがとうございました。

    佐原 恭平さん(Pont Neuf)

    実は予選決勝を通じて、私は 1 行もコードを書いていません。結果は準優勝でしたが、非常に難易度の高い課題に対してトップまであとわずか 0.1 ポイントに迫る成果を残すことができたのは、ひとえにチームのみなさんの創意工夫があったからこそだと思います。自分自身、本コンペティションから非常に多くのことを学びましたし、私たちの取り組みが Pont Neuf のメンバー、ひいては関わってくださった方々の今後の活動に、少しでも貢献するものになったのであればうれしい限りです。今回はこのような機会をいただき、本当にありがとうございました!

    小野 克樹さん(oNo.1)

    推論のトークン長でスコアが変わることは把握していたにも関わらず、公式のトークン長のみで開発を進めてしまったことが敗因です。 一方で、公式のトークン長(32768)でモデルにHLEを解かした際に、ベースモデルのスコアが13.58%に対して、私たちのモデルは15.89%のスコアを出しており+2.31ポイント(相対 +17%)のスコア向上が確認できます。また、分野別に見ても全ての分野のスコアが上がっています。 このような性能の改善が可能になったのは、我々が独自に開発したHARIという新たなチューニング手法と高品質な合成データによります。 コンペの結果自体は残念でしたが、価値のある新技術を開発したチームとして、このチームを誇りに思います。

    プロジェクト成果物 / ノウハウ共有

    テックブログ

    (外部リンク: Qiita)

    コード

    (外部リンク: GitHub)

    決勝結果発表イベント

    (外部リンク: YouTube)

    開発の過程はすべてSlackなどに記録されています。詳細をご覧になりたい方は、
    ぜひ「松尾研 LLMコミュニティ」へご参加ください。

    松尾研 LLM Community

    次回の講座案内、コンペ開催情報はコミュニティ内でご案内いたします!

    このコミュニティは、LLM(大規模言語モデル)に関心を持つ方々のために、オープンな学び場として松尾・岩澤研究室が運営する Slack コミュニティです。現在、約12,000名の方々が活動しています。
    当コミュニティでは、各種LLMに関するイベントや開発コンペなど様々な企画を実施しています。

    参加することで得られること

    1. 開発の記録(ログ)を閲覧でき、プロジェクトにも参加できる
    2. 内部で開催されるLLM関連イベントに参加できる
    3. それらの活動を通じて、LLMに対する理解をより深めることができる

    お問い合わせ

    当研究室への進学/インターン参加の希望、
    共同研究や取材のご相談は
    下記よりお問い合わせください。