GENIAC 松尾研 LLM開発プロジェクト

本プロジェクトは、大規模言語モデル講座の修了生を含む、松尾・岩澤研究室講座の修了生および一般公募によって集まった有志の開発者(⺠間企業・研究者・学生で構成)約250名が7チームに分かれ、各チーム10BクラスのLLMをコンペティション形式で開発を行い、優勝チームが50BクラスのLLMを作り、これらのモデルやコード開発で得た知見を共有する事を目的に行われます。

国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)の「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発(助成)」に係る公募に採択されており、経済産業省が主導する基盤モデルの開発に必要な計算資源に関する支援や関係者間の連携を促す「GENIAC」プロジェクトの一環として行われます。

GENIACの詳細はこちら:https://www.meti.go.jp/press/2023/02/20240202003/20240202003.html

LLM開発者を増やし、
日本からイノベーションを生み出す

プロジェクトについて

2つのフェーズから構成されており、Phase1では7チームが10Bクラスのモデルを開発するコンペティションを実施。

Phase2では、Phase1の優勝チームが50Bクラスのモデル開発に挑戦します。

開発チーム紹介

チーム ビジネス
  • リーダー:河越淳
  • 開発方針:ビジネス利用可能なLLMの開発
  • チーム たぬき
  • リーダー:畠山歓
  • 開発方針:良質な日本語データの構築による性能改善
  • チーム 甲(きのえ)
  • リーダー:朏島和香那
  • 開発方針:日本語出力品質への特化
  • チーム 天元突破
  • リーダー:尾崎大晟
  • 開発方針:ハルシネーションを最大限逓減したLLMの開発
  • チーム Kuma
  • リーダー:熊谷壮一郎
  • 開発方針:学習の効率化・高速化
  • チーム JINIAC
  • リーダー:中村仁
  • 開発方針:日本語に特化したLLMの開発
  • チーム Zoo
  • リーダー:三内顕義
  • 開発方針:MoE構造をとるLLMの開発
  • Phase1 コンペティション結果

    6/1(土)にPhase1結果発表会が行われました。
    全チームハイレベルな結果を達成するなか、「チームたぬき」(リーダー:畠山歓)が優勝し、Phase2への進出を決めました。
    8月初めのPhase2終了まで、現在も開発が進行中です。

    (*1) 参考までに、GPT-3.5-turboは0.65点、weblab-10b-instruction-sftは0.22点でした。
    (*2) 参考までに、GPT-3.5-turboは0.66点、weblab-10b-instruction-sftは0.15点、tokyotech-m/Swallow-7b-instruct-hfは0.28点、tokyotech-llm/Swallow-13b-instruct-hfは0.37点でした。
    (*3) 参考までに、GPT-3.5-turboは0.64点、weblab-10b-instruction-sftは0.29点でした。

    プロジェクト成果物 / ノウハウ共有

    リンクブロック

    松尾研LLM Community

    本プロジェクトのSlackを「松尾研 LLM Community」とし、どなたでも参加できる場として開放しています。

    ・参加することで期待できる点

    1. 開発の様子をリアルタイムでモニタリングできる
    2. 内部で開催されるLLM関連のイベントに参加できる
    3. 上記を通じてLLMへの理解を深められる