6月1日(土) 東京大学福武ホールにて、松尾研LLM開発プロジェクトPhase1のコンペ結果発表会を開催したことをお知らせいたします。
この成果は、NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)の助成事業「ポスト5G情報通信システム基盤強化研究開発事業」(JPNP20017)の結果得られたものです。
6月1日(土) 東京大学福武ホールにて、松尾研LLM開発プロジェクトPhase1のコンペ結果発表会を開催したことをお知らせいたします。
この成果は、NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)の助成事業「ポスト5G情報通信システム基盤強化研究開発事業」(JPNP20017)の結果得られたものです。
松尾研LLM開発プロジェクトでは、2023年8月に公開した100億パラメータサイズのLLM「Weblab-10B」の開発経験をベースに、東京大学松尾研究室が提供する大規模言語モデル講座(2023年9月開催、2000名が受講)の修了生及び松尾研究室講座修了生および一般公募によって集まった有志の開発者(⺠間企業・研究者・学⽣で構成)が、最新の研究成果や技術的な知見を取り入れ、開発を進めます。
一般的にLLMの最適なモデル構造やハイパーパラメータの詳細については十分に分かっていないため、Phase1においては8チームに分かれて複数の研究テーマを設定し探索を行い、知見を共有しながら試行錯誤することで、実用的かつ効率的な手法を採用します。その後Phase2では、最優秀に選ばれた1チームが500億パラメータサイズのLLM開発に取り組みます。
3月に行われたPhase1のキックオフ以来、各チームがしのぎを削って開発に取り組んできました。
6月3日(土) 東京大学福武ホールにて、各チームの開発メンバーにお越しいただき、コンペ結果発表会を開催しました。
コンペ結果の発表に先立ち、まず各チームより開発の取り組み発表が行われました。学習コーパス構築からモデル構造の決定、事前学習と事後学習についての説明やモデル評価まで横断的にまとめられており、開発におけるそれぞれの創意工夫や努力が垣間見える内容となっていました。
その後、運営よりコンペの審査基準の説明と結果発表が行われ、各チームのMVPの表彰と松尾教授による総評が続きました。コンペ結果は以下の通りです。
1位は「チームたぬき」、2位・3位はそれぞれ「チームビジネス」「チーム天元突破」でした。
各チームが開発したモデルの出力やスコアの詳細は下記リンクのW&Bよりご覧いただけます。
優勝チームはチームリーダーの畠山歓さん率いる「チームたぬき」でした。
日本語モデルの構築における、計算リソースに対する最大限の学習効率を目指し、事前学習データセットに対するクリーニングや、人力と機械を組み合わせた大量のデータによるファインチューニングなど、多くの工夫が見られたチームでした。
既にPhase2が開始しており、本チームは50Bクラスのモデル開発に挑戦しています。
開発の様子は、松尾研LLM CommunityのSlackよりどなたでもご覧いただけますので、ぜひ以下のリンクよりご参加いただければと思います。
畠山 歓
林寛太, 川村 正春, 斎藤惇, 朝岡忠, p1atdev, 西前和隆, 藤本真志, 渡邉 邦宏, 中屋和樹, 西井康隆, 西田敏夫, Mさん, 加藤祥太, 西澤克彦, 内村友紀, Esty, 町光二郎, 並内優樹, Takahashi Eiji, okamura masaki, 岩田 兼太朗, 山田 涼太, 片上 舜, sone
2位は河越淳さん率いる「チームビジネス」、3位は尾崎大晟さん率いる「チーム天元突破」でした。
チームビジネスは、チーム名の通りビジネス用途向けのLLM開発を方針として掲げ、政府系・経済系のデータを重視して開発を行いました。チーム天元突破は、ハルシネーション逓減を目標とし、事前学習データの品質向上に積極的に取り組みました。
両チームとも、優勝チームに迫る高い結果を上げられていました。
河越 淳
植木 彰夫, 小川 雅貴, 江國 翔太, 熊田 匡仁, 西嶋 泰志
A_Matsunaga, Kei Tsukamoto, 石原昌文, miwa, Takuma SHIGA, 前河 利治, 福田 渉, 濱田 遼太郎, 角谷 亮太, 角谷 あおい, 吉野 友貴, 和田 颯馬, 榎本 悠佑, 瀬戸 翔一, 矢野 千紘, 許健, 山﨑 加周, 寺岡 潤, 李宰成, 田代 勇希, 大岡 麗
TaiseiOzaki
GoKikuchi, HiroakiShioya, TakashiShibata, ShunjiTakeshita, HarutoOtsuka
MinamiSomeya, KaichiNihira, KoutarouKanno, YoshiakiKoga, KoukiItai, TomaTanaka, NaoyoshiAikawa, AtsukiHattori, HideakiHayashi, GoSuzui, YutoTayama
YukikoMatsuda, KazumaMurakami, MitsukiTanoue, MakiSakamoto, ShigekiKajima, ToshioNishida, FumaNakamura, ManatoTajiri, HiideyukiYokoi, ShotaroAmano, YougoMatsui, HiroshiNonaka, ToshinariTanaka, moka
各チームリーダーより、チームへの多大な貢献をされた方に対してMVP賞の授与が行われました。
先述の通り、Phase2の開発状況は「松尾研LLMコミュニティ」のSlackにおいてどなたでもご覧いただけます。
松尾研LLMコミュニティは、誰でも参加できLLMについて学べる場所として、様々なレベルのLLM人材の育成を目指しております。
初学者向けのイベントや、論文解説や実装を行う上級者向けのイベントを現在行っており、更なる規模拡大を計画中です。
みなさんの参加をお待ちしております!
Slack参加・及び関連リンクはこちら : https://linktr.ee/matsuolab_community