[GENIAC 採択プロジェクト]

多様な日本語能力の向上を目指した公開の基盤モデル開発

概要
本活動では、2023年8月に公開した100億パラメータサイズのLLM「Weblab-10B」の開発経験をベースに、東京大学松尾研究室が提供する大規模言語モデル講座(2023年9月開催、2000名が受講)の修了生及び松尾研究室講座修了生および一般公募によって集まった有志の開発者(⺠間企業・研究者・学⽣で構成)が、最新の研究成果や技術的な知見を取り入れ、開発を進めます。

一般的にLLMの最適なモデル構造やハイパーパラメータの詳細については十分に分かっていないため、第1フェーズにおいては8チームに分かれて複数の研究テーマを設定し探索を行い、知見を共有しながら試行錯誤することで、実用的かつ効率的な手法を採用します。その後第2フェーズでは、最優秀に選ばれた1チームが500億パラメータサイズのLLM開発に取り組むことを予定しています。

特徴

透明性の高い非営利の公開型プロジェクトを目指します。

チームの組成から、データセット、ベースラインモデル、開発プロセスや進捗、コミュニティの交流、完成したLLMモデル(8つの10Bモデル, 1つの50Bモデル)を、開発過程を含め、全て情報を可能な範囲で発信し公開するため、開発メンバーだけでなく、本PJのコミュニティメンバーや、オンライン上の全ての人が情報にアクセスできる様にします。

目的

下記を目的にし本企画を推進していきます。

  • 日本国内に100名規模のLLM開発経験者を育成する。
  • 透明性の高い情報公開やコミュニティの運用により開発メンバー以外にもデータや開発ノウハウを普及させる。
  • 50Bの日本語LLMを開発、公開する事で社会貢献および国内のLLM実装を加速させる。

開発プロセス

Phase 1では、各チーム最大25名 x 8チームを組成、0.1B,1B,10Bと段階的にLLMモデルを開発。
Phase2 ではPhase1で結果が良かったチームを中心に再度チームを組成し50Bクラスのモデルを開発。
完成したモデルは全ての公開する予定。

情報の透明性が重要な為、立ち上げ時点からコミュニティ運用、プロセス、データ等々全ての情報を透明にし進める。
学習したモデル、学習用コード、データセット、開発の過程も全て公開することで日本全体の技術レベル向上を目指す。
各チームにリーダーを配置しリーダーはプロマネ、毎週または隔週程度での進捗共有mtg、プロセスの情報開示を行います。

松尾研側の運営やWeblab10Bの開発者メンバー含む支援チームのサポートが、プロジェクトマネジメント、開発サポート等、全面的にバックアップします。

キックオフイベント

3月2日に行われたGENIACプロジェクトのキックオフイベントの様子はこちらからご覧いただけます。

本プロジェクトの紹介: 松尾豊 教授
本プロジェクトのコンペティション(Phase1)ルール紹介: 小島武 特任研究員
各チームの紹介(全7チーム) : 各チームリーダー/代表者

チーム/開発進捗公開

各チームの紹介や週次による進捗の状況などは下記のリンクからご覧いただけます。

コミュニティメンバー募集

現在絶賛募集中

コミュニティのメンバーとしてどなたでも自由に参加頂けます。

参加する事で期待できる3つのポイント

開発の過程をリアルタイムでモニタリングできる。
各チームの週次での進捗報告会に参加できる
開発で使用しているデータやモデルにフルアクセスできる。
松尾研究室運営メンバー、開発メンバー含む、LLMのモデル開発に興味のある方々と交流できる。

参加はこちらから
(PCからアクセスしてください。モバイルだとエラーになる報告が届いてます。)

開発チームリーダー・メンバー募集

本プロジェクトの開発リーダー、開発メンバーとして参加を希望される方を公募いたします。

参加する事で期待できる3つのポイント

潤沢な計算リソースを使ってLLM開発の経験ができる。

開発者としての社会的認知度向上が期待できる。

社会で活用されるLLMモデルを開発する事で社会貢献に繋がる可能性がある。

募集は終了しました。