東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開
発表のポイント 経産省及びNEDOが進める日本国内の生成AI基盤モデル開発を推進する「GENIAC」プロジェクトにおいて、松尾・岩澤研究室が「Tanuki-8×8B」を開発・公開。 本モデルは、フルスクラッチで開発されており、対話、作文能力を評価する指標「Japanese MT-Bench」において「GPT-3.5 Turbo」と同等以上の性能を達成。 Apache License 2.0のライセンスに基づき、研究および商業目的での自由な利用が可能。「Tanuki-8×8B」の軽量版である、「Tanuki-8B」をチャット形式で利用できるデモも公開。 本モデルのNejumi LLMリーダーボード3における評価 発表内容 東京大学大学院工学系研究科技術経営戦略学専攻 松尾・岩澤研究室(以下「松尾研」)は、経済産業省及び国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が推進する、国内の生成AIの開発力を強化するためのプロジェクト「GENIAC(Generative AI Accelerator Challenge)」(注1)において、大規模言語モデル「Tanuki-8×8B」を開発し、公開いたしました。 〈開発の背景〉 本活動は、日本国内の生成AI基盤モデル開発を推進する「GENIAC」プロジェクトにおいて、2023年8月に公開した100億パラメータサイズのLLM「Weblab-10B」の開発経験をベースに、LLM開発を進めるものです。 松尾研が提供する大規模言語モデル講座(2023年8月開催、2000名以上が受講)の修了生及び一般公募によって集まった有志のメンバー(⺠間企業・研究者・学⽣で構成)が、それぞれの知見を取り入れながら開発に取り組みました。 開発工程は2つのフェーズに分かれており、Phase1(注2)では7チームに分かれてコンペティション形式で開発を進め、Phase2ではPhase1の優勝チームが更に大規模なモデル開発に挑戦しました。「Tanuki-8×8B」は本取り組みの結果開発され、公開するものです。 松尾研GENIACプロジェクトについては下記をご覧ください。 https://weblab.t.u-tokyo.ac.jp/geniac_llm/ 〈「Tanuki-8×8B」の概要〉 「Tanuki-8×8B」はPhase1で構築された8Bモデルを8つに複製し、それぞれを専門家モデルとして分化・連携させることで動作するように効率的に追加学習されたモデル(注3)です。本モデルは、フルスクラッチで開発されており、作文、会話を評価する指標「Japanese MT-Bench」においては「GPT-3.5 Turbo」と同等以上の性能を達成しています。モデル名は「日本らしく、親しみを覚える動物の名前」というテーマでチームメンバーで案を出し、投票で決定しました。 開発モデル公開URL 本モデルはApache License 2.0のライセンスに基づき、研究および商業目的での自由な利用が可能です。 Tanuki-8x8B:https://huggingface.co/weblab-GENIAC/Tanuki-8x8B-dpo-v1.0 Tanuki-8B:https://huggingface.co/weblab-GENIAC/Tanuki-8B-dpo-v1.0 デモ公開URL 「Tanuki-8×8B」の軽量版である、「Tanuki-8B」をチャット形式で利用できるデモを下記URLで公開しております。下記URLにアクセスし実際の会話をお試しください。 https://huggingface.co/spaces/weblab-GENIAC/Tanuki-8B-dpo-v1.0 ※期間限定公開・終了日時未定 デモ画面 〈「Tanuki-8×8B」の特徴〉 「Tanuki-8×8B」は文章の作文や対話を中心に学習しており、当該能力を測る「Japanese MT-Bench」では事前学習からフルスクラッチで開発を行ったモデルとして、GPT-3.5 Turboと同等の性能を達成しています。 Nejumi LLMリーダーボード3における評価 はじめに、大規模言語モデルの総合的な日本語能力を評価するための最新(注4)のベンチマークシステムであるNejumi LLMリーダーボード3のベンチマークプログラムを用いてモデル性能を評価し、既存のモデル群(注5)と比較しました。 橙色が本プロジェクトで開発されたモデル、青色が他モデルを表す Nejumi LLMリーダーボード3は言語モデルの文章作成、対話能力のほか、知識や安全性など、さまざまな観点から性能を評価するシステムです。本ベンチマークにおける「Tanuki-8×8B」の総合スコアは0.57/1.00で、OpenAIのGPT-3.5…