世界から注目されるLLM研究の舞台裏。トップ研究者との議論が生まれる研究環境とは?

2020年に博士課程から松尾・岩澤研究室に所属した小島武特任研究員は、博士号取得後も研究室に残り、主にLLM(大規模言語モデル)の研究・開発に取り組んでいます。「Let’s think step by step」と指定することで、AIの正答率が高まるという発見をした小島さんの主著論文は、発表から2年足らずで2000以上(2024年5月24日現在)引用され、世界中のAI研究者から注目を集めました。100億パラメータサイズの大規模言語モデルの開発リーダーや経済産業省のGENIAC採択プロジェクトの開発支援チームリーダーとしても活躍する小島さんに、最新のLLM研究や松尾・岩澤研の魅力について聞きました。   著名なAI研究者たちとの共著論文を 手がける機会が訪れる研究室 —小島さんの代表論文である通称「step by step論文」は、発表から2年弱で2000以上の引用をされています。概要を改めて教えてください。 これは、松尾・岩澤研究室に加入した後、博士課程在籍時の2022年5月に発表した「Large Language Models are Zero-Shot Reasoners」というタイトルの論文です。LLM(大規模言語モデル)はゼロショットの多段階推論が可能であることをデータで示したものになります。     ゼロショットの多段階推論とは、LLMがプロンプト(指示)にFew-shot事例(いくつかの例題)がなくとも与えられた複雑なタスクをこなすことを指します。LLMから多段階の複雑な推論を引き出すためには、タスク特有のFew-shot事例が必要だと考えるのが、それまでの常識でした。しかし、膨大な知識を持つLLMに特別なプロンプトを与えることで、ゼロショット推論が可能になると私は考えました。 詳しくはこちら>> Large Language Models are Zero-Shot Reasoners 具体的には、「Let’s think step by step」というプロンプトを与えることで、LLMが事前学習していない新しいタスクでも論理的な推論を行える可能性を示しました。実験で使用したLLMは、GPT-3の後継であるInstruct GPT。これを使って、MultiArith(数学的な推論能力を評価するデータセット)の問題を解かせると「Let’s think step by step」のプロンプトを与える前後で、正答率が17.7%から78.7%に飛躍的に向上しました。GoogleのPaLMなど別のLLMでも同様の挙動を確認できました。 このアイデアを得たのは、Googleの研究者が2022年1月に発表した「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」という論文を知ったのがきっかけでした。LLMがFew-shotで似たようなタスクをこなせる可能性を示唆するもので、これならゼロショットでもできるのではないかと考えたわけです。まだ誰も手を付けていない領域だったこともあり、1〜2か月ほどで書き上げました。 詳しくはこちら>> Chain-of-Thought Prompting Elicits Reasoning in Large Language Models —この論文発表によって、小島さんの生活に変化はありましたか?…

NEDOの採択を受け、公開型での500億パラメータサイズの大規模言語モデル開発を開始します。

東京大学松尾・岩澤研究室

日本全体の開発レベル向上を志し、

公開型での500億パラメータサイズの大規模言語モデル開発を開始

―NEDO「ポスト5G情報通信システム基盤強化研究開発事業」事業(注1)採択事業者に決定

 

 

東京大学大学院工学系研究科技術経営戦略学専攻 松尾・岩澤研究室(以下「松尾研」)は、この度経済産業省及び国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が開始する、国内の生成AIの開発力を強化するためのプロジェクト「GENIAC(Generative AI Accelerator Challenge)」において、基盤モデル開発に必要な計算資源の提供支援を受け、500億パラメータサイズの公開型基盤モデル開発に取り組むことをお知らせします。

本取り組みにあたっては、開発された大規模言語モデル(以下「LLM」)の公開のみならず、開発過程の公開、そしてこれらの成果を社会全体で共有することを通じ、日本全体のLLM開発の技術レベル向上と社会実装の加速を目指します。

 

発表の詳細

 本活動では、2023年8月に公開した100億パラメータサイズのLLM「Weblab-10B」の開発経験をベースに、東京大学松尾研究室が提供する大規模言語モデル講座(2023年8月開催、2000名以上が受講)の修了生及び一般公募によって集まった有志の開発者(⺠間企業・研究者・学⽣で構成)が、最新の研究成果や技術的な知見を取り入れ、開発を進めます。

 一般的にLLMの最適なモデル構造やハイパーパラメータは十分に分かっていないため、第1フェーズにおいては8チームに分かれて複数の研究テーマを設定し探索を行い、知見を共有しながら試行錯誤することで、実用的かつ効率的な手法を採用します。その後第2フェーズでは、最優秀に選ばれた1チームが500億パラメータサイズのLLM開発に取り組むことを予定しています。なお、本活動は、基盤モデルの開発評価の過程でWeights & Biases社のプラットフォームを活用した開発を進めていきます。

 松尾研では本活動に参加を希望される有志の開発者を募集しております。募集要項は下記ページをご確認ください。

 https://weblab.t.u-tokyo.ac.jp/geniac_llm

 

 本活動を通じて開発されたモデル・ソースコード・開発過程・ノウハウは、2024年4月以降、松尾研のホームページ等を通じ広く公開してまいります。これらの透明性の高いアプローチを通じ、社会全体の技術リテラシーの向上と産業界やアカデミアにおける応用を促進して参ります。

 

注釈

(注1)国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」事業。経済産業省が主導する基盤モデルの開発に必要な計算資源に関する支援や関係者間の連携を促す「GENIAC」プロジェクトの一環として採択事業者に一定の計算資源に関わる助成を行うもの。

GENIACの詳細はこちら:
https://www.meti.go.jp/press/2023/02/20240202003/20240202003.html
https://weblab.t.u-tokyo.ac.jp/geniac_llm

 

本件に関する問合せ先

東京大学 大学院工学系研究科 松尾・岩澤研究室
E-mail:pr@weblab.t.u-tokyo.ac.jp

【東大松尾研】2023年の活動報告

こんにちは、松尾研 広報チームです。 本郷キャンパスの銀杏並木も葉を落とし、すっかり冬景色に変わりました。 2023年も残すところ僅かということで、今年の松尾研の活動をまとめて振り返ります。   1.論文・活動実績 今年はICLR、ICMLを始めとする、下記の国際学会や論文誌などに採録されました。     ◆International Conference on Learning Representations (ICLR 2023) Interaction-Based Disentanglement of Entities for Object-Centric World Models 著者:​​​​​​​​​​​​Akihiro Nakano, Masahiro Suzuki, Yutaka Matsuo A System for Morphology-Task Generalization via Unified Representation and Behavior Distillation 著者:Hiroki Furuta, Yusuke Iwasawa, Yutaka Matsuo, Shixiang Shane Gu DiffusER: Diffusion via Edit-based Reconstruction…

Release of Weblab-10B: A 10 Billion-Parameter Bilingual Language Model Supporting Japanese and English

Press Release: Matsuo Laboratory, The University of Tokyo Release of Weblab-10B: A 10 Billion-Parameter Bilingual Language Model Supporting Japanese and English   ※ The following is a partial English translation of the press release issued on August 22, 2023. Please refer to the Japanese version for the original. Original: Press Release_2023/08/22   Tokyo, [2023/08/22] —…

Why is the AI lab conducting robotics research? Challenges in a new research field and future prospects

Although the Matsuo-Iwasawa Laboratory (hereinafter Matsuo Lab) is well known for promoting research on artificial intelligence (AI), many people may not know that it also focuses on robotics research. We interviewed Mr. Tatsuya Matsushima, who has been active in Matsuo Lab’s robotics research since he was a master’s student, and Mr. Yusuke Iwasawa, a Matsuo…

“It broadens my view and allows me to devote myself to long-term research.” Nine years at the Matsuo Laboratory, where change constantly happens

In this article, we would like to introduce Mr. Yusuke Iwasawa. Mr Iwasawa joined the Matsuo-Iwasawa Laboratory (hereinafter Matsuo Lab) during his doctoral program and has been conducting research since then in the roles of specially appointed researcher, assistant professor, and lecturer. In this article, we asked Mr. Iwasawa, who has been at the Matsuo…