世界から注目されるLLM研究の舞台裏。トップ研究者との議論が生まれる研究環境とは?

2020年に博士課程から松尾・岩澤研究室に所属した小島武特任研究員は、博士号取得後も研究室に残り、主にLLM(大規模言語モデル)の研究・開発に取り組んでいます。「Let’s think step by step」と指定することで、AIの正答率が高まるという発見をした小島さんの主著論文は、発表から2年足らずで2000以上(2024年5月24日現在)引用され、世界中のAI研究者から注目を集めました。100億パラメータサイズの大規模言語モデルの開発リーダーや経済産業省のGENIAC採択プロジェクトの開発支援チームリーダーとしても活躍する小島さんに、最新のLLM研究や松尾・岩澤研の魅力について聞きました。   著名なAI研究者たちとの共著論文を 手がける機会が訪れる研究室 —小島さんの代表論文である通称「step by step論文」は、発表から2年弱で2000以上の引用をされています。概要を改めて教えてください。 これは、松尾・岩澤研究室に加入した後、博士課程在籍時の2022年5月に発表した「Large Language Models are Zero-Shot Reasoners」というタイトルの論文です。LLM(大規模言語モデル)はゼロショットの多段階推論が可能であることをデータで示したものになります。     ゼロショットの多段階推論とは、LLMがプロンプト(指示)にFew-shot事例(いくつかの例題)がなくとも与えられた複雑なタスクをこなすことを指します。LLMから多段階の複雑な推論を引き出すためには、タスク特有のFew-shot事例が必要だと考えるのが、それまでの常識でした。しかし、膨大な知識を持つLLMに特別なプロンプトを与えることで、ゼロショット推論が可能になると私は考えました。 詳しくはこちら>> Large Language Models are Zero-Shot Reasoners 具体的には、「Let’s think step by step」というプロンプトを与えることで、LLMが事前学習していない新しいタスクでも論理的な推論を行える可能性を示しました。実験で使用したLLMは、GPT-3の後継であるInstruct GPT。これを使って、MultiArith(数学的な推論能力を評価するデータセット)の問題を解かせると「Let’s think step by step」のプロンプトを与える前後で、正答率が17.7%から78.7%に飛躍的に向上しました。GoogleのPaLMなど別のLLMでも同様の挙動を確認できました。 このアイデアを得たのは、Googleの研究者が2022年1月に発表した「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」という論文を知ったのがきっかけでした。LLMがFew-shotで似たようなタスクをこなせる可能性を示唆するもので、これならゼロショットでもできるのではないかと考えたわけです。まだ誰も手を付けていない領域だったこともあり、1〜2か月ほどで書き上げました。 詳しくはこちら>> Chain-of-Thought Prompting Elicits Reasoning in Large Language Models —この論文発表によって、小島さんの生活に変化はありましたか?…

NEDOの採択を受け、公開型での500億パラメータサイズの大規模言語モデル開発を開始します。

東京大学松尾・岩澤研究室

日本全体の開発レベル向上を志し、

公開型での500億パラメータサイズの大規模言語モデル開発を開始

―NEDO「ポスト5G情報通信システム基盤強化研究開発事業」事業(注1)採択事業者に決定

 

 

東京大学大学院工学系研究科技術経営戦略学専攻 松尾・岩澤研究室(以下「松尾研」)は、この度経済産業省及び国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が開始する、国内の生成AIの開発力を強化するためのプロジェクト「GENIAC(Generative AI Accelerator Challenge)」において、基盤モデル開発に必要な計算資源の提供支援を受け、500億パラメータサイズの公開型基盤モデル開発に取り組むことをお知らせします。

本取り組みにあたっては、開発された大規模言語モデル(以下「LLM」)の公開のみならず、開発過程の公開、そしてこれらの成果を社会全体で共有することを通じ、日本全体のLLM開発の技術レベル向上と社会実装の加速を目指します。

 

発表の詳細

 本活動では、2023年8月に公開した100億パラメータサイズのLLM「Weblab-10B」の開発経験をベースに、東京大学松尾研究室が提供する大規模言語モデル講座(2023年8月開催、2000名以上が受講)の修了生及び一般公募によって集まった有志の開発者(⺠間企業・研究者・学⽣で構成)が、最新の研究成果や技術的な知見を取り入れ、開発を進めます。

 一般的にLLMの最適なモデル構造やハイパーパラメータは十分に分かっていないため、第1フェーズにおいては8チームに分かれて複数の研究テーマを設定し探索を行い、知見を共有しながら試行錯誤することで、実用的かつ効率的な手法を採用します。その後第2フェーズでは、最優秀に選ばれた1チームが500億パラメータサイズのLLM開発に取り組むことを予定しています。なお、本活動は、基盤モデルの開発評価の過程でWeights & Biases社のプラットフォームを活用した開発を進めていきます。

 松尾研では本活動に参加を希望される有志の開発者を募集しております。募集要項は下記ページをご確認ください。

 https://weblab.t.u-tokyo.ac.jp/geniac_llm

 

 本活動を通じて開発されたモデル・ソースコード・開発過程・ノウハウは、2024年4月以降、松尾研のホームページ等を通じ広く公開してまいります。これらの透明性の高いアプローチを通じ、社会全体の技術リテラシーの向上と産業界やアカデミアにおける応用を促進して参ります。

 

注釈

(注1)国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」事業。経済産業省が主導する基盤モデルの開発に必要な計算資源に関する支援や関係者間の連携を促す「GENIAC」プロジェクトの一環として採択事業者に一定の計算資源に関わる助成を行うもの。

GENIACの詳細はこちら:
https://www.meti.go.jp/press/2023/02/20240202003/20240202003.html
https://weblab.t.u-tokyo.ac.jp/geniac_llm

 

本件に関する問合せ先

東京大学 大学院工学系研究科 松尾・岩澤研究室
E-mail:pr@weblab.t.u-tokyo.ac.jp

Release of Weblab-10B: A 10 Billion-Parameter Bilingual Language Model Supporting Japanese and English

Press Release: Matsuo Laboratory, The University of Tokyo Release of Weblab-10B: A 10 Billion-Parameter Bilingual Language Model Supporting Japanese and English   ※ The following is a partial English translation of the press release issued on August 22, 2023. Please refer to the Japanese version for the original. Original: Press Release_2023/08/22   Tokyo, [2023/08/22] —…

Why is the AI lab conducting robotics research? Challenges in a new research field and future prospects

Although the Matsuo-Iwasawa Laboratory (hereinafter Matsuo Lab) is well known for promoting research on artificial intelligence (AI), many people may not know that it also focuses on robotics research. We interviewed Mr. Tatsuya Matsushima, who has been active in Matsuo Lab’s robotics research since he was a master’s student, and Mr. Yusuke Iwasawa, a Matsuo…

“It broadens my view and allows me to devote myself to long-term research.” Nine years at the Matsuo Laboratory, where change constantly happens

In this article, we would like to introduce Mr. Yusuke Iwasawa. Mr Iwasawa joined the Matsuo-Iwasawa Laboratory (hereinafter Matsuo Lab) during his doctoral program and has been conducting research since then in the roles of specially appointed researcher, assistant professor, and lecturer. In this article, we asked Mr. Iwasawa, who has been at the Matsuo…

知能の実現に本気で挑む。多角的な視点を有する、松尾研の研究環境とは?

Sorry, this entry is only available in Japanese. For the sake of viewer convenience, the content is shown below in the alternative language. 松尾研では「知能を創る」というビジョンを掲げ、研究を進めています。 前半では、知能を創る上で重要な研究テーマとなる「世界モデル」についてお伝えしました。後半である本記事では、松尾研の特任助教である鈴木雅大さんに、松尾研の研究環境やご自身の思いについてお伺いしました。(鈴木さんのインタビューは、前・後編の2回でお届けいたします。前編はこちら)     <知能を創る>という答えのない問い。多様な意見が議論の発展を促す。 ー 実際の研究環境についてお伺いしたいのですが、研究を推進する上での松尾研らしさとは何ですか? 基礎研究側からみた松尾研らしさは、なんといっても「<知能を創る>という情熱」と「多様性」です。 前者に関しては、松尾先生を含め、「知能を実現するためにどうすればいいか」を自由かつ真剣に議論できるところがとても特徴的です。人工知能系の研究をやる場合は、何か解くべき課題を見つけて、それについて取り組むという形が多いので、これは松尾研らしさと言えます。 後者に関しては、同じような考え方を持った人ばかりだと多様性が生まれないので 、異なる考えを受け入れることをとても重視していると思います。「知能を創る」ことへの情熱や世界モデルに対しての考え方など、根幹で共通してはいるものの、実は細かいところでは個々の意見が異なることも多々ありますし、時に松尾先生と意見が異なることもあります。 一般的な研究室だと、教授の示す方向に合わせる形で研究するか、あるいは完全にそれぞれが別々のことを研究するかに分かれることが多いです。ですが、松尾研では色々な考え方がありつつもこれが大事だという根幹の部分が共通しているという点で、結構珍しい研究室なのではないか?と思いますね。 ーなぜ松尾研の研究環境として多様性を重視しているのでしょう? 「知能がどうすれば実現できるのか」 という問いに、現時点で確実な答えがないからです。 知能を実現するための方法はまだ誰にもわからないので、メンバーで意見が完全に一致することは多くありません。ただ、そういった異なる意見が、議論の発展を促すのです。 これは同時に、人工知能という領域全体に当てはまる部分でもあります。例えば、自然科学の領域では世界がどのようになっているのかということがこれまでの研究の蓄積でかなり解き明かされているので、それをさらに発展させて「正解」に向かって研究を進めばいいんです。 でも、人工知能の領域では、人間のような知能を実現するということを達成した人はいないので、現在研究が進んでいる方向性が正しいのかは誰にもわかりませんし、知能について様々な考え方がある中で、どれが合っているのかを現在の我々が判断することはできません(※)。 そうした意味では、権威のある人の意見が必ずしも正しいとは限らないので、年配の研究者の方が若い研究者にリスペクトを持っているなと感じることも多いです。我々も当然、他の研究者の方々にリスペクトを持って研究を進めています。そういった風土を見ると、割とリベラルでいい研究領域だなと思っていますね。 ※ 厳密には知能も自然現象の一つなので「正解」があるはずです。しかし、それを解き明かすためには他の自然科学と同様に、仮説を立ててその仮説が正しいかを検証をする必要があります。これまで知能についての様々な仮説が考えられてきましたが、検証までできているものは殆どありません。理由としては、こうした知能仮説を検証する方法がこれまでになかったからです。近年の深層学習や世界モデルの発展によって、ようやく知能を創ることで知能を知るという「構成論的アプローチ」を取ることができるようになりました。そうした意味では、知能を解き明かす試みはようやく始まったところといえます。   「ロボットの実現には、まず知能が必要だ。」 人工知能研究へのこだわりの原点。 ー なぜ鈴木さんは「知能を創る」というビジョンに共感したのでしょう? 私自身が「人工知能を実現する」ということに強いこだわりを持っているからです。 私は元々ロボットに興味があったのですが、「知能を実現したい」と思った大きな転換点がありました。それは高校生の頃に二足歩行ロボットの動画を見たことです。 その動画ではロボットが「簡単に階段を降りられます」と言いながら、思いっきり階段を踏み外して転んでいて。転んでいるのにそのまま喋り続けている姿を見て衝撃を受けました。スタッフの人は それを見てすごく慌てて片付けようとしているけど、ロボットはずっと喋っているという。見た目はすごく人らしく歩いてるのに、頭はこんなに出来てないんだなと思いました。 これを見た時に「ロボットの頭、つまり人工知能を先にやるべきじゃないのか」と思い、大学(学部・修士時代は北海道大学に所属)では人工知能の研究をするために情報系の学科に入りました。  …

Interview with Professor Yutaka Matsuo: Thoughts on Basic Research at the Matsuo-Iwasawa Laboratory (Part 2)

Basic research is the origin of all activities of the Matsuo-Iwasawa Laboratory (hereinafter called Matsuo Lab).   This interview will present the thoughts of Matsuo Lab’s leader, Professor Yutaka Matsuo, on basic research. The interview is divided into Part 1 and Part 2. Part 2 will share the vision of the basic research team of the…

転移学習研究で汎用人工知能に挑む 特任助教熊谷さんインタビュー

過去に得た知識を応用する、「転移学習」の研究が進んでいます。
今回は、この領域を中心に研究を重ね、先日8月1日付で松尾研に特任助教として入職した熊谷 亘さんのインタビューをお届けします。
「転移学習とは、人間なら成長過程や日々の生活の中で当たり前に行っていること」と熊谷さん。少しずつ議論が進んでいる汎用型AIの中でも、なぜ転移学習に注目しているのか、話を聞きました。

問題を解く」とはどういうことか?

学部では、数学を学んでいました。その中で、「問題を解くとはどういうことか」と考えるようになり、「人間より頭のいいものをつくればいいのでは」と思ったのが、人工知能に興味を持ったきっかけです。数学に限らずですが、人間より頭のいい人工知能をつくれれば、世の中の問題を全部解けるんじゃないか、と。

当時はそのための手法もよくわからなかったので、ひとまず基礎的な方向へ進もうと、修士でも数学を専攻しました。ただ、修士から博士へと進む中でもAIへの興味は薄れず、むしろ第三次ブームの盛り上がりもあって、博士課程の後半では機械学習を集中的に勉強していました。その後、いくつかのポジションを経てAI研究を深めてきました。

松尾研に参画したのは、日本屈指のAI研究室ということはもちろんですが、汎用型AIを研究するメンバーが多く所属していることが大きいです。

AI研究では、たとえば「AlphaGo(アルファ碁)」に代表される、特化型AIの分野が先行してきました。私が主に関心を持っている汎用型AIは、まだそこまで研究が進んでいないので、その情報交換ができるのは自分にとって大きなプラスです。ほかにも各自が幅広い研究を進めているので、発展が早いAI研究領域について、最新の成果を追いやすい点も魅力です。

 

過去に得た知識を応用する「転移学習」

主に研究しているのは、大きなテーマとしては「AIの汎用性」です。中でも「転移学習」に特に興味を持って研究しています。

転移学習とは、「過去に得た知識を現在の問題に応用する方法を学ぶ」分野です。これは、人間が成長する過程で自然におこなっていることです。
たとえば、掛け算は足し算の概念を応用しています。「2×3は、2が3つあること」と考えることで、掛け算の概念をつかめますよね。人間は知識や経験を一般化、あるいは概念化して、次の機会に応用できる知恵として役立てることができます。

もし、この転移学習ができないと、人間は生きていくのがすごく難しいはずです。同じように、応用が利く汎用的なAIをつくるには、転移学習の実装が不可欠だと考えています。

さらに、転移学習の発展的分野の「継続学習」についても研究しています。
記憶に関する機能に特に注目していて、こちらも汎用的なAIにおいて重要な分野です。得た情報を血肉化して、維持するようなモデルですね。一般的には、AIは万能のように思われていますが、記憶はすごく苦手で、新しいことを学習すると前の知識をすぐ忘却してしまうんです。
学んだことを蓄え、必要なときに取り出して使うのも、人間には当たり前でもAIには難しいことのひとつです。

 

「適当に」「よしなに」への対応をアルゴリズムにするには

少なくとも人間くらいの能力があるAIをつくるために、人間の”賢くなっていくプロセス”の中でいちばん重要そうなところはどこかと考えた結果、「過去の知識を積み上げて今に活かす」ことに思い至りました。

特化型AIなら、その分野なら高難易度の問題も解けますが、基本的な知識を積み上げて応用することをAIで実現するには、まだ道筋が立っていません。「散らかった部屋を適当に片づけておいて」とか、「このメールに、よしなに返信しておいて」といった指示を理解して適切に対応するのをアルゴリズムに落とすのは、極めて難しい。

そうしたことができる、転移学習が可能な汎用的なAIをつくれるまでには、まだ3合目くらいでしょうか。先が長いですが、たとえば一昨年に松尾先生が登壇されたカンファレンス(一般社団法人新経済連盟主催「新経済サミット 2018」(NEST2018)※)で転移学習が取り上げられるなど、注目は高まっています。

※参考:Biz/Zineセミナーレポート(2018)「東大 松尾氏、楽天 森氏、ABEJA 岡田氏らが語る、“ないない尽くし”の日本で注目すべき3つのAI技術」

具体的には、各病院をまたいで診療データを学ばせることで、汎用的に使えるモデルを作成するということができるかもしれません。

使える診療データが多ければ、ディープラーニングによって、一定の疾病を推測して診断するモデルの構築は可能です。ただ個別の病院だとデータ量が足りず、プライバシーの問題があるので病院をまたいだデータの持ち出しはできません。また、各病院も高齢者が多かったり小児科中心だったり、都心か地域かなどによっても患者さんにばらつきがあります。

そうした揺らぎの許容を含めて、各病院からデータは持ち出さずに知見だけを得て、次の病院に行くことを繰り返してだんだん賢くなる……というAIを転移学習で可能になると考えています。
考えてみれば、研修医が各病院で経験を積む過程もデータは持ち出さないので、転移学習をしているわけですよね。過去の例を信じすぎない、という点も重要だったりします。

 

知識や記憶を応用できるAIの構築に向けて

今後は、汎用的なAIに関する基礎理論を、より強固にしていきたいです。現在は汎用AIの構築に向けたさまざまな手法やアーキテクチャが提案されていますが、理論的に「なぜそれが知的に振舞うのか」「そもそも知性とは何か」といった部分の議論がまだ十分ではないと感じています。

「知性とは」という問いは、哲学的に議論する方向もありますし、個人的には興味がありますが、研究としては工学的に捉えて掘り下げていきます。「汎用的なAIを実際にプログラムして構築する」ために必要な要素を抽出して、工学的に再現することを目指します。

最近では「汎用人工知能研究会」が活性化したり、専門書の出版が相次いだりしています。人間のような知能や知性を持って応用が利くAI、というと、以前は夢物語のような印象を持たれていましたが、具体的な議論が進んできました。その流れの中で、転移学習や継続学習を深めていきたいです。

 

若手研究者やAI研究に興味がある学生へメッセージ

AI研究が扱う領域はとても広く、どんなバックグラウンドの方もやる気次第でまだまだ研究できる余地があります。私も博士課程までは異なる分野にいたので、今からも遅くありません。興味がある方は、ぜひ飛び込んでみてください。

【プロフィール】
熊谷 亘(くまがい・わたる)
学部と修士課程では数学を専攻。2013年 東北大学大学院 情報科学研究科 博士課程修了。名古屋大学 学振PD、神奈川大学 工学部 特任助教、理化学研究所 革新知能統合研究センターの研究員を経て、2020年8月に松尾研に特任助教として参画。