世界から注目されるLLM研究の舞台裏。トップ研究者との議論が生まれる研究環境とは？

2020年に博士課程から松尾・岩澤研究室に所属した小島武特任研究員は、博士号取得後も研究室に残り、主にLLM（大規模言語モデル）の研究・開発に取り組んでいます。「Let’s think step by step」と指定することで、AIの正答率が高まるという発見をした小島さんの主著論文は、発表から2年足らずで2000以上（2024年5月24日現在）引用され、世界中のAI研究者から注目を集めました。100億パラメータサイズの大規模言語モデルの開発リーダーや経済産業省のGENIAC採択プロジェクトの開発支援チームリーダーとしても活躍する小島さんに、最新のLLM研究や松尾・岩澤研の魅力について聞きました。

※肩書きは取材時のもの・現在は特任助教

著名なAI研究者たちとの共著論文を
手がける機会が訪れる研究室

—小島さんの代表論文である通称「step by step論文」は、発表から2年弱で2000以上の引用をされています。概要を改めて教えてください。

これは、松尾・岩澤研究室に加入した後、博士課程在籍時の2022年5月に発表した「Large Language Models are Zero-Shot Reasoners」というタイトルの論文です。LLM（大規模言語モデル）はゼロショットの多段階推論が可能であることをデータで示したものになります。

ゼロショットの多段階推論とは、LLMがプロンプト（指示）にFew-shot事例（いくつかの例題）がなくとも与えられた複雑なタスクをこなすことを指します。LLMから多段階の複雑な推論を引き出すためには、タスク特有のFew-shot事例が必要だと考えるのが、それまでの常識でした。しかし、膨大な知識を持つLLMに特別なプロンプトを与えることで、ゼロショット推論が可能になると私は考えました。

詳しくはこちら>>
Large Language Models are Zero-Shot Reasoners

具体的には、「Let’s think step by step」というプロンプトを与えることで、LLMが事前学習していない新しいタスクでも論理的な推論を行える可能性を示しました。実験で使用したLLMは、GPT-3の後継であるInstruct GPT。これを使って、MultiArith（数学的な推論能力を評価するデータセット）の問題を解かせると「Let’s think step by step」のプロンプトを与える前後で、正答率が17.7％から78.7％に飛躍的に向上しました。GoogleのPaLMなど別のLLMでも同様の挙動を確認できました。

このアイデアを得たのは、Googleの研究者が2022年1月に発表した「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」という論文を知ったのがきっかけでした。LLMがFew-shotで似たようなタスクをこなせる可能性を示唆するもので、これならゼロショットでもできるのではないかと考えたわけです。まだ誰も手を付けていない領域だったこともあり、1〜2か月ほどで書き上げました。

詳しくはこちら>>
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

—この論文発表によって、小島さんの生活に変化はありましたか？

この論文を発表した後の2022年11月末にChatGPTが登場し、「プロンプトエンジニアリング」が大きな話題になりました。こうした文脈で語られるLLM活用研究の源流のひとつを提示できたのではないかと自負しています。また、論文は世界中の多くの研究者に引用いただくことになり、国内外の学会でこの論文を名刺代わりに関係者との会話が弾むような機会も増えましたね。ただ、改めて思うのは、このアイデアは松尾・岩澤研究室にいたからこそ思いついたものだということです。
松尾・岩澤研では、普段からSlackを使って、メンバーが興味ありそうな新しい論文などを頻繁に共有したりしています。step by step論文のアイデアを着想した際も、週次のオンライン会議で最近考えている研究テーマについて報告をしたら、関連する先行研究を岩澤先生がSlackで共有してくれました。すると、リードマシェルオニール先生（現在はGoogle Brain所属）が、それに乗っかるかたちで、最近出たばかりの「Few-shot CoT（Chain-of-Thought）」の論文をSlackで共有してくれて、それを読んで衝撃を受けて、step by step論文の方向性が決まりました。

そこから試行錯誤をとにかくたくさん繰り返すことになります。当初は複雑な推論のフォーマットを人間が設計する（つまり人手でzero-shotを組み合わせて問題解決まで導く）方向性で試行錯誤していたのですが、さまざまなアイデアを試してことごとく失敗し尽くします。もう何もないぞとなったときに、複雑な思考回路は、人間ではなくてLLM自身に考えさせればいいのではと思い、「Let’s think step by step」というフレーズがふと降りてきて、ダメ元で試したらうまくいきました（笑）。

その後、初期実験の結果を週次のオンライン会議で報告すると、岩澤先生から面白いですねと言っていただき、当時現在OpenAIに所属していたシェイン・グウ先生（現在はGoogle DeepMind所属）にも声かけしてくれて、とんとん拍子で共著論文の話が進みました。このように、世界レベルの研究者と日常的にコミュニケーションを取っていたからこそ、駆け出し研究者として一番大事な時期に、一番ホットな論文を目にすることができました。「Chance favors the prepared mind（幸運は用意された心のみに宿る）」ではないですが、しっかり準備した上で、いいポジションを取ることの重要性をここで実感しましたね。

学部は国際関係学、修士は経済学という文系出身

—松尾・岩澤研究室に所属するまでのご経歴を改めて教えてください。

私は、2020年に博士課程から松尾・岩澤研究室に所属しました。当時は、Peach Aviation株式会社に勤務している会社員で、AIエンジニアとして主にデータベース開発の仕事をしていました。

学部時代は国際関係学を専攻していました。実は文系出身です。新卒でNECの関連会社のSE職に就き、主にSQLなどを用いた企業内のデータベース管理の仕事をしていました。エンジニアとしてのキャリアはここがスタートです。その後、2014年から京都大学の大学院修士課程に進学します。ここでも専攻は経済学でした。やっていたのは、計量経済学のモデルを使った実証分析で、データ分析を用いた中国経済をテーマにした修士論文を書きました。重回帰分析など、データサイエンスの手法をここで本格的に身につけましたね。

—ディープラーニングとの出会いは、どういうタイミングになりますか？

大学院の修士課程在籍中の最後のほうですね。「なんだか面白い技術が出てきたぞ」みたいな感じで。その後、個人的に興味を持って、会社員時代に独学でディープラーニングの知識を習得していきました。
松尾先生と最初に話をしたのは、2019年です。この年に新潟で開催された人工知能学会（JSAI）全国大会での発表のため現地に行っていたんです。私はもちろん松尾先生のことを知っていたので、懇親会でご挨拶して、「ディープラーニングの基礎研究に興味があります」と伝えたところ、「それならば」と岩澤先生を紹介されて、そのまま2次会にも参加させてもらって……という感じだったと記憶しています。後日、改めて博士課程で研究をしたいと伝えたところ、規定の試験を受けて、正式に博士課程の学生として基礎研究に参画することになりました。

豊富な計算資源と、他領域からもインスピレーションを受けられる研究環境

—博士課程時代の松尾・岩澤研究室は、どのような印象でしたか？

やはり新たな技術によって社会課題を解決したいという強い意識を持つ学生が多い印象を受けました。あと、私はもともと文系で、修士課程まで研究ってひとりでやるものと思っていたのですが、松尾研はぜんぜん違いましたね。チームでの研究が基本で、Slackなどのツールを使ったメンバー間のコミュニケーションの機会がとにかく多い。そして、やりとりを通じて感じる熱量もすごい。松尾研出身のベンチャー起業家の先輩たちとの接点もできて、とにかく日々、刺激の宝庫でしたね。

さらに、物理的な面では、計算資源が豊富にあるところに驚きました。研究室内にオンプレ（自前）のサーバがあって、専属のインフラチームもいる。さらに、産総研のABCI（人工知能処理向けクラウド計算インフラ）を活用したプロジェクトもある。研究室レベルでここまでできる組織は、他大学にはなかなかないと思いますね。

—博士課程修了後、研究室に残る決断をした理由は？

シンプルに基礎研究が面白いから続けたいと考えました。もちろん企業に所属してAI研究に携わる選択肢もありましたが、純粋な好奇心に従った研究ができるのはアカデミアの強みだと考えました。慣れ親しんだメンバーと一緒に課題に挑む一体感にも魅力を感じ、2023年4月から特任研究員として、松尾・岩澤研究室のメンバーになりました。

松尾・岩澤研究室の強みは、「許容度の広さ」にもあると思っています。どういうことかというと、ディープラーニングの基礎研究だけでなく、ロボティクスや認知科学の研究チームもあって、自然言語処理から画像認識、深層生成モデルまで幅広い研究に触れられる環境があります。

通常の研究室は、「自然言語処理」「画像生成」といった専門研究に特化していきますよね。一方、松尾・岩澤研は1研究室レベルで学際的な研究ができるので、研究者によっては、これが大きなメリットになります。例えば、私は最初、自然言語処理の研究をメインに行っていたのですが、隣で研究していたメンバーの画像処理の研究発表からインスピレーションを受け、画像認識の新しい研究を始めて成果を出すことができました。

抽象的な話になりますが、研究者ってひとつの穴にハマりがちなのですが、視野を広げる機会を得ることで突破口が見えるケースもあります。道草って大事なんです。企業で効率だけを求めてAI研究をしているとこういうことは起きませんよね。

100億パラメータサイズの日本語LLMを、自らの手で開発

—2023年4月に松尾・岩澤研究室の特任研究員になってからは、どのようなミッションに取り組んできましたか？

2023年4月にいきなり声をかけられたのが、「Weblab-10B」の開発でした。これは、松尾研発のLLMをつくるプロジェクトで、100億パラメータサイズ・日英2か国語対応という国内最高水準（当時）の日本語大規模言語モデルの実現を目指すものでした。

話を聞いたときは、正直戸惑いました。いままでLLMを使う研究をしていたところに、いきなりLLMをつくってくれと言われたわけです。ただ、不安よりも「面白そうだな」という気持ちが勝りましたね。LLMをフル活用してもわからないことが、つくってみたらわかるような気がしたんです。

ただ、結論としては、LLMをつくってみても中身はわからない（笑）。「つくること」と「わかること」は違うのだと思い知らされました。研究者の私から見るLLMとは、未知の惑星からきた新生物のようなものです。なので、まずは細かく観察して、人間の複雑な思考をどのように実現しているのかを理解しようとしているわけです。

—自らの手でLLMをつくってみて得られた新たな知見はありますか？

「結局、中身はわからない」と申し上げましたが、わかったことも数多くあります。例えば、Weblab-10Bでは、日本語・英語の2言語を同時にバイリンガルで学習させて、その後、主に英語でファインチューニングしました。その結果、英語だけでなく日本語タスクに対する性能向上が見られ、言語間の知識転移が確認されました。このような知見が、後述する多言語大規模言語モデルの内部挙動の研究へのモチベーションにつながりました。

技術的な面で得た知識もたくさんあります。現代のLLMを構築するためのパイプライン（一連の作業）を経験できたことは研究者として得がたい価値があります。博士課程時代も大規模サーバを使って機械学習をした経験はありますが、複数サーバをつないでマルチノード学習をこなすようなプログラムを書くのはまったく別の難しさがありました。

実際、100億パラメータサイズのLLMをスクラッチで開発するには、多大なコストもかかります。東工大のSwallow（日本語LLM）などもMeta社のLlama 2をベースにしているので、コスト面では同じモデルサイズでも数倍程度の差があります。こうした巨大なスケールの研究に挑戦できることも松尾・岩澤研究室の大きなメリットだと思いますね。

多言語処理やトークン圧縮など、LLMの新たな研究テーマに挑む

—2024年に入ってからは、GENIACの採択プロジェクトにも参画していますね。

GENIAC（Generative AI Accelerator Challenge）は、経済産業省及びNEDOが主導するAIの基盤モデル開発プロジェクトで、東大松尾・岩澤研究室もメンバーになっています。このGENIACに採択された500億パラメータサイズのLLM開発プロジェクトで、開発支援チームのリーダーとして、技術面のサポートをしています。Weblab-10Bの開発で得た知見を次世代に継承するのが私のミッションだと考えています。

また、最近はUnderstanding and Controlling LLM（UCLLM）というリサーチグループを立ち上げて、インターン学生を含む多くのメンバーと研究活動を行っています。メンバーは現在約15名（2024年5月時点）。学生が過半数で、兼業をされている社会人の方もいます。

ここでは、LLMに関する研究と開発の両方を行っています。前者に関しては、LLMの飛躍的な性能発展の理由を追究するため動作原理理解を主眼においた研究、Unlearning・Bias・Hallucination（※）といった社会的リスクに関する研究、大規模言語モデルによる大規模言語モデルの開発の研究などを推進しています。2023年12月頃から本格的に立ち上げた活動ですが、すでに研究成果が出て国際学会に投稿済み（結果待ち）のものもあります。
※Unlearning=学習済みのAIから学習した内容の一部を取り除く技術、Bias=AIの学習内容に人的バイアス（偏り）がかかる問題、Hallucination=AIが事実と異なる出力をする問題など、AI研究者が向き合うべき新たな課題が顕在化している。

後者に関しては、前述のGENIACプロジェクトでの開発支援がこれにあたります。LLM開発を一気通貫で行うための標準化コードを構築し、公開しました。コンペでいくつかのチームがこの標準コードをベースとして開発をしてくれています。

GENIACのプロジェクトには、東大生、他大学の学生、研究者、企業勤務の社会人など、さまざまな人が関わっています。また、UCLLMに参加しているインターン学生も研究室以外のメンバーが多数います。これらの研究に興味がある方は、ぜひインターンの募集にご応募いただきたいですね。研究室にいると麻痺してしまいがちですが、こうした外部の優れた人々と知り合う機会が豊富にあるのも松尾・岩澤研究室で研究をする大きな魅力でしょう。

—今後、LLM研究者としてなし遂げたい目標はありますか？

Weblab-10Bの開発を経て、LLMの多言語処理に強い興味が出てきました。GPT-4など、現代のLLMは多言語でも優れた出力が可能です。その理由として、言語モデルを支えるニューラルネットワークの最初と最後の層に言語特有のニューロンが集中していることを発見しました。最新の論文では、英語、ドイツ語、フランス語、スペイン語、中国語、日本語の6言語を分析し、各言語のニューロンがテキスト出力にどのような役割を果たしているかをさまざまな実験で明らかにしています。

詳しくはこちら>>
On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons

もうひとつは、長文化してしまったLLMのプロンプティングを圧縮できないかという問題意識を持っています。「step by step 論文」は、LLMの新たな活用法を見出した半面、段階的な処理をするために長大なプロンプトを作成する手法を提示した側面もあります。例えば、1000文字の長文を読み込ませるのもプロンプトのひとつですよね。これを3文字に圧縮して読み込ませることで、計算効率を上げるような方法があるのではないかと考えています。トークン圧縮の技術は、LLM研究のトレンドのひとつです。

—最後に、未来の仲間へのメッセージをお願いします。

LLM開発は、今や「スケール則（Scaling Laws）」の戦いです。これはパラメータ数、学習量、計算量の増加によって、LLMの性能も同じスケールで向上するというシンプルな法則です。つまり、GoogleやOpen AIのような企業組織が、巨大な資本を武器に圧倒的な戦いをする世界になっています。しかし、アカデミアの世界にしかできないことも必ずあります。自分の問題意識や研究課題を突き詰めて考え、解決するまで決して諦めないようなメンタリティの人がいれば、ぜひ一緒に研究をしたいですね。文系も理系も関係ありません。大切なのは情熱です。松尾・岩澤研究室で、研究者としての新たな可能性を追究しましょう。

このように松尾研では、「知能を創る」というビジョンの実現に向けて、LLMの研究を推進しています。少しでもご興味のある方は是非、カジュアル面談でお話しましょう。

★松尾研の特任研究員・特任助教・特任講師の募集はこちら