世界から注目されるLLM研究の舞台裏。トップ研究者との議論が生まれる研究環境とは?

2020年に博士課程から松尾・岩澤研究室に所属した小島武特任研究員は、博士号取得後も研究室に残り、主にLLM(大規模言語モデル)の研究・開発に取り組んでいます。「Let’s think step by step」と指定することで、AIの正答率が高まるという発見をした小島さんの主著論文は、発表から2年足らずで2000以上(2024年5月24日現在)引用され、世界中のAI研究者から注目を集めました。100億パラメータサイズの大規模言語モデルの開発リーダーや経済産業省のGENIAC採択プロジェクトの開発支援チームリーダーとしても活躍する小島さんに、最新のLLM研究や松尾・岩澤研の魅力について聞きました。   著名なAI研究者たちとの共著論文を 手がける機会が訪れる研究室 —小島さんの代表論文である通称「step by step論文」は、発表から2年弱で2000以上の引用をされています。概要を改めて教えてください。 これは、松尾・岩澤研究室に加入した後、博士課程在籍時の2022年5月に発表した「Large Language Models are Zero-Shot Reasoners」というタイトルの論文です。LLM(大規模言語モデル)はゼロショットの多段階推論が可能であることをデータで示したものになります。     ゼロショットの多段階推論とは、LLMがプロンプト(指示)にFew-shot事例(いくつかの例題)がなくとも与えられた複雑なタスクをこなすことを指します。LLMから多段階の複雑な推論を引き出すためには、タスク特有のFew-shot事例が必要だと考えるのが、それまでの常識でした。しかし、膨大な知識を持つLLMに特別なプロンプトを与えることで、ゼロショット推論が可能になると私は考えました。 詳しくはこちら>> Large Language Models are Zero-Shot Reasoners 具体的には、「Let’s think step by step」というプロンプトを与えることで、LLMが事前学習していない新しいタスクでも論理的な推論を行える可能性を示しました。実験で使用したLLMは、GPT-3の後継であるInstruct GPT。これを使って、MultiArith(数学的な推論能力を評価するデータセット)の問題を解かせると「Let’s think step by step」のプロンプトを与える前後で、正答率が17.7%から78.7%に飛躍的に向上しました。GoogleのPaLMなど別のLLMでも同様の挙動を確認できました。 このアイデアを得たのは、Googleの研究者が2022年1月に発表した「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」という論文を知ったのがきっかけでした。LLMがFew-shotで似たようなタスクをこなせる可能性を示唆するもので、これならゼロショットでもできるのではないかと考えたわけです。まだ誰も手を付けていない領域だったこともあり、1〜2か月ほどで書き上げました。 詳しくはこちら>> Chain-of-Thought Prompting Elicits Reasoning in Large Language Models —この論文発表によって、小島さんの生活に変化はありましたか?…

Stabilizing Adversarial Invariance Induction from Divergence Minimization Perspective (IJCAI2020)

Sorry, this entry is only available in Japanese. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language. 国際人工知能会議(IJCAI2020)にて、このほど当研究室の論文 「Stabilizing Adversarial Invariance Induction from Divergence Minimization Perspective」(分布マッチングの観点からみた敵対的不変表現学習の安定化) が採択されました。 著者:岩澤有祐、阿久澤圭、松尾豊 論文リンク:https://www.ijcai.org/Proceedings/2020/271 主な著者である松尾研究室 特任助教 岩澤さんより、 論文の概要や採択までのエピソードについて解説してもらいました。 敵対的学習を用いた不変表現学習 今回の研究は、「不変表現学習」についてです。 表現の不変性とは、ある表現が特定の因子に対して独立であることを指す概念です。 不変性が重要な例として、監視カメラの動画から不審行動を検知するシステムを考えてみます。このシステムが、もし背丈などの身体的特徴に依存した予測をしていると、身体的特徴によって予測精度が大きくぶれる(ある特定のユーザ群にはうまく働くが,他のユーザ群にはうまく働かない)といった問題を引き起こす可能性があります。実際にシステムを活用する多くの場面では、未知のユーザに対してもうまく働くことが期待されるため、このような予測のぶれを防ぐために身体的特徴に依存しない情報(表現)を活用した判断をする必要があります。 あるいは、たとえば肌が黒い人がいるという情報を抽出し、それを判断の基準に利用することは、社会通念上問題になる場合があります。公平性の観点から、検知システムは肌の色に依存しないことが求められます。 しかし、表現学習の手法として近年よく使われる深層ニューラルネットワーク(以下、DNN)は、獲得した表現が、このように特定の因子に対し独立である(不変性を持つ)とは限りません。このような制約を、明示的にDNNの学習に組み込む技術が、「不変表現学習」と呼ばれる技術です。…