「世界モデル」とは何か？知能の実現に向けて、松尾研が研究を推進する理由。

松尾研では「知能を創る」というビジョンを掲げ、研究を進めています。
本記事では知能を創る上で重要な研究テーマとなる「世界モデル」について、松尾研の特任助教である鈴木雅大さんにお伺いしました。
（鈴木さんのインタビューは、前・後編の2回でお届けいたします。後編はこちら）
※肩書きは取材時のもの・現在は特任講師

世界を「直感的」に理解する世界モデルは、真の知能の実現において必要不可欠。

ー「世界モデル」の説明をお聞きする前に、なぜ松尾研は「世界モデル」の研究を推進しているかを教えてください。

松尾研では「知能を創る」というビジョンを掲げており、世界モデルが真の知能の実現において必要不可欠だからです。
世界モデルについては後ほど詳しくご説明しますが、「外界（世界）から得られる観測情報に基づき外界の構造を学習によって獲得するモデル」を指します。

我々は、世界モデルが知能のベースにあって、その上に様々な知的な機能が実現できると考えています。
これは松尾先生が使っていた言葉ですが、世界モデルは「子供の知能」にあたります。
つまり、親から教えられなくても、外界と相互作用して世界がどういうものかを「直感的」に理解するのです。
これができて、ようやく我々のような「大人の知能」、すなわち数学の問題を解いたり片付けをしたりといった高度な知的行動を実現する人工知能を作り始めることができます。

これまでの知能研究を振り返ると、古典的な人工知能（古き良き人工知能（Good Old Fashioned AI；GOFAI）とも言われます）では、
最初から探索や推論といった高度な「大人の知能（賢い知能）」を実現しようとしていました。
それがなぜ失敗したかというと、これらの知能が「世界」について「無知」だったからです。

そのため、計算機上では非常にうまくいったアルゴリズムも、現実環境では全く動かないということがよくありました。
計算機上だけで動く知能でよければこれで十分かもしれませんが、我々の現実世界で動作し、我々をサポートしてくれるような人工知能を実現するためには、
まず世界について自分なりに理解する、すなわち世界モデルを獲得する必要があるのです。

「予測」と「推論」により、効率的な制御学習が可能に。

ー世界モデルによって何ができるようになるか、詳しく教えてください。

先述の通り、世界モデルは「外界（世界）から得られる観測情報に基づき外界の構造を学習によって獲得するモデル」です。
なお、ここでの観測とは、画像をはじめ、音声、文書など外界から得られる様々な種類の情報のことです。これらを学習することで大規模な外界のモデルを作るというのが世界モデルの重要な点です。

世界モデルを持つことによって、大きく分けて「予測」と「推論」の2つが実現できます。

1つ目の予測とは、現在の観測から将来や未知の観測を予測することです。

例）グラスが地面に叩きつけられると割れてしまうと「予測」する

例えば、部屋の一部を切り取った画像から部屋の全体像を予測したり、物体の落ちる様子から数秒後にどこに落ちるかを予測したりすることが挙げられます。
また行動と結びつけて、「こう行動したらこうなるだろう」といった現実では起こっていない予想をすることもできます（一般的には行動と結びつく場合に世界モデルと呼ぶことが多いです）。

2つ目の推論とは、外界からの観測から、外界の「表現（※ 潜在変数や状態表現といいます）」を獲得することです。

例）机の一部を見て、机の全体を「推論」する

ここでの表現とは、画像や音声など高次元の観測を空間・時間方向に圧縮し、外界全体をコンパクトに表すようなものです。
例えば部屋の一部の画像を観測すると、「誰かの部屋」のような部屋全体の概念的な表現を獲得することができます。また、こうした表現を獲得することで、表現の中でより素早く高性能な予測を行うことができます。

我々が将来を予測したり計画したりするときは、常に観測レベルでの変化を考えているわけではありません。
例えば、数学の問題を解くときには、回答用紙の上に文字を書くためにどのように腕や手を動かすかといったことは考えません。また将棋をする場合に、相手の駒の動きを予測するために視覚上での駒の細かい角度や位置の変化（さらには相手の手の細かい動き）まで考えているわけではありません。その代わり我々は、「数式」や「盤面の駒やその位置」のような概念的な表現を視覚情報から世界モデルによって頭に思い浮かべ、その概念の操作や変化を考えるのです。
つまり、それぞれのタスクについて良い表現（数学だったら数式、将棋だったら盤面の駒やその配置）を推論できることで、将来のより良い予測や計画にも役立てることができるのです。

ー世界モデルを取り入れると、どのような利点があるのでしょうか。

こうした予測や推論が可能な世界モデルを得ることは、人工知能にとって様々な利点があります。

まず、自由に世界を予測可能なモデルが手に入ることで、動かしすぎると故障してしまう恐れのあるロボットなどの制御を学習する際に、世界モデルによるシミュレーション上で何回でも学習を行うことができます。これは、人間のイメージトレーニングに例えられます。また、良い表現を推論し、その上で計画を立てたり制御方法を学習することで、それらの性能をより高めることもできます。

さらに、深層学習によって世界モデルを学習するということは「微分可能な世界のモデル」を獲得することになります。これによって制御の学習を非常に効率的にすることができます。

上記のような世界モデルの考え方は、実は以前からありました。

行動を伴う制御の場合ですと、内部モデルとして以前から検討されていましたし、認知心理学ではメンタルモデルとして検討されていました。
しかしながら、これらを実際に画像や文書から直接学習して表現を獲得できるようになったのは、深層学習の研究が進んだ最近のことです。

世界でも注目度の高い研究。今後の課題は、範囲を限定した効率的な学習。

ー世界モデルへの社会の注目度は高いのでしょうか？

世界モデルという用語は、今では当たり前になっています。深層学習の領域で近年急速に研究が進められており、人工知能研究の大家の1人であるYann LeCun先生が「次のAIに向けた重要な研究である」と指摘している通り、今後の人工知能の鍵となるトピックとして注目されています。

DeepMindやGoogle Brainなども世界モデルの研究に注力し、論文も多数出ているため、この技術発展による社会的なインパクトは大変大きなものになると予想します。

ー世界モデルの研究を進める上での課題はなんでしょう？

世界モデルの大きな課題の一つは、限られた観測範囲でどのように予測が可能な高性能のモデルを学習するかということです。

一般的には、単純に「世界がどうなるか」をモデル化するのではなく、行動や視点といった情報を入力とすることで「世界に対して何をしたらどうなるのか」ということをモデル化します。現実の世界を丸ごとモデル化することは不可能なので、範囲を限定し、効率的な学習を目指すのです。

最近は基盤モデルのような、任意の入力（プロンプト）に対して非常に性能の良い出力ができるような大規模モデルが出てきているので、これを環境の学習に応用することで、こうした学習に関する問題は解消しつつあるかもしれません。他にも、時系列情報の推論方法、記号情報との統合、複数の種類の観測を利用した世界モデルの構築など、本質的に解くべき課題がいくつも残っています。

知の体系化からロボット応用まで。松尾研における、世界モデル研究の推進。

ー松尾研は世界モデル研究をどのように推進していますか？

松尾研では世界モデルにおいて、基礎研究だけでなく、知識を体系化を目的とした人材育成のための講義や、実世界での知能の実現を目指したロボットの研究も進めています。

知識の体系化という観点では、世界モデルの研究開発や教育活動の推進を目的に「世界モデル・シミュレータ寄付講座」を2021年度より開講し、世界モデルについての知識を体系的に学べる（恐らく）世界初の講義を立ち上げました。
その他にも、人工知能学会全国大会で世界モデルのオーガナイズドセッションを企画したり、NEUROでの世界モデルワークショップの開催、いくつかの論文誌での世界モデルに関する特集号の開催など、世界モデル研究の推進のための様々な活動を行っています。

ロボット研究という観点では、世界モデルのロボティクスへの応用・実装に向けて、お片付けロボットや柔軟物操作などのテストベットの構築など、
多様な環境・タスクに適応できる学習手法を開発し、スケール可能なサービスロボットシステムを構築する方法の体系化を目指しています。

このように松尾研では、「知能を創る」というビジョンの実現に向けて「世界モデル」の研究・推進をしています。少しでもご興味のある方は是非、カジュアル面談でお話しましょう。

＜プロフィール＞

鈴木雅大 / 東京大学松尾研究室特任助教

経歴

2015年3月北海道大学情報科学研究科修了
2018年3月東京大学工学系研究科修了
2018年4月〜2020年7月東京大学工学系研究科特任研究員
2020年8月〜東京大学工学系研究科特任助教
その他兼業︓株式会社デンソー技術アドバイザー，立命館大学客員研究員

専門分野

転移学習・深層生成モデル・マルチモーダル学習

受賞歴

情報処理学会論文賞，情報処理学会論文誌ジャーナル特選論文，
人工知能学会全国大会学生奨励賞，WBAI奨励賞，
東京大学工学系研究科⻑賞（研究）など．

その他の活動

「Deep Learning基礎講座」，「深層生成モデル」，「世界モデルと知能」などの講義担当
「深層学習」「強化学習」の監訳（翻訳取りまとめ）・分担翻訳

==============================================

後半記事では、松尾研の研究環境や求める人物像についてお伝えします。
ぜひ併せてお読みください。

◆知能の実現に本気で挑む。多角的な視点を有する、松尾研の研究環境とは？（後編）

★松尾研の特任研究員・特任助教・特任講師の募集はこちら
★【松尾研特別企画】「世界モデルの全貌と応用可能性」（2022年12月13日(火) 開催）に鈴木雅大が登壇します。詳細はこちら
★ロボットチームではアドベントカレンダーを開催しています！

「世界モデル」とは何か？ 知能の実現に向けて、松尾研が研究を推進する理由。