• Home
  • ニュース
  • 松尾研リサーチインターン体験記 vol.9 【世界モデル】メタ強化学習と方策勾配法に関する基礎研究
  • 松尾研リサーチインターン体験記 vol.9 【世界モデル】メタ強化学習と方策勾配法に関する基礎研究

    松尾・岩澤研究室では,「知能を創る」というミッションのもと、世界モデルをはじめとした深層学習やそれを超える基礎技術の開発、ロボティクスや大規模言語モデル、アルゴリズムの社会実証といった幅広い研究領域で活動しています。

    こうした活動を更に拡大するため、リサーチインターンシップを開催し、15名の方にご参加いただきました。

    ▼リサーチインターンシップ概要
    https://weblab.t.u-tokyo.ac.jp/news/20240417/

    ▼インターンテーマ/メンターの紹介記事
    https://weblab.t.u-tokyo.ac.jp/news/20240426/

    本記事では、リサーチインターンに参加いただいたメンバーの体験記をご紹介します。


    ·   自己紹介/self-introduction

    総合研究大学院大学(統数研)の博士課程に所属している清水瑛貴です。カーネル法やベイズ推論に関連する研究を行っています。メンターのPaavo Parmasさんとは国内の学会などで話す機会が何回かあり、以前から非常に興味深い研究をしていると思っていました。Paavoさんと研究できるサマーインターンがあると知り、また松尾・岩澤研究室の研究環境等にも興味があったため、応募をしました。結論から言うとかなり充実した環境で、特にPaavoさんはインターン期間終了後も丁寧に指導してくださり、トップ国際学会に提出する(現在は査読中)レベルに研究内容を磨くことができました。

    ·   研究内容/About research

    Evolution Strategies(ES)という手法に関連した研究を行いました。ESは実は歴史が深くて色々な手法がありますが、近年では深層強化学習やLLΜに関連したタスクでも応用されているようです。ESの一つ目の側面としては、陽に微分できないブラックボックス関数の最適化手法です。歴史的には、こちらの側面で色々な発展がされてきていて、CMA- ESという手法がかなり有名です。2つ目の見方としては、勾配のモンテカルロ(MC)サンプルを用いた近似手法です。強化学習などの文脈でREINFORCE MC gradient estimatorとして知られていますが、似たような形は色々なところで出てきてかなり応用や汎用性が高いです。

     今回は、後者の側面が中心になっており、以下のようにシンプルな形で勾配をMCサンプルで近似することを考えます。

     ここで重要なことは、目的関数は微分する必要なく、評価さえできれば勾配が近似できることです。また、正規分布によってsmoothingされた目的関数をderivative-freeに最適化していると見ることもできます。例えば、下図の左側では、グネグネしている関数を滑かにすることで、局所最適に陥ることなく最適化ができています。

     しかし、高次元では正規分布のサンプルは石鹸の泡のように、超球面の表面に集中することが知られています。この性質が、高次元でのsmoothingの能力を下げてしまうのではないかというのが、このプロジェクトの仮説になります。実際に、下図で同じ関数でも次元を1000次元にすると、うまくいってないことが分かります。


    図:ある多次元の関数の最適化に関してある1次元を切りとった図。左の10次元では正規分布を用いた手法GaussESは関数を滑らかにしてうまく最適化ができるが、右の1000次元ではうまくいっていない。提案手法のDirGGは高次元でもうまく最適化ができている。

     そこで提案手法では、下図の左側のようなサンプリングをもとにしたESを提案しました。まずは中心からunit sphere上へのベクトル(赤の矢印)をサンプルして、その後に距離の分布(青色)からサンプルします。実は、分布がカイ分布で、自由度が次元と一致する場合は、正規分布からのサンプルと一致します。感覚的には、自由度のパラメータが大きくなるほどがシャープな形になり、パラメーターを調整することでより平らになど色々と形を操作することができます(下図の右側)。提案手法では、カイ分布を含む一般化ガンマ分布の場合でESの勾配推定法を導出しました。また、分布のパラメーターの値によっては勾配の分散が大きくなってしまうことを示して、勾配の分散を削減する手法も提案しました。さらに、形がsharpな分布と平らな分布でsmoothingが得意な設定と苦手の設定(トレードオフ)があることを、フーリエ解析のような解析で明らかにしました。これをもとに、2つの設定でバランスを取れるような分布のパラメーターを見つけました。

    図:(左)提案手法で用いたサンプリング (右)正規化された分布がカイ分布(次元が1000の正規分布に相当)の場合(青色)と、異なるパラメーターの一般化ガンマ分布の場合

     最後に、ESを用いた深層学習関連のベンチマークで実験をしました。以下は、結果の抜粋ですが、強化学習などのタスクで、比較手法と比べてパフォーマンスの向上が見られました。論文が採択されるなどして公開されたら、興味がある方は細かい手法の部分や実験結果を見ていただければと思います。

    図:実験結果の抜粋 (左)VAEの学習 (右)強化学習のタスク。どちらの場合においても比較手法のGaussESに比べて提案手法のGG/ISC/ISLが良いパフォーマンスを示した

     ·   最後に/Closing

    メンターのPaavo Parmasさんには、提案手法の細かいところから実装、実験、論文の執筆と全てのフェーズで大変お世話になりました。インターン終了直後にあった学会のデッドラインには間に合いませんでしたが、その後も定期的にミーティングをしてくださり、辛抱強くサポートしていただきました。結果的には、(まだ採択はされていないが)良い研究に仕上がったと思います。

    松尾・岩澤研のスタッフの方々、学生さんや他の先生方もイベント等で気軽に接することができる雰囲気で、非常に助かりました。今後の研究に生きるような、研究テーマやコネクションを作ることができて、非常に充実したインターンシップとなりました。



    いかがでしたでしょうか?
    松尾研では研究員を積極的に募集しております。気になる方は下記をご覧ください!
    https://weblab.t.u-tokyo.ac.jp/joinus/career/