• Home
  • ニュース
  • 松尾研リサーチインターン体験記vol.1 強化学習における探索方策のメタ学習
  • 松尾研リサーチインターン体験記vol.1 強化学習における探索方策のメタ学習

    松尾・岩澤研究室では,「知能を創る」というミッションのもと、世界モデルをはじめとした深層学習やそれを超える基礎技術の開発、ロボティクスや大規模言語モデル、アルゴリズムの社会実証といった幅広い研究領域で活動しています。

    こうした活動を更に拡大するため、リサーチインターンシップを開催し、15名の方にご参加いただきました。

    ▼リサーチインターンシップ概要
    https://weblab.t.u-tokyo.ac.jp/news/20240417/

    ▼インターンテーマ/メンターの紹介記事
    https://weblab.t.u-tokyo.ac.jp/2024-04-26/https://weblab.t.u-tokyo.ac.jp/2024-04-26/

    本記事では、リサーチインターンに参加いただいたメンバーの体験記をご紹介します。


    • 自己紹介/self-introduction

    東京大学博士課程1年の西森創一朗と申します.研究室では、オフライン強化学習やゲームAIの研究をしています.今回メンターをしていただいたPaavoさんには、学部四年時に所属していた研究室でお世話になっており、当時からいつか共同研究させていただきたいと考えていました.今年の四月に松尾研に移られて、インターンを募集されていることをホームページで知り、松尾研の深層強化学習サマースクールをきっかけに強化学習に入門したこともあり、これはやるしかないという気持ちで応募しました.

    • 研究内容/About research

    本インターンでは、「メタ学習と方策勾配法に関する基礎研究」というテーマで研究に取り組みました.

    強化学習では環境と相互作用しながら、最適な行動原理を学ぶことを目的とします.その際、より良い報酬を期待して、選択したことのない行動をとる探索と、すでに選択した行動の中から最も報酬が高いと思われる行動をとる活用とをバランスよく行う必要があります.卑近な例をあげると、外食する際、行ったことのない美味しそうな店を選ぶことが探索で、行きつけの美味しい店に行くことが活用にあたります.

    探索(新しい店を試す)しすぎると、行きつけの店の美味しい料理を味わう機会が減ってしまう一方で、活用(行きつけの店に行く)ばかりすると、まだ見ぬ名店に辿り着けない可能性があります.このように、探索と活用はトレードオフの関係にあり、最適な探索手法については今も盛んに研究されています.

    既存手法は一定の確率でランダムな行動選択を行ったり [1, 2]、人間があらかじめ設計した探索促進用のボーナスを報酬に加えるなどのヒューリスティックを用いて探索を実現しようとしていています[3, 4].これらの手法により、探索性能が向上することが示されているものの、改善の余地はあります.それが、収集したデータを活用するという観点です.先ほどの外食の店を決める問題で考えると、我々は、新しい店を選ぶ際,候補の中からランダムに決めるようなことはせずに、過去の経験を踏まえてある程度美味しそうな店を選びます.このように、過去の経験(データ)を参照することでより効率的に探索できるというのは直感的に納得感があると思います.そこで、本研究では、探索方策をデータから学習することを目指しました.実現できれば、データ量にスケールする探索方策の学習が可能になり、今後あらゆる情報がトラック可能になることと合わせると、強化学習を不確実性に溢れた実世界に適用する可能性を高められると考えています.

    本研究では、従来の強化学習の目的関数とは別に、探索方策を学習するための新たな目的関数を用意するというアプローチを取りました.従来の目的関数との差を式で説明します.

    上が,通常の強化学習で方策πを学習するための目的関数です.sが状態,aが行動, R(s, a)が累積報酬です.下が、今回提案する目的関数ReMaxです.サンプルされた状態について、方策からK回行動をサンプルし、そのうち最大の累積報酬を最大化することを目指します.ReMaxには、「何回か試して良い結果を探す」という探索のエッセンスが盛り込まれていると考えることができます. Kは探索の度合いを決めるハイパーパラメタで,Kが大きいほどより探索的になることが期待できます.強化学習の目的関数はK=1の場合に対応していて、一度しか行動を試すことができないので、探索的な方策を学習することはできません.理論的にも決定論的な方策が最適になることが示されています.

    本研究では、こうした直感をもとに、ReMaxを用いた効率的な探索方策の学習を目指しました.累積報酬関数は、Q関数で近似して,学習済みのQ関数を用いてReMaxで探索方策を学習しました.

    手法の検証には2種類の迷路環境を用いました.ここでは、そのうちのBinary Mazeを紹介したいとおもいます.この迷路には名前の通り2種類の行動があり、各状態で正しい行動をとることで次の状態に進み、報酬を受け取ります.誤った行動をとると、数ステップで強制的にエピソードが終了します.迷路全体で行動1が正解である確率を75%に設定しました.この迷路課題において,Q関数を以下のように状態行動に依存するパラメタwと、全状態共通のcの和の形で表現しました.

    wは0で初期化して通常のQ学習で学習し,cをReMaxで更新しました.探索にはsoftmax探索を用いることで、新たに訪れた状態では、ReMaxによって学習したcで決まる確率で、行動1、 0を選ぶことになります.迷路全体で、最適な行動の分布に偏りがあるので、cをReMaxで学習することでその偏りを捉え学習が早くなるかを検証することが狙いでした.

    以下に結果を示します.左側が,迷路から得られた報酬,右が行動1を選択する確率で,環境のステップ数を横軸にとって可視化しました.

    結果を見ると.

    1. cを学習することで,学習しない場合に比べて学習が早くなっていること.
    2. Kを増やすほど,行動1をとる確率が低くなり,より探索的になっていること

    が確認できます.toy taskではありますが、強化学習において、ReMaxによって探索方策が学習できること、及びKによって探索の度合いをコントロールできることが確認できました.この環境をベースに、深層学習の設定に近づけるために各状態にMNIST画像を正解の行動のヒントとして与えるような環境でも本手法を試すと、性能が向上することが確認できました.

    今後は、toy taskで得られた成果をもとに深層強化学習にReMaxを組み込み、論文を国際会議に投稿することを目指します.

    • 最後に/Closing

    このインターンを通して、メンターのPaavoさんには、平均して週2回mtgをしていただいて、研究の方向性の議論から、コードの指南まで多層的なサポートをしていただきました.アルゴリズムが当初の想定とは異なる挙動を見せたり,深層学習に提案手法を組み込むために予想以上のハードルがあると発覚したりといくつか障害に直面しましたが,頻繁に議論していただけたおかげで,短いスパンでPDCAを回せて,自分の中での仮説検証の速度と量のスタンダードが上がったように感じます.

    また、松尾研のインターンチームの方には、我々インターン生が研究に集中できるように多大なるサポートをしていただきました.特に、紙書類でのやり取りを最小化していただいたのがありがたかったです.

    最後になりますが、メンターのPaavoさん、松尾-岩澤研究室の皆様に深く感謝申し上げます. ありがとうございました.

    References

    [1] Hessel, Matteo, et al. “Rainbow: Combining improvements in deep reinforcement learning.” Proceedings of the AAAI conference on artificial intelligence. Vol. 32. No. 1. 2018.

    [2] Schwarzer, Max, et al. “Bigger, better, faster: Human-level atari with human-level efficiency.” International Conference on Machine Learning. PMLR, 2023.

    [3] Haarnoja, Tuomas, et al. “Soft actor-critic algorithms and applications.” arXiv preprint arXiv:1812.05905 (2018).

    [4] Bellemare, Marc, et al. “Unifying count-based exploration and intrinsic motivation.” Advances in neural information processing systems 29 (2016).


    いかがでしたでしょうか?
    松尾研では研究員を積極的に募集しております。気になる方は下記をご覧ください!
    https://weblab.t.u-tokyo.ac.jp/joinus/career/