現在Field AIでご活躍(元Deepmind)のPaul Müllerさんが6/11(水)に訪問されました。
当日は松尾研の研究員や配属学生、講義受講生などオンラインの方も参加し、マルチエージェント強化学習の手法とその応用例について講演いただきました。
Bio: Paul Müllerさん [現在Field AIでご活躍(元Deepmind)]
マルチエージェント強化学習(Multiagent Reinforcement Learning)を研究領域とし、博士課程修了後、Google DeepMindのリサーチサイエンティストとして、Stratego や MuJoCo サッカー、Gemini のファインチューニングなど多くのプロジェクトに従事。その後、H Company にてエージェントシステム向け基盤モデルの学習に従事し、現在は Moonvalley にて拡散モデル(Diffusion Models)のファインチューニングに取り組んでいる。マルチエージェント強化学習の手法の実世界のシステムへの応用、信頼性の保証や性能向上といった観点から研究を進めている。
Title: Multiagent reinforcement learning and some applications to e.g. LLM training.
Abstract:本講演では、マルチエージェント強化学習(Multiagent Reinforcement Learning, MARL)の手法とその応用例について紹介します。これらの手法を基盤モデルの改良や様々な応用課題の解決にどのように活用できるかを解説します。具体的には、Stratego やその他の2人のプレイヤーのゼロサムボードゲーム、LLM(大規模言語モデル)の信頼性を最大化するためのファインチューニング、対戦相手への適応といったテーマを取り上げます。



Paul Müllerさん、この度は松尾研に足をお運びいただきありがとうございました。