◼︎書誌情報
小野田 空羽, パラマス パーヴォ, 松尾 豊, 接触が伴う環境における微分可能シミュレータ上の効率的で低バイアスな方策勾配推定, 人工知能学会全国大会論文集, 2025, JSAI2025 巻, 第39回 (2025), セッションID 1S5-GS-2-04, p. 1S5GS204.
◼︎概要
強化学習における方策勾配法において,微分可能シミュレータ上では勾配の1次推定量を活用することで,導関数を用いない0次推定量のみを使用する場合と比べ,学習を高速化できる.しかしながら,目的関数の非連続的な挙動は1次推定量にバイアスを生じさせ,その効果を損なう.既存手法では0次推定量に信頼区間を構築し,その範囲を用いて非連続性を検出しているが,0次推定量は非常にノイズが大きく,サンプル効率が低いうえにタスク固有のハイパーパラメータ調整が必要となる.そこで本研究では,新たに Discontinuity Detection Composite Gradient (DDCG) を提案する.本手法は,滑らかさの仮定に基づく統計的検定によって非連続性を検出し,それに応じて勾配推定手法を動的に切り替える.我々は本手法を微分可能なシミュレーション制御タスクで評価し,固定のハイパーパラメータで良好な性能を示し,特に少数のサンプルにおいても有効な勾配推定が可能であることを示した.
