Robot Showcase

GPSRタスクへの取り組みとその解決策(2024)

デモ開発者 保呂蒼威, 和田輝, 福田光輝, 野海芳博

大規模言語モデル(GPT-4)、音声認識モデル(Whisper)、物体検出モデル(Detic)、マルチモーダル基盤モデル(CLIP)といった複数の基盤モデル技術を使用した。様々な基盤モデルを統合しロボットに搭載することによって、包括的に実世界を認識し、自身の能力を元に、命令に応じた適切な行動が生成できる

参考

基盤モデルを活用した自然言語による多様なタスク実現に向けたロボットシステムの統合

Self-Recovery Prompting: Promptable General Purpose Service Robot System with Foundation Models and Self-Recovery