デモ開発者 保呂蒼威, 和田輝, 福田光輝, 野海芳博
大規模言語モデル(GPT-4)、音声認識モデル(Whisper)、物体検出モデル(Detic)、マルチモーダル基盤モデル(CLIP)といった複数の基盤モデル技術を使用した。様々な基盤モデルを統合しロボットに搭載することによって、包括的に実世界を認識し、自身の能力を元に、命令に応じた適切な行動が生成できる
参考
デモ開発者 保呂蒼威, 和田輝, 福田光輝, 野海芳博
大規模言語モデル(GPT-4)、音声認識モデル(Whisper)、物体検出モデル(Detic)、マルチモーダル基盤モデル(CLIP)といった複数の基盤モデル技術を使用した。様々な基盤モデルを統合しロボットに搭載することによって、包括的に実世界を認識し、自身の能力を元に、命令に応じた適切な行動が生成できる
参考