• Home
  • ニュース
  • 松尾研リサーチインターン体験記 vol.5 【ロボティクス】基盤モデルを用いた都市規模3D Vision-Languageに関する研究
  • 松尾研リサーチインターン体験記 vol.5 【ロボティクス】基盤モデルを用いた都市規模3D Vision-Languageに関する研究

    松尾・岩澤研究室では,「知能を創る」というミッションのもと、世界モデルをはじめとした深層学習やそれを超える基礎技術の開発、ロボティクスや大規模言語モデル、アルゴリズムの社会実証といった幅広い研究領域で活動しています。

    こうした活動を更に拡大するため、リサーチインターンシップを開催し、15名の方にご参加いただきました。

    ▼リサーチインターンシップ概要
    https://weblab.t.u-tokyo.ac.jp/news/20240417/

    ▼インターンテーマ/メンターの紹介記事
    https://weblab.t.u-tokyo.ac.jp/2024-04-26/https://weblab.t.u-tokyo.ac.jp/2024-04-26/

    本記事では、リサーチインターンに参加いただいたメンバーの体験記をご紹介します。


    • 自己紹介/self-introduction

     Project8_citysplatにインターン生として参加させていただきました、安木です。立教大学の人工知能科学研究科/瀧雅人研究室に所属しており、2024年9月現在、博士後期課程の二年目になります。本インターンについては、所属研究室の先輩に勧められて知りました。普段は単独で黙々と研究を進めるスタイルなのですが、チームでの研究経験を積みたいと考えていましたので、プロジェクト形式の本インターンに応募することを決めました。

    • 研究内容/About research

     私の選定したテーマは「基盤モデルを用いた都市規模3D Vision-Languageに関する研究」です。実は3D Visionの研究は未経験でしたが、普段よりVision系・Vision-Language系の深層学習モデルについて研究していることや、国際学会での3D Vision研究の盛り上がりに影響されて強い関心があったことが、テーマ選択の背景です。

     研究の目標は、都市スケールの3D言語フィールドの実現でした。3D言語フィールドとは、3D空間とテキストを対応付けた表現を意味します。例えば、入力として”3D都市空間の任意視点画像”と”地図”、さらに「清水寺の最も近くにある人力車」のような”クエリ”を受け付け、3D言語フィールドを介して特定した”対応する領域”を出力する、などがゴールです。こうした技術は、テキストによる3D都市編集や、それによる都市シミュレーションなどの足掛かりとして期待されます。3D言語フィールドにはいくつかの先行研究がありますが、主に3つの理由により、都市空間データには直接適用できません。一つは計算コストの問題です。有力な先行研究は、3D空間の効率的な表現のために3D-Gaussian Splatting技術を採用していますが、それでも膨大な都市空間を扱うには限界があります。二つ目は、地理情報を含むクエリに対応できない問題です。先行研究手法が対応可能なクエリは、3D空間とテキストを結び付ける役目を担っているVLM(CLIP)の能力に依存します。そのため、“京セラ美術館と平安神宮の間にある公園”のような地名を用いた検索ができません。三つ目は、空間を表すクエリに対応できない問題です。“公園”のような物体名、“運動場所”のような抽象名の検索は可能ですが、“ビルの隣の公園”や“建物の間にあるテニスコート” のような空間的な関係を問う複雑な検索に対応できません。

     我々の研究では、先述した問題点に対処した改善手法を構築しました。一つ目の計算コストの問題には、3D空間の表現方法を見直すことで対処しました。具体的には、都市空間の3D表現のために3D-Gaussian Splattingを改善した先行手法であるLoG (Level of Gaussians)で実装を置き換えました。二つ目の地理情報を含むクエリに対応できない問題には、3Dガウシアンと地理情報を結び付けることで対処しました。通常、適応的に学習される3Dガウシアンに、訓練データとして地理情報を与えることは困難です。そこで我々は、学習済み3Dガウシアンの真上からのviewを実際の地図と対応させることで、地理情報に対応する3Dガウシアン集合の取得を実現しました。三つ目の空間を表すクエリに対応できない問題には、3Dガウシアンに結び付ける地理情報のテキスト表現を「周辺地物で拡張した地理情報」へとアップデートすることで対処しました。一般的な地物の地理情報テキストは、”平安神宮”のような単一の固有名詞ですが、多くの地物は周辺地物の情報を用いた異なる表現が可能です。例えば”平安神宮”は”京セラ美術館と京都市武道センターの間”のようにも表すことができます。各地物について、地図画像とVLMを用いてこのような拡張表現を生成し、3Dガウシアンへと結び付けました。これらの工夫により実現した我々の手法は、定性的・定量的評価において、先行研究を大きく上回る性能を示しました。

     以降では、広範なデータセットでの実験や、より複雑なクエリに対応するためのアイデアの実装・評価を行い、トップカンファレンスへの論文提出を目指します。

    • 最後に/Closing

     インターンの期間は、開始準備などの負担も少なく、集中して自由に研究にのめり込むことができました。松尾研の印象でもありますが、研究に集中できるような体制づくりの賜物だと感じます。プロジェクトによって進め方やスピード感は様々で、私の場合はメンターさんとの対面の打ち合わせは週一、ただし毎日のテキストでの進捗報告はかなり入念に、といったスタイルに落ち着きました。対面打ち合わせの日は、メンターさんに東大グルメをご紹介いただける日でもあったので、毎週楽しみにしていました。インターンのキックオフイベントに参加した際には、松尾先生をはじめ様々なメンバーとお話することができ、研究の話や全く関係ない話で盛り上がり、インターン前の緊張がほぐれたのを覚えています。インターン後の懇親会では、それまでに顔は合わせたことはあるものの話したことがなかったメンバーと交流できたことが印象深いです。皆さん本当に研究熱心で、話していてとても刺激的でした。次の参加者の方も、ぜひ積極的に松尾研の方々と交流することをおすすめします。ありがとうございました。


    いかがでしたでしょうか?
    松尾研では研究員を積極的に募集しております。気になる方は下記をご覧ください!
    https://weblab.t.u-tokyo.ac.jp/joinus/career/