【立教大学】AI分野の世界最高峰国際会議「ICCV2025」にて論文採択~人工知能科学研究科の安木氏と瀧准教授ら、都市規模3D空間と自然言語で対話できる新技術を開発~



立教大学大学院人工知能科学研究科(所在地:東京都豊島区、研究科委員長:大西立顕)の博士後期課程3年次の安木駿介氏と瀧雅人准教授、東京大学松尾豊研究室の宮西大樹博士(兼ATR)、松尾豊教授、坂本滉也氏、東大地氏(兼ソニーセミコンダクタソリューションズ)、東京科学大学の井上中順准教授、国立情報学研究所大規模言語モデル研究開発センターの栗田修平助教らとの共同研究論文がICCV 2025(International Conference on Computer Vision 2025)に採択されました。




本成果の詳細は、2025年10月19日から10月23日まで米国ハワイ州ホノルルで開催される同国際会議にて発表されます。2年ごとに開催されるICCVはパターン認識・コンピュータビジョン分野に関する世界最高峰の国際会議の一つとして知られています。

【 研究の概要 】
研究グループは、都市全体のような広大で高精細な3D空間と日常的な言葉(自然言語)で対話できる新しいAIフレームワーク「GeoProg3D」を開発しました。近年、現実そっくりの3D都市モデルが構築される一方、その膨大なデータに対して「ビルAから半径100m以内にある赤い看板のお店は?」「ビルBとその西にある高層ビルではどちらが高い?」といった複雑な質問をしても、AIは正しく答えることができませんでした。本研究ではこの課題を解決するため、AIが人間の言葉を理解し、質問を「ビルAを特定」「周辺100mを調査」「赤い看板を探す」といった簡単なステップに自動で分解・プログラム化して実行する技術を開発。これにより、これまで不可能だった複雑な問いにも正確な答えを導き出すことに成功しました。これは、単に物体を探すだけでなく、3D都市の中で「考え、比較し、判断する」という高度な知能をAIに与える画期的な成果です。

【 背景 】
近年、3Dガウシアンスプラッティングなどの技術革新により、都市全体を非常に高精細に再現した3Dモデル(デジタルツイン)の構築が可能になってきました。これらの3Dモデルは、都市計画や自動運転のシミュレーション、災害対策など多岐にわたる応用が期待されています。しかし、この膨大な3Dデータと人間が直感的に対話し、必要な情報を引き出すことは困難でした。従来の自然言語で3D空間を扱う技術(3D言語場)は、主に室内のような小規模な環境を対象としており、都市スケールの広大なデータに対応できなかったほか、「AかつB」「Cより大きい」といった複数の要素を組み合わせた複雑な問い(構成的推論)に答える能力も不足していました。

【 成果 】
本研究では、これらの課題を解決する「GeoProg3D」という革新的なフレームワークを提案しました。GeoProg3Dは、主に以下の3つの要素で構成されます。

1. 地理情報と連携した都市スケール3D言語場(GCLF): 広大な都市の3Dデータを効率的に扱うため、階層構造を持つメモリ効率の良い3D表現(ツリー構造3Dガウシアン)を導入しました。この3D空間にマルチモーダル特徴量を埋め込むことで、自然言語による検索が可能になります。さらに、ジオリファレンス技術を応用して現実の地図情報と3Dモデルを連携させることで、ランドマーク名や方角、距離といった地理情報に基づいた検索を可能にしました。
2. 大規模言語モデル(LLM)によるビジュアルプログラミング: 人間の質問を理解する「頭脳」として大規模言語モデル(LLM)を活用します。LLMがユーザーからの自然言語での質問を解釈し、それを解決するためのプログラム(命令の組み合わせ)を自動的に生成します。このプログラムが、後述の専門ツール群(GV-API)を段階的に呼び出すことで、複雑なタスクを実行します。
3. 地理空間視覚API群(GV-APIs)と新評価データセット「GeoEval3D」: 領域の特定、物体の検出、距離や高さの計測など、専門的な視覚・地理タスクを実行するツール群(GV-API)を開発しました。さらに、本技術の有効性を実証するため、ニューヨークやシンセンといった実在の都市を基にした、合計952個の多様な質問応答ペアからなる新しい大規模評価データセット「GeoEval3D」を構築しました。
 
実験の結果、GeoProg3Dは既存の最先端モデルと比較して、全てのタスクで性能を大幅に上回り、特に複雑な構成的推論タスクにおいて圧倒的な優位性を示しました。これは、自然言語を通じて高精細な都市スケール3D環境で構成的推論を可能にした世界初のフレームワークです。

【 展望 】
本技術は、より高度な都市計画や精緻な災害シミュレーション、次世代のナビゲーションシステム、さらにはメタバースやデジタルツインにおける没入感の高いインタラクションなど、幅広い分野への応用が期待されます。今後は、LLMが生成するプログラムの精度をさらに向上させ、より多様で複雑な問いに対応できるシステムの開発を目指します。本研究は、人間とAIが3D空間情報を協調して分析・操作する未来に向けた重要な一歩となるものです。

■■■  キーワード ■■■
● 3Dガウシアンスプラッティング (3D Gaussian Splatting): 複数の写真から、非常に写実的で高品質な3Dシーンを高速に生成するための新しい技術。本研究では、この技術を拡張して都市スケールでの利用を可能にした。
● デジタルツイン (Digital Twin): 現実世界の都市や建物、設備などを、そっくりそのままサイバー空間上に再現する技術。シミュレーションやモニタリング、遠隔操作などに活用される。
● 3D言語場 (3D Language Field): 3D空間内の位置や物体に、自然言語(言葉)の意味情報を埋め込む技術。これにより、「赤い車」や「高いビル」といった言葉で3D空間内の対象を検索・特定することが可能になる。
● 構成的推論 (Compositional Reasoning): 「Aの隣にあるB」や「Cよりも大きくてDではないもの」のように、複数の要素や条件を組み合わせて段階的に答えを導き出す思考プロセス。人間の複雑な質問を理解するためにAIに求められる能力。
● マルチモーダル特徴量 (Multimodal Feature): テキスト、画像、音声など、種類の異なる複数の情報(モダリティ)をAIが統一的に扱えるように変換したデータのこと。本研究では、3D空間の見た目(ビジュアル)と言葉(言語)を結びつけるために利用される。
● ジオリファレンス (Georeference): 3Dモデル内の座標を、現実世界の緯度経度などの地理座標と紐付ける技術。これにより、3D空間内での正確な距離計測や、実世界の地図情報との連携が可能になる。
● ビジュアルプログラミング (Visual Programming): 自然言語による指示を、AIがAPI(外部ツール)を呼び出すプログラムコードに自動変換し、実行することで視覚的なタスクを解決する手法。
● 大規模言語モデル (Large Language Model - LLM): 大量のテキストデータで学習し、人間のように自然な文章を生成したり、質問に答えたりできるAIモデル。本研究では、ユーザーの質問を理解し、実行プログラムを生成する「頭脳」の役割を担う。

■■■  論文情報 ■■■
● 論文タイトル:GeoProg3D: Compositional Visual Reasoning for City-Scale 3D Language Fields
● 著    者:Shunsuke Yasuki, Taiki Miyanishi, Nakamasa Inoue, Shuhei Kurita, Koya Sakamoto, Daichi Azuma, Masato Taki, Yutaka Matsuo
● 論    文:https://arxiv.org/abs/2506.23352
● プロジェクト:https://snskysk.github.io/GeoProg3D/

■ 人工知能科学研究科 瀧雅人研究室について ■
 瀧雅人研究室では、これからのAIを支える深層学習に関して、基礎から応用まで幅広く研究しています。本成果以外にもAI・機械学習分野の国際会議「NeurIPS 2022」「AAAI 2024」「CVPR2024」に論文が採択されるなど、さまざまな成果を出しています。

■■■  その他リンク ■■■
● ICCV: https://iccv.thecvf.com/
● 瀧 雅人研究室: https://sites.google.com/rikkyo.ac.jp/taki-labo
● 瀧 雅人(研究者情報): https://univdb.rikkyo.ac.jp/view?l=ja&u=100002160



▼本件に関する問い合わせ先
立教学院企画部広報室
メール:koho@rikkyo.ac.jp


【リリース発信元】 大学プレスセンター https://www.u-presscenter.jp/

この企業の関連リリース

この企業の情報

組織名
立教大学
ホームページ
https://www.rikkyo.ac.jp/
代表者
西原 廉太
資本金
0 万円
上場
非上場
所在地
〒171-8501 東京都豊島区西池袋3丁目34-1

検索

人気の記事

カテゴリ

アクセスランキング

  • 週間
  • 月間
  • 機能と特徴
  • Twitter
  • デジタルPR研究所