3D Aware Region Prompted Vision Language Model
この論文では、2D画像と3D空間の理解を統合したビジョン・ランゲージモデル「SR-3D(Spatial Region 3D)」を提案しています。従来のビジョン・ランゲージモデルは2D画像の理解は得意ですが、3D空間での物体の位置関係や距離などの空間的推論が困難でした。SR-3Dは、深度推定技術と3D位置エンベディングを活用して、2Dモデルの強力な事前知識を保持しながら3D空間理解を実現しています。...