arXiv論文紹介

arXivのAI・機械学習分野からピックアップした論文を紹介します

最新の記事

3D Aware Region Prompted Vision Language Model

📄 2509.13317v1 cs.CVcs.AI
An-Chieh Cheng、Yang Fu、Yukang Chenほか11名

この論文では、2D画像と3D空間の理解を統合したビジョン・ランゲージモデル「SR-3D(Spatial Region 3D)」を提案しています。従来のビジョン・ランゲージモデルは2D画像の理解は得意ですが、3D空間での物体の位置関係や距離などの空間的推論が困難でした。SR-3Dは、深度推定技術と3D位置エンベディングを活用して、2Dモデルの強力な事前知識を保持しながら3D空間理解を実現しています。...

LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

📄

LazyDragは、画像編集における「ドラッグ操作」を安定させる新しい手法です。従来の手法では、画像の一部をドラッグして移動させる際に、どの部分がどこに対応するかを注意機構で暗黙的に推測していましたが、これが不安定さの原因でした。LazyDragは、ユーザーのドラッグ操作から明示的な対応マップを生成し、これを使って安定した編集を実現します。特に、Multi-Modal Diffusion Tran...

OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

📄

OmniWorldは、4D世界モデリング(時空間を統合したモデリング)のための大規模なマルチドメイン・マルチモーダルデータセットです。現実世界の物理的複雑さを捉えるため、ゲーム環境から収集した高品質な合成データ(OmniWorld-Game)と複数の公開データセットを統合しています。96K以上のクリップ、1800万フレーム以上、総時間214時間を超える大規模データセットで、深度マップ、カメラポーズ...

Dynamic Relational Priming Improves Transformer in Multivariate Time Series

📄

多変量時系列データに対するTransformerの性能を向上させる新しい注意機構「Prime Attention」を提案した論文です。従来のTransformerでは、各トークンは他の全てのトークンとの相互作用で同じ表現を使用します。これは「静的関係学習」と呼ばれます。しかし、多変量時系列では異なるチャンネル間で物理法則や時間的動力学は大きく異なります。Prime Attentionは、各トークン...

Advancing Medical Artificial Intelligence Using a Century of Cases

📄

本論文は、100年間にわたる医療症例データを活用して医療人工知能の発展を図る研究です。23名の研究者による大規模な共同研究として実施され、歴史的な医療データの豊富さを活用して現代の機械学習手法を適用することで、医療AI分野における重要な貢献を目指しています。大規模な症例データベースを構築し、時間的変遷を考慮した医療診断・治療支援システムの開発に焦点を当てていると推測されます。関連リンクは論文本体の...