arXiv論文紹介

[論文タイトル]

📄

[著者リストを1行で記載。長さのエラーは無視。]

[論文の内容について初心者に分かりやすく、かつ、具体的に説明。githubやhuggingfaceなどの関連リンクがある場合には紹介する。]

Making Large Language Models Efficient Dense Retrievers

📄 2512.20612v1 cs.CLcs.IR

Yibin Lei, Shwai He, Ang Li, Andrew Yates

この論文は、大規模言語モデル（LLM）を密集検索（dense retrieval）タスクに効率的に適用するための革新的なフレームワーク「EffiR」を提案している。従来、LLMベースの検索システムは高精度を実現する一方で、膨大な計算コストが実用化の障壁となっていた。本研究では、生成タスクと検索タスクにおけるLLMの層冗長性が大きく異なることを発見し、検索タスクではMLP層がより冗長である一方...

詳細を読む → arXiv

Empowering Dynamic Urban Navigation with Stereo and Mid-Level Vision

📄 2512.10956v1 cs.CVcs.AI

Wentao Zhou, Xuweiyi Chen, Vignesh Rajagopal, Jeffrey Chen, Rohan Chandra, Zezhou Cheng

この論文は、都市環境での動的ナビゲーションを改善するStereoWalkerという新しい視覚ナビゲーション基盤モデルを提案している。従来のナビゲーション基盤モデル（NFM）は単眼視覚に依存し、中レベル視覚機能（深度推定、トラッキング等）が暗黙的に出現することを仮定していたが、これは非効率的である。StereoWalkerは、ステレオ入力と明示的な中レベル視覚モジュールを統合することで、わずか1.5...

詳細を読む → arXiv

Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

📄 2512.10955v1 cs.CVcs.LG

Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Ri...

この論文は、画像の特定の属性（アイデンティティ、表情、照明、スタイルなど）を抽出して別の文脈に転送する視覚的概念パーソナライゼーションのための初のオープンボキャブラリ属性エンコーダを提案している。従来手法では画像全体の情報が混在した表現を使用するため、不要な属性が混入する「コピー・アンド・ペースト」問題が発生していた。この問題を解決するため、著者らは属性特化型の表現学習を行い、高品質な属性の抽出と...

詳細を読む → arXiv

Bidirectional Normalizing Flow: From Data to Noise and Back

📄 2512.10953v1 cs.LGcs.AI

Yiyang Lu, Qiao Sun, Xianbang Wang, Zhicheng Jiang, Hanhong Zhao, Kaiming He

この論文は、正規化フロー（Normalizing Flow）における長年の制約である「逆過程が順過程の厳密な解析的逆変換でなければならない」という仮定に挑戦し、BiFlowという新しいフレームワークを提案している。BiFlowでは順過程と逆過程を別々に学習させることで、より柔軟なアーキテクチャの使用が可能になり、推論速度を最大2桁向上させながら生成品質も改善することに成功している。ImageNet...

詳細を読む → arXiv

最新の記事

[論文タイトル]

Making Large Language Models Efficient Dense Retrievers

Empowering Dynamic Urban Navigation with Stereo and Mid-Level Vision

Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

Bidirectional Normalizing Flow: From Data to Noise and Back