ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
基本情報
- arXiv ID: 2512.05111v1 (https://arxiv.org/abs/2512.05111)
- 著者: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang
- 所属: Fudan University, Shanghai Artificial Intelligence Laboratory, Zhejiang University, Shanghai Jiao Tong University, The Chinese University of Hong Kong, Shanghai Innovation Institute
- 投稿日: 2025年12月06日
- カテゴリ: cs.AI, cs.LG, cs.CV
簡単に説明すると
この研究は、マルチモーダルな報酬モデルに「エージェント機能」を追加することで、より信頼性の高い判定を可能にする手法を提案しています。従来の報酬モデルは静的に回答を評価するだけでしたが、ARM-Thinkerは画像の切り抜きツールや文書検索ツールなどを自分で使って証拠を集め、その上で判定を行います。これにより、幻覚や根拠のない判定を大幅に削減できました。新しいベンチマークARMBench-VLも提案し、報酬モデリングで+16.2%、ツール使用タスクで+9.6%の性能向上を実現しました。GitHub: https://github.com/InternLM/ARM-Thinker で公開されています。
1. 研究概要
1.1 背景と動機
[詳細な説明]
1.2 主要な貢献
[詳細な説明]
- [貢献1]
- [貢献2]
- ...
- [貢献n]
2. 提案手法
2.1 手法の概要
[詳細な説明]
2.2 技術的詳細
[アルゴリズムや数式の説明]
2.3 新規性
[既存手法との違い]
3. 実験結果
3.1 実験設定
[データセット、評価指標など]
3.2 主要な結果
[定量的・定性的結果]
3.3 既存手法との比較
[比較結果と分析]
4. 実用性評価
4.1 実装の容易性
[評価]
4.2 計算効率
[評価]
4.3 応用可能性
[評価]
5. まとめと所感
5.1 論文の意義
[考察・総合評価]
5.2 今後の展望
[将来性や改善点]