ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

著者 Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang

所属 Fudan University, Shanghai Artificial Intelligence Laboratory, Zhejiang University, Shanghai Jiao Tong University, The Chinese University of Hong Kong, Shanghai Innovation Institute

投稿日 2025年12月06日

カテゴリ cs.AI, cs.LG, cs.CV

arXiv 2512.05111v1 ↗

ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

基本情報

arXiv ID: 2512.05111v1 (https://arxiv.org/abs/2512.05111)
著者: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang
所属: Fudan University, Shanghai Artificial Intelligence Laboratory, Zhejiang University, Shanghai Jiao Tong University, The Chinese University of Hong Kong, Shanghai Innovation Institute
投稿日: 2025年12月06日
カテゴリ: cs.AI, cs.LG, cs.CV

簡単に説明すると

この研究は、マルチモーダルな報酬モデルに「エージェント機能」を追加することで、より信頼性の高い判定を可能にする手法を提案しています。従来の報酬モデルは静的に回答を評価するだけでしたが、ARM-Thinkerは画像の切り抜きツールや文書検索ツールなどを自分で使って証拠を集め、その上で判定を行います。これにより、幻覚や根拠のない判定を大幅に削減できました。新しいベンチマークARMBench-VLも提案し、報酬モデリングで+16.2%、ツール使用タスクで+9.6%の性能向上を実現しました。GitHub: https://github.com/InternLM/ARM-Thinker で公開されています。

1. 研究概要

1.1 背景と動機

[詳細な説明]

1.2 主要な貢献

[詳細な説明]

[貢献1]
[貢献2]
...
[貢献n]

2. 提案手法

2.1 手法の概要

[詳細な説明]

2.2 技術的詳細

[アルゴリズムや数式の説明]

2.3 新規性

[既存手法との違い]

3. 実験結果

3.1 実験設定

[データセット、評価指標など]

3.2 主要な結果

[定量的・定性的結果]

3.3 既存手法との比較

[比較結果と分析]

4. 実用性評価

4.1 実装の容易性

[評価]

4.2 計算効率

[評価]

4.3 応用可能性

[評価]

5. まとめと所感

5.1 論文の意義

[考察・総合評価]

5.2 今後の展望

[将来性や改善点]