arXiv論文紹介

arXivのAI・機械学習分野からピックアップした論文を紹介します

最新の記事

Spatio-Temporal LLM: Reasoning about Environments and Actions

📄

この論文は、3D空間の環境情報とエージェントが実行した最近の行動に関する時系列情報の両方を同時に理解できる「Spatio-Temporal LLM (ST-LLM)」という新しいマルチモーダル大規模言語モデルを提案しています。ロボットやエージェントが現実世界で活動する際に必要となる、環境全体の空間的理解と最近の観測の時間的理解を統合的に処理できるモデルです。 また、この研究では「Reasonin...

Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

📄 2507.05257v1 cs.AIcs.LGcs.CL
Yuanzhe Hu, Yu Wang, Julian McAuley

この論文は、大規模言語モデル(LLM)エージェントのメモリ機能を評価するための新しいベンチマーク「MemoryAgentBench」を提案しています。 従来のベンチマークはエージェントの推論・計画・実行能力に焦点を当てていましたが、メモリ(記憶・更新・検索)の評価は不十分でした。 この研究では、メモリエージェントが持つべき4つの重要な能力を定義しています。 これらは「正確な検索」「テスト時学習」...

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

📄

この論文は、言語モデルの認知行動(思考の後戻りや検証など)を視覚推論タスクに転移させる新しいマルチモーダル大規模言語モデル(MLLM)「Open Vision Reasoner(OVR)」を提案しています。 Qwen2.5-VL-7Bをベースに、言語のみのコールドスタート学習と大規模なマルチモーダル強化学習(RL)を組み合わせた2段階の学習フレームワークを採用しています。 この研究では、言語領域...

SciMaster: Towards General-Purpose Scientific AI Agents

📄

この論文は、科学的発見を加速するための汎用的な科学AIエージェント「SciMaster」シリーズの第1部として、「X-Master」という基盤アーキテクチャを提案しています。 X-Masterは、人間の研究者のように内部推論と外部ツール使用を柔軟に切り替えながら問題を解決するツール拡張推論エージェントです。 このエージェントの特徴は、コードを「対話言語」として使用することです。 問題に直面すると...

Requirements Elicitation Follow-Up Question Generation

📄 2507.02858v1 cs.AI
Yuchen Shen, Anmol Singhal, Travis Breaux

この論文は、ソフトウェア開発における要求抽出インタビューで、インタビュアーが明確で関連性の高いフォローアップ質問を生成することを支援するために、GPT-4oを活用する手法を提案しています。要求抽出インタビューは、ソフトウェアシステムに対するステークホルダーのニーズや期待を理解するための重要な手法です。しかし、インタビュアーは認知的負荷や情報過多により、リアルタイムで効果的な質問を考えることが困難で...