arXiv論文紹介

arXivのAI・機械学習分野からピックアップした論文を紹介します

最新の記事

From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models

📄 2510.05095v1 cs.AIcs.LG
Mingkang Zhu, Xi Chen, Bei Yu, Hengshuang Zhao, Jiaya Jia

この論文は、大規模推論モデル(LRM)を人間の好みに合わせるための新しい手法を提案しています。 従来の好み最適化手法をLRMに適用すると、推論過程の確率的サンプリングによって勾配の分散が大きくなり、学習が不安定になるという問題がありました。 著者らは、この問題を解決するためにBVPO(Bias-Variance Optimized Preference Optimization)という手法を開発し...

Learning to Interpret Weight Differences in Language Models

📄 2510.05092v1 cs.AIcs.LG
Avichal Goel, Yoon Kim, Nir Shavit, Tony T. Wang

この論文は、言語モデルのファインチューニングによる重みの変化(weight diffs)を自然言語で解釈する革新的な手法を提案しています。この手法は「Diff Interpretation Tuning (DIT)」と呼ばれます。従来、モデルがファインチューニング後にどのように変化したかを理解することは困難でした。 DITを使うことで、モデル自身が自分の変化を説明できるようになります。

TeachLM: Post-Training LLMs for Education Using Authentic Learning Data

📄 2510.05087v1 cs.AIcs.CL
Janos Perczel, Jin Chow, Dorottya Demszky

この論文は、本物の学習データを使用して教育用の大規模言語モデル「TeachLM」をポストトレーニングする手法を提案しています。 Polygenceプラットフォームから収集された10万時間以上の1対1の学生と指導者のやり取りデータを活用し、プロンプトエンジニアリングの限界を超えて、真に効果的な教育AIを実現しようとしています。 従来のLLMは「便利なアシスタント」として最適化されており、学習において...

LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

📄

この論文は、医療画像解析やスポーツ映像理解など、専門分野でのマルチモーダル大規模言語モデル(MLLM)の適応問題を扱っています。 一般的なMLLMは通常の画像には優れた性能を示します。 しかし医療画像のような特殊な領域では性能低下が知られています。 専門分野では専門家による注釈付きデータの作成コストが非常に高いという課題があります。 LEAMLは、少量のラベル付きデータと大量の未ラベル画像を活用し...

Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

📄

この論文は、GUIの自動操作において重要な「GUI grounding」という技術を改善する研究です。 GUI groundingとは、「ログインボタンをクリック」のような自然言語の指示を、画面上の具体的な座標位置に変換する技術です。 従来手法では、視覚特徴から座標を直接生成するため不安定で、特に学習時とは異なる解像度の画面では性能が低下していました。 本研究では、RULERトークンとInterl...