From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models
この論文は、大規模推論モデル(LRM)を人間の好みに合わせるための新しい手法を提案しています。 従来の好み最適化手法をLRMに適用すると、推論過程の確率的サンプリングによって勾配の分散が大きくなり、学習が不安定になるという問題がありました。 著者らは、この問題を解決するためにBVPO(Bias-Variance Optimized Preference Optimization)という手法を開発し...