MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation
MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation
基本情報
- arXiv ID は 2508.19236v1 である (https://arxiv.org/abs/2508.19236)
- 著者は Hao Shi らである。Bin Xie, Yingfei Liu, Lin Sun, Fengrong Liu らが共著者として参加している
- 所属機関は Tsinghua University と Dexmal である。また MEGVII Technology や Tianjin University なども含む
- 投稿日は2025年8月28日である
- カテゴリは cs.AI, cs.LG, cs.RO である
簡単に説明すると
ロボットの操作タスクで時系列の文脈情報を適切に活用するため、人間の記憶システムから着想を得た新しいVision-Language-Action(VLA)モデルを提案している。作業記憶と長期記憶の2つの仕組みを参考にしています。
従来のVLAモデルは現在の観察のみに依存しており、時系列の関係性を見落としていました。このため長期的な操作タスクで性能が低下していました。MemoryVLAは認知科学から着想を得た二重記憶システムを実装している。短期記憶(working memory)と長期記憶(Perceptual-Cognitive Memory Bank)を組み合わせることで時系列情報を効果的に活用できる。
プロジェクトページ: https://shihao1895.github.io/MemoryVLA
1. 研究概要
1.1 背景と動機
ロボティクス分野において、Vision-Language-Action(VLA)モデルは大規模なデータセットと事前学習済みVLMsにより驚くべき進歩を遂げています。
しかし、OpenVLAや π₀ などの主流VLAモデルは現在の観察のみに依存しています。時系列の依存関係を見落としているため、長期的な操作タスクで性能が低下しています。
特に「Push Buttons」タスクのように、ボタンを押す前後でほぼ同じ視覚的状態を示すタスクでは、アクションが既に完了したかどうかを判断することが困難です。これはロボット操作の非マルコフ的性質を示しており、以前のアクションが後の決定に影響を与えるため、時系列モデリングが必要です。
従来のアプローチである連続フレームの単純な結合には重要な限界があります。まず自己注意の二次複雑性によりコンテキスト長が制限されます。また連続フレーム入力がモデルの単一フレーム・ロボット事前学習分布と整合しません。
1.2 主要な貢献
認知科学の知見に基づき、人間が操作タスクを二重記憶システムで処理することに着想を得ています。working memoryとepisodic memoryの仕組みを参考に、MemoryVLAという新しいフレームワークを提案しました。
認知科学に基づく設計として、VLMの常識的な事前知識を活用します。知覚と認知の記憶メカニズム、拡散アクション専門家を組み合わせることで、ロボット操作における長期的な時系列の依存関係を捉えるフレームワークを提案しています。
Perceptual-Cognitive Memory Bank(PCMB)の設計として、高レベル認知と低レベル知覚での決定関連コンテキストの記憶検索を実現します。現在の表現との適応的統合や、時系列的な隣接エントリで意味的に類似したものの統合を可能にする記憶システムを開発しています。
最先端性能の達成として、SimplerEnv、LIBERO、実世界タスクで最先端性能を達成し、強固な頑健性と汎化能力を実証しています。特に困難な長期実世界タスクでCogACTを26ポイント、π₀を上回る具体的な性能向上を示し、時系列記憶モデリングの重要性を裏付けています。
2. 提案手法
2.1 手法の概要
MemoryVLAは人間の記憶システムから着想を得た新しいフレームワークです。
現在のRGB観察と言語指示が7B VLMによって知覚トークンと認知トークンに
エンコードされ、短期作業記憶を形成します。
知覚-認知メモリバンク(PCMB)は海馬にヒントを得た長期記憶システムで、
高レベルの意味と細かな視覚詳細を保持します。作業記憶はPCMBから関連する
歴史的文脈を検索し、現在のトークンと適応的に融合させます。
そして意味的に類似する隣接エントリを統合してPCMBを更新します。
記憶で拡張されたトークンは拡散変換器に供給され、未来のアクション
シーケンスを予測します。この設計により時系列依存を明示的に
モデル化できます。
2.2 技術的詳細
視覚言語認知モジュールでは、Prismatic VLMをベースとしています。
視覚エンコードにはDINOv2とSigLIPを並行使用し、特徴を結合して
視覚トークンを生成します。SE-bottleneckを用いた知覚圧縮モジュールが
256個の知覚トークンに圧縮します。
同時に、視覚トークンは言語埋め込み空間に投影され、トークン化された
指示と結合されてLLaMA-7Bに入力されます。EOS位置の出力が認知トークンと
なり、高レベル認知意味を表現します。
PCMBは知覚と認知の両方向で最大L個のエントリを維持します。
記憶検索では、現在のトークンがクエリとして機能し、時間ステップの
正弦波埋め込みを位置エンコードとして使用します。注意機構により
関連する歴史情報を検索します。
ゲート融合では学習されたゲートを通じて検索された記憶と現在の表現を
統合します。記憶統合では、容量制限へ達した際は隣接エントリを比較します。
余弦類似度を計算し、最も類似したペアを平均化して統合します。
2.3 新規性
従来のVLAモデルとの主要な違いは以下です。
時系列モデル化への明示的取り組みが新規性の核心です。OpenVLAや
π₀などは現在観測のみに依存しますが、MemoryVLAは歴史的文脈を
活用します。
認知科学に基づく双方向記憶アーキテクチャが独特です。作業記憶と
長期記憶の分離、知覚と認知の並行処理、適応的ゲート融合機構が
従来手法にない特徴です。
記憶統合による効率性も重要な新規性です。単純な記憶蓄積ではなく、
意味的類似性に基づく動的統合により長期記憶を効率的に管理します。
3. 実験結果
3.1 実験設定
実験は3台のロボット、10のスイート、150以上のタスクで構成され、
500以上のバリエーションを含みます。
シミュレーション環境としてSimplerEnv(BridgeとFractal)を使用しました。またLIBEROでは5つのスイート(Spatial・Object・Goal・Long・LIBERO-90)を使用しました。
実世界では一般タスクと長期時系列タスクを評価しました。
実装では8台のNVIDIA A100 GPUでトレーニングし、PyTorch FSDPを
使用しました。グローバルバッチサイズ256、学習率2×10⁻⁵で
最適化しました。推論時はDDIMで10サンプリングステップを使用しました。
3.2 主要な結果
SimperEnv-Bridgeで平均成功率71.9%を達成しました。CogACTに対して
14.6ポイントの改善を示し、π₀も上回りました。
SimperEnv-Fractalでは全体成功率72.7%で、CogACTを4.6ポイント
上回りました。Visual Matchingで77.7%、Visual Aggregationで
67.7%の成功率でした。
LIBERO全体で96.5%の成功率を達成し、CogACTを3.3ポイント上回り
ました。各スイートでSpatial 98.4%、Object 98.4%、Goal 96.4%、
Long 93.4%、LIBERO-90 95.6%の成績でした。
3.3 既存手法との比較
実世界評価において一般タスクでは平均85%、長期時系列タスクで83%の
成功スコアを達成しました。CogACTに対してそれぞれ9ポイント、
26ポイントの改善を示しました。
特に長期時系列タスクで顕著な改善が見られました。「Seq. Push Buttons」
で43ポイント、「Change Food」で38ポイント、「Guess Where」で
32ポイントの改善を達成しました。
アブレーション研究により各コンポーネントの重要性が確認されました。
知覚と認知記憶の組み合わせが単独使用より優秀で、記憶長16が
最適でした。ゲート融合と統合機構も性能向上に貢献しました。
4. 実用性評価
4.1 実装の容易性
既存のVLMアーキテクチャを基盤とするため実装は比較的容易です。
Prismatic VLMとLLaMA-7Bという標準的なコンポーネントを使用し、
メモリバンクは追加モジュールとして統合できます。
ただし、記憶管理機構の実装には注意が必要です。適応的ゲート融合や
意味的類似性に基づく統合には専門知識が求められます。
4.2 計算効率
7Bパラメータのコアモデルに加えて約300Mパラメータの拡散アクション
専門家を使用します。推論時のDDIM 10ステップは高速な生成を可能に
します。
記憶機構の計算オーバーヘッドは制限されています。最大L個のエントリで
メモリサイズを制御し、統合機構により効率性を維持します。
4.3 応用可能性
ロボット操作以外でも時系列の意思決定問題への応用が期待されます。
自動運転、ゲーム戦略、対話システムなど、歴史的文脈が重要な
分野で活用できる可能性があります。
クロス・エンボディメント対応により異なるロボット間での転移学習も
可能です。実世界での頑健性と汎化能力が実用性を支えています。
5. まとめと所感
5.1 論文の意義
認知科学からの着想という独創的なアプローチが印象的です。
人間の記憶システムを模倣したフレームワークは理論的に興味深く、
実際の性能向上につながっています。
時系列モデル化の重要性を具体的に実証した点も重要です。
長期操作タスクでの性能改善により、記憶機構の実用的価値を
明確に示しました。
5.2 今後の展望
記憶反射機能の開発が今後の方向として示されています。長期記憶を
LLM入力空間に整合させることで、埋め込み空間での思考連鎖推論が
可能になる可能性があります。
生涯記憶システムの構築も重要な課題です。生物学的統合に基づく
永続的表現により、シーン、タスク、エンボディメント間での
スケーラブルな汎化が期待されます。