ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

著者 Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
所属 Zhejiang University, Zhejiang University of Technology, The Chinese University of Hong Kong Shenzhen
投稿日 2025年08月中旬
カテゴリ cs.RO, cs.AI

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

基本情報

  • arXiv ID: 2508.08240v1 (https://arxiv.org/abs/2508.08240)
  • 著者: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
  • 所属: Zhejiang University, Zhejiang University of Technology, The Chinese University of Hong Kong Shenzhen
  • 投稿日: 2025年08月中旬
  • カテゴリ: cs.RO, cs.AI

簡単に説明すると

この論文では、四足歩行ロボットに操作アームを搭載し、複雑な地形での長期タスクを実行可能にする統合フレームワーク「ODYSSEY」を提案しています。従来、ナビゲーションと操作を別々に扱っていた問題を統合的に解決し、言語指示に基づいて複雑な作業を自律的に実行できるシステムを実現しています。

具体的には、ビジョン言語モデル(VLM)を活用した階層的なタスクプランナーと、強化学習ベースの全身制御ポリシーを組み合わせることで、屋内外の様々な環境での物体操作、運搬、ナビゲーションなどのタスクを実行できます。プロジェクトページ(https://kaijwang.github.io/odyssey.github.io/)では、実際のロボットのデモンストレーション動画が公開されています。

このシステムは、Unitree Go2四足歩行ロボットとArx5マニピュレータを組み合わせたハードウェアプラットフォーム上で実装され、シミュレーションから実世界への転移(sim-to-real)にも成功しています。

1. 研究概要

1.1 背景と動機

オープンワールド環境でのモバイルマニピュレーションは、ロボットが動的で構造化されていない環境で自律的にナビゲートし、相互作用することを可能にする技術です。これは、従来のナビゲーションと操作を分離するアプローチとは異なり、モビリティ、マニピュレーション、リアルタイム知覚を緊密に統合する統一的なアプローチです。

既存研究では、動的環境でのナビゲーションや制御された環境での操作において堅牢なソリューションが開発されてきました。しかし、これらの手法は以下の3つの根本的な制限に直面していました:

  1. 空間推論とタスク計画の限界:大規模言語モデルは学習された意味的事前知識を通じて空間推論とタスク計画の向上を示していますが、既存の実装は卓上シナリオに限定されており、モバイルプラットフォーム特有の制約された知覚と限定された作動範囲に対処できていません。

  2. 操作戦略の汎化不足:現在の操作戦略は、オープンワールド環境で遭遇する多様な物体構成に直面すると、十分な汎化性を示しません。

  3. 移動と操作の協調制御の未熟さ:実用的な展開には重要であるにもかかわらず、構造化されていない環境での高いプラットフォーム機動性と精密なエンドエフェクタ制御の二重要件は、文献で十分に研究されていません。

これらの課題に対処するため、OD YSSEYフレームワークが開発されました。

1.2 主要な貢献

この研究の主要な貢献は以下の4つです:

  • 自己中心的知覚と言語条件付きタスクの間のギャップを埋める階層的ビジョン言語プランナーを導入し、長期指示を実行可能なアクションに分解
  • 困難な地形に汎化しながら、移動と操作を共同で調整する初の全身制御ポリシーを提案
  • 現実的な屋内外シナリオの幅広い範囲をカバーする、初の長期モバイルマニピュレーションベンチマークを導入
  • 高レベルプランナーと低レベル制御ポリシーの両方のsim-to-real転移に成功し、実世界展開における強力な汎化性と堅牢性を実証

2. 提案手法

2.1 手法の概要

OD YSSEYは、長期タスク計画、全身制御、モバイルマニピュレーションの標準化された評価を含む統一フレームワークです。システムは以下の3つの主要コンポーネントから構成されています:

  1. 粗から細へのタスクプランナー(Coarse-to-Fine Task Planner):基盤モデルの指導下でトップダウンのタスク実行を調整する階層的プランナー
  2. 四足歩行全身ポリシー(Quadruped Whole-Body Policy):多様な地形に汎化し、sim-to-realギャップを克服する強化学習ベースの全身コントローラー
  3. モバイルマニピュレーションベンチマーク(Mobile Manipulation Benchmark):多様な実世界シナリオにわたる長期タスクパフォーマンスを評価する初のスケーラブルな評価スイート

2.2 技術的詳細

マップ認識タスクレベル計画では、まず軽量なマルチモーダル知覚モジュールをプラグインコンポーネントとして統合するグローバルプランナーを構築します。具体的には、オンボードのRGBとLiDARストリームを融合して、シーンの統一された空間意味表現を形成します。事前学習済みの基盤モデルスイートを活用して、シンボリックタスク推論のためのオブジェクトジオメトリとセマンティクスをエンコードするインスタンスグラフをマッピングします。

GPT-4.1を使用して、テンプレートフリーの自然言語指示を事前定義されたアトミックアクションのシーケンスに分解します:navigatepickplacepush/pull/drag。各アクションは、タスクの進行状況を追跡し、ローカルプランニングのガイダンスを提供する言語記述とペアになります。

幾何学的制約付きローカル操作では、手首に取り付けられた深度カメラからの観測を使用して、精密なエンドエフェクタポーズ生成のためのビジョン言語モデルをガイドします。Qwen2.5-VL-72B-Instructを使用して、画像空間でタスク関連の接触点を推論し、以下の幾何学的制約に従ってエンドエフェクタの向きを生成します:

  • 軸整列制約:ターゲットオブジェクトが支配的な軸を持つ場合、エンドエフェクタのx軸とz軸の両方がそれに直交する必要がある
  • 表面法線制約:オブジェクトが平面に取り付けられている場合、エンドエフェクタのz軸は表面法線と整列する必要がある

全身制御ポリシーは、2段階の強化学習アプローチを採用しています。第1段階では移動に焦点を当て、第2段階では操作機能を追加します。報酬関数には、ベース速度追跡、歩行形成、エンドエフェクタポーズ追跡、および各種正則化項が含まれます。

2.3 新規性

既存手法との主な違いは以下の通りです:

  • 階層的計画と地形適応型移動を統合することで、構造化されていない環境での堅牢なモバイルマニピュレーションを実現
  • 単一の視覚運動インターフェースを通じて多様な物理的アクションの実行を統一し、アクションごとのヒューリスティクスの必要性を排除
  • 自己中心的知覚のみに依存しながら、外部カメラを使用する既存手法を上回る精密な操作能力を達成
  • 短期および長期タスクの包括的なベンチマークを提供し、低レベル操作と高レベル計画の両方でベンチマーキングを可能に

3. 実験結果

3.1 実験設定

実験は以下の設定で行われました:

  • ハードウェア:Unitree Go2四足歩行ロボット(12自由度、重量15kg、ペイロード8kg)にArx5マニピュレータ(6自由度、重量3.35kg)を搭載
  • センサー:内蔵Unitree L1 LiDAR、MID-360 LiDAR(位置推定用)、RealSense D435i(ヘッドマウントRGB)、RealSense D405(グリッパーマウントRGB-D)
  • 制御:50Hzで動作する制御ポリシー、200Hzでモーターコマンドを発行するPDコントローラー

評価は3つのレベルで実施されました:

  1. ARNOLDショートホライズンタスク:4つの単一ステップ操作タスク(PickupObject、ReorientObject、OpenCabinet、CloseCabinet)
  2. ODYSSEYロングホライズンタスク:8つのマルチステージタスク(屋内246、屋外58のバリエーション)
  3. 実世界でのsim-to-real転移実験

3.2 主要な結果

ショートホライズンタスクの性能では、ARNOLDベンチマークの最強ベースラインであるPerActとの比較において、OD YSSEYは大幅な改善を示しました:

  • 見たことのあるデータでの成功率:PickupObject 60.45%(PerAct: 94.03%)、ReorientObject 51.32%(PerAct: 19.48%)、OpenCabinet 56.30%(PerAct: 31.09%)、CloseCabinet 74.32%(PerAct: 60.81%)
  • 新規データでの成功率:全てのタスクでPerActを上回り、特にReorientObject(52.09% vs 8.23%)とOpenCabinet(51.09% vs 16.62%)で顕著な改善

PerActは5台の外部カメラを使用して正確な空間知覚を実現しているのに対し、OD YSSEYは単一の自己中心的カメラのみに依存しながら、優れた細かい操作能力を実証しました。

ロングホライズンタスクの性能では、8つの長期モバイルマニピュレーションタスクで一貫して40%以上の全体的な成功率を達成しました:

  • Indoor Collect: 66.7%、Room Navigate: 69.8%、Cart Delivery: 41.0%、Cabinet Storage: 44.9%
  • Restocking: 56.7%、Shopping: 47.5%、Outdoor Collect: 63.3%、Outdoor Delivery: 46.4%

アトミックアクション別の成功率も高く、Navigate(86.6-98.4%)、Pick(69.0-85.0%)、Place(72.7-96.8%)、Push/Pull(71.0-94.1%)、Drag(69.2-79.2%)となっています。

3.3 既存手法との比較

低レベル制御ポリシーの比較では、RoboDuetベースラインと比較して以下の改善を示しました:

  • ベース追跡エラー:移動時のx方向エラーが9.70から0.36に、角度エラーが60.59から0.79に大幅に減少
  • エンドエフェクタ追跡:位置と向きの追跡性能は同等を維持
  • より小さなトレーニングワークスペースから、より大きな評価ワークスペースへの強力な汎化能力を実証

地形データをポリシーの観測に含めることで、ロボットの状態推定が向上し、ベース速度追跡の改善につながったことが示されています。

4. 実用性評価

4.1 実装の容易性

システムは標準的な市販ハードウェア(Unitree Go2とArx5マニピュレータ)を使用しており、研究コミュニティでの再現が比較的容易です。階層的なアーキテクチャにより、高レベルプランナーと低レベル制御を独立して開発・改善できる設計となっています。

提供されるベンチマークは、YAMLベースの設定ファイルとしてタスクを定義しており、新しいタスクやシナリオの追加が容易です。また、ARNOLDベンチマークからの移行パイプラインも提供されており、既存のベンチマークとの互換性も確保されています。

4.2 計算効率

制御ポリシーは50Hzで動作し、リアルタイム性を確保しています。高レベルプランナーはGPT-4.1とQwen2.5-VL-72Bを使用していますが、これらは必要に応じて呼び出されるため、継続的な計算負荷は低く抑えられています。

シミュレーション環境では4096の並列エージェントでの評価が可能であり、大規模な実験やパラメータ調整を効率的に行うことができます。

4.3 応用可能性

OD YSSEYの応用可能性は以下の分野で特に高いとされています:

  • 災害対応:瓦礫や不整地での探索・救助活動
  • 物流・倉庫管理:複雑な環境での物品の取り扱いと運搬
  • 家庭用サービスロボット:階段や段差のある環境での日常タスクの実行
  • 建設・インフラ点検:危険または到達困難な場所での作業

特に、四足歩行の機動性と精密な操作能力の組み合わせは、車輪型ロボットでは対応困難な環境での作業を可能にします。

5. まとめと所感

5.1 論文の意義

この研究は、モバイルマニピュレーション分野において重要な技術的進歩を示しています。特に、従来別々に扱われていたナビゲーションと操作を統合し、言語指示から実行までの完全なパイプラインを実現した点は画期的です。

階層的なアプローチにより、高レベルの意味的推論と低レベルの精密制御を効果的に結合し、複雑な実世界タスクの実行を可能にしています。また、包括的なベンチマークの提供により、今後の研究の標準的な評価基盤を確立したことも重要な貢献です。

sim-to-real転移の成功は、提案手法の実用性を示す重要な証拠であり、研究成果が実世界のアプリケーションに直接適用可能であることを示しています。

5.2 今後の展望

論文では今後の研究方向として以下が述べられています:

  • ビジョン言語モデル(VLM)とモバイルマニピュレータのクロスエンボディメント評価を可能にする包括的な評価パラダイムへのベンチマークの拡張
  • アクティブパーセプションの創発的能力の探求、動的なシーン理解と適応的動作がより効率的な実世界相互作用のために相乗効果を生む可能性

課題としては、小さな物体の把持における精度の向上、より複雑な操作タスク(例:両手操作)への拡張、計算リソースの最適化などが挙げられます。また、安全性の観点から、人間との協働作業における安全性保証メカニズムの開発も重要な研究課題となるでしょう。