LISN: Language-Instructed Social Navigation with VLM-based Controller Modulating
LISN: Language-Instructed Social Navigation with VLM-based Controller Modulating
基本情報
- arXiv ID は 2512.09920v1 である(https://arxiv.org/abs/2512.09920 )
- 著者は Junting Chen、Yunchuan Li、Panfeng Jiang らである
- 所属機関はシンガポール国立大学、RoboScience、上海科技大学、南京大学、中国科学技術大である
- 投稿日は2024年12月13日である
- カテゴリは cs.RO、cs.AI である
簡単に説明すると
この論文は、ロボットが人間社会で安全かつ適切にナビゲーションするための新しい枠組みを提案しています。
従来の社会的ナビゲーション研究は主に障害物回避と経路効率に焦点を当てていましたが、言語指示への従順性や社会的規範の遵守は十分に考慮されていませんでした。
本研究では、言語指示による社会的ナビゲーション(LISN)という新しいタスクを定式化し、初のベンチマーク「LISN-Bench」を構築しました。
さらに「Social-Nav-Modulator」という高速・低速階層システムを提案し、Vision-Language Model(VLM)エージェントがコストマップとコントローラパラメータを動的に調整します。
低レベルのアクション生成を高頻度なVLM推論から分離することで、リアルタイムでの動的回避能力を維持しながら高度な社会的行動を実現しています。
実験では平均成功率91.3%を達成し、最も競争力のあるベースラインを63%上回る性能を示しています。
プロジェクトサイトは https://social-nav.github.io/LISN-project/ で公開されています。
1. 研究概要
1.1 背景と動機
モバイルロボットが人間社会に成功的に統合されるためには、単に一地点から別の地点へナビゲーションするだけでなく、暗黙的および明示的な社会的規範を尊重する必要があります。
これには単純な障害物回避を超えた社会的知能が求められます。
従来の社会的ナビゲーション研究は、経路長、移動時間、人間との最小距離などの指標を用いて、主に低レベルの能力である衝突回避と経路効率を評価していました。
これらの指標は重要ですが、言語指示で指定された社会的ルールに従わなければならない高レベルのナビゲーション行動を見過ごしていました。
例えば病院環境において、モバイルロボットは患者に付き添い医療機器を運搬したり、タスクに応じて距離を保つ必要があります。
また手術室などの特定領域への接近や回避も必要に応じて行う必要があります。
ロボットはコマンドを解釈し、シーン内の重要な要素を認識し、忙しい廊下を安全にナビゲーションしてタスクを完了する必要があります。
1.2 主要な貢献
この研究では、言語指示による社会的ナビゲーションの発展に向けて、以下の主要な貢献を提供しています。
- LISN-Benchの提案:言語指示による社会的ナビゲーションのための初のシミュレーションベースベンチマークで、多様な文脈における指示追従と社会的規範の遵守を明示的に評価
- Social-Nav-Modulatorの開発:VLMベースの高レベル意味的推論と低レベル反応制御を分離する階層的社会ナビゲーションフレームワークで、リアルタイムでの安全保証を維持しながら高度な社会的行動を実現
- 系統的評価による実証:複雑で動的な社会的ナビゲーションシナリオにおいて、既存ベースラインに対する明確な優位性を実証し、大規模VLMの動的障害物回避における効率性制限を明らかにして高速・低速階層設計の有効性を強調
2. 提案手法
2.1 手法の概要
Social-Nav-Modulatorは、VLM能力と古典的社会ナビゲーションプランナーを統合した新しい高速・低速システムです。
このシステムは、マルチモーダル理解のためのVLMモデルとアクション生成を使用しますが、一般的なVLMモデルの推論時間が数秒以上かかることから、VLMモデルに直接ナビゲーションアクションを生成させることは非効率で衝突リスクを増加させます。
VLMモデルの推論と低レベル制御の間の推論時間ギャップに対処するため、セマンティクスに基づいてコストマップ値とプランナパラメータを調整するVLMモデルを適用します。
一方、低レベル反応制御システムは動的回避とナビゲーションのために高頻度で独立動作します。
全体のコスト関数をJ、時刻tでの状態をS_t、観測をO_t、言語指示をLとして、手法の概要を次のように定式化できます:
- θ_T、M_T = VLM(L, O_T) (低速システム)
- S_t = Social_CostMap(O_t, M_T) (高速システム)
- v*_t、w*_t = argmin J(S_t|θ_T) (高速システム)
この分離により、ロボットは動的環境でのナビゲーションの安全性と流動性を損なうことなく、微妙で社会的に意識した行動を示すことができます。
2.2 技術的詳細
低速推論モジュールの中核はVLMであり、視覚入力と言語ベースの指示から社会的文脈を解釈する責任があります。
低速ループの決定サイクル(例:10秒ごとまたは新しいユーザークエリ受信時)で、システムはロボットのカメラから現在の一人称視点を取得します。
システムでは2種類のツール関数を使用します:
- 知覚モデル:RoboPointとGrounded-SAM 2を関数呼び出しによってVLMに提供します。RoboPointはナビゲーション目標設定能力を提供し、Grounded-SAMは特定の興味のある領域や人物の分割を支援します。
- パラメータ更新器:VLMが高速ループ社会力制御器の行動パラメータをリアルタイムで動的調整することを可能にします。
高速ループモジュールは、高頻度で即座の環境に反応することで安全で効率的なナビゲーションを確保します。
これは社会力モデル局所プランナーと動的社会コストマップレイヤーで構成されています。
2.3 新規性
この研究の新規性は、VLMの遅い推論と高頻度制御要求の間のギャップを階層的アーキテクチャで解決している点にあります。
従来のVLMベースナビゲーション手法が直接アクション生成に焦点を当てているのに対し、本手法はVLMを高レベル実行者として機能させ、複雑な社会状況を具体的で低次元の制御パラメータとコストマップ設定にマッピングします。
社会力モデルの修正により、特定の対象(医師など)に対する特別な社会力を定義し、短距離での反発と長距離での引力を組み合わせた追従行動を実現しています。
動的社会コストマップレイヤーは、VLMの意味的理解をルート計画に統合する新しいメカニズムを提供します。
実世界展開において重要な安全保証を維持しながら、高度な社会的推論能力を統合している点が本手法の大きな特徴です。
3. 実験結果
3.1 実験設定
すべての実験はArena 3.0シミュレーションフレームワークで実施され、ROS NoeticとGazebo上に構築されています。
提案したLISNタスクで全ベースライン手法を評価しました。
各タスクに対して少なくとも3つの異なるシナリオを設計し、各シナリオを初期条件をランダム化して5〜9回繰り返しました。
使用したモデルとプランナ実装は以下の通りです:
- 低速ループVLM:GPT-4o
- オブジェクト分割ツール:Grounded-SAM2
- ポイント予測ツール:RoboPoint
- 局所プランナ:Social Force Model(SFM)
比較ベースラインとして、VLM-NavとVLM-Social-Navを使用しました。
公平な比較のため、提案手法とベースライン手法の両方で実験にGPT-4oを使用しました。
3.2 主要な結果
実験結果では、提案手法が全シナリオにわたって優れた性能を示しました。
平均成功率は91.3%を達成し、最も競争力のあるベースラインを63%上回る成績を記録しています。
具体的なシナリオ別結果:
- Follow Doctor:成功率100%(ベースラインは0%)
- Reception Desk:成功率100%(ベースラインは13.33%〜50%)
- Public Area:成功率90%(ベースラインは30%〜55%)
- Go Forklift in Hurry:成功率100%(ベースラインは33.33%〜60%)
- Go Forklift Carefully:成功率66.67%(ベースラインは0%〜16.67%)
衝突率においても大幅な改善を示し、多くのシナリオで0%の衝突率を達成しました。
パス平滑性においても他手法を大きく上回る結果を得ています。
3.3 既存手法との比較
VLM-Navは視覚的プロンプトを使用してVLMモデルにRGB画像上のナビゲーション目標ピクセルを選択させるゼロショットナビゲーションエージェントです。
VLM-Social-Navは物体検出によってトリガーされるVLMベースナビゲーションシステムで、高レベルアクションを生成します。
これらのベースラインと比較して、提案手法は特に困難なタスクにおいて大幅な性能向上を示しました。
群衆の中での人物追従や指示で禁止された領域の厳密回避といった複雑なタスクで特に優れた結果を得ています。
結果分析により、大規模VLMモデルと動的回避における推論時間ギャップが明らかになり、現在の研究進展下での高速・低速システムの有効性が強調されています。
4. 実用性評価
4.1 実装の容易性
Social-Nav-Modulatorは既存のROS生態系と社会力モデルプランナーに容易に統合可能です。
システムアーキテクチャは明確に分離されており、各コンポーネントの独立した開発とテストが可能です。
VLMエージェントはツールベースアプローチを採用しており、新しい知覚モデルやパラメータ更新機能の追加が比較的簡単です。
事前定義されたプロンプトルールにより、一貫性のある解釈可能な行動が保証されます。
Arena 3.0シミュレーション環境での実装例が提供されており、研究者が容易にシステムを再現し拡張できます。
4.2 計算効率
階層的設計により、高速ループは高頻度(例:10Hz)で動作し、低速ループは必要時のみ(例:10秒間隔)実行されます。
これにより計算資源の効率的使用が実現されています。
VLMの推論時間は数秒かかりますが、それが直接制御ループに影響しないため、リアルタイム性能が維持されます。
社会力モデルプランナーは軽量で高速であり、動的環境での即座の反応を可能にします。
GPT-4oの使用により高品質な推論が可能ですが、より軽量なVLMモデルへの適応も検討可能です。
4.3 応用可能性
提案手法は多様な実環境での応用が期待されます。
病院、オフィス、商業施設、空港などの複雑な社会環境でのロボット展開に適用可能です。
サービスロボット、配送ロボット、案内ロボット、清掃ロボットなど様々なロボット用途に展開できます。
言語指示による柔軟なタスク指定により、同じシステムで多様なミッションを処理できます。
リアルタイム安全保証を維持しながら高度な社会的行動を実現することで、人間とロボットの共存環境での実用性が高まります。
将来的には、より複雑な社会的相互作用や文化的コンテキストへの適応も期待されます。
5. まとめと所感
5.1 論文の意義
この論文は、ロボティクス分野における重要な課題である社会的ナビゲーションに新たな視点を提供しています。
従来の研究が安全性と効率性に焦点を当てていたのに対し、言語指示への従順性と社会的文脈の理解という高次の能力に取り組んでいます。
LISN-Benchの構築により、社会的ナビゲーション研究の標準化された評価基盤が提供され、今後の研究発展に重要な貢献をしています。
多様なシナリオと包括的評価指標により、現実的で実用的な評価が可能になっています。
技術的革新として、VLMの高レベル推論と低レベル制御の巧妙な統合は、実世界ロボットシステムでの重要な課題を解決しています。
階層的アーキテクチャにより、安全性を犠牲にすることなく高度な機能を実現している点は特に評価できます。
5.2 今後の展望
今後の研究方向として、実ロボットシステムでの評価と検証が重要です。
シミュレーション環境での優れた結果を実環境に転移する際の課題と解決策の検討が必要です。
より複雑な社会的相互作用、例えば複数人との同時相互作用や動的に変化する社会的役割への対応も重要な研究課題です。
文化的差異や個人的嗜好を考慮した適応的ナビゲーション行動の実現も興味深い方向です。
計算効率のさらなる改善、特により軽量なVLMモデルでの実現や、エッジコンピューティングでの展開可能性も検討価値があります。
長期的には、人間とロボットの自然な協働を可能にする社会的知能の発展における基盤技術としての発展が期待されます。