DPMT: Dual Process Multi-scale Theory of Mind Framework for Real-time Human-AI Collaboration

著者 Xiyun Li・Yining Ding・Yuhua Jiang・Yunlong Zhao・Runpeng Xie・Shuang Xu・Yuanhua Ni・Yiqin Yang・Bo Xu
所属 中国科学院・自動化研究所、中国科学院・大学、南開大学、清華大学
投稿日 2025年07月19日
カテゴリ cs.AI, cs.HC

DPMT: Dual Process Multi-scale Theory of Mind Framework for Real-time Human-AI Collaboration

基本情報

  • arXiv ID: 2507.14088v1 (https://arxiv.org/abs/2507.14088)
  • 著者: Xiyun Li・Yining Ding・Yuhua Jiang・Yunlong Zhao・Runpeng Xie・Shuang Xu・Yuanhua Ni・Yiqin Yang・Bo Xu
  • 所属: 中国科学院・自動化研究所、中国科学院・大学、南開大学、清華大学
  • 投稿日: 2025年07月19日
  • カテゴリ: cs.AI, cs.HC

簡単に説明すると

DPMT(Dual Process Multi-scale Theory of Mind)フレームワークは、リアルタイム人間-AI協調のための新手法です。認知科学の二重過程理論に着想を得て、迅速な意思決定を行う「高速システム」と精神特性を推論する「低速システム」を組み合わせます。低速システムの「マルチスケール心の理論(ToM)」モジュールは、ドメイン知識、認知スタイル、ドメイン意図の3段階で人間の精神状態を推論します。Overcookedでの実験では、DPMTが従来手法よりも人間との協調性能を約121点(従来手法の99点)に向上させました。

1. 研究概要

1.1 背景と動機

近年、大規模言語モデル(LLM)は会話型・QAアシスタントやコード生成など、様々な分野で専門家レベルの性能を達成しています。LLMの優れた知覚、理解、推論能力を基盤として、LLMエージェントが急速に発展し、幅広い注目を集めています。

しかし、複雑な協調タスクへの適応は大きな課題です。Overcookedではエージェントが時間内に複雑なサブタスクを完了します。人間の協力者は限定合理性に制約され、ドメイン知識が不完全な場合もあります。

現在のLLMエージェントには、「心の理論(Theory of Mind、ToM)」と呼ばれる人間のような認知能力が欠けています。ToMは、観察された行動から他者の精神状態を理解し予測する能力で、直接的なコミュニケーションなしで効果的な協調を実現します。ToMの欠如は、複雑なリアルタイム人間-AI協調タスクにおけるLLMエージェントのパフォーマンスを阻害しています。

1.2 主要な貢献

本研究では、二重過程理論に着想を得た「認知二重過程マルチスケール心の理論(DPMT)」を提案し、リアルタイム人間-AI協調における人間パートナーモデリングの解釈可能性と効率性を向上させました。DPMTフレームワークは、リアルタイム人間-AI協調のための2つの意思決定システムを区別します。自動的な決定のための「高速システム」と、より高次の認知能力をモデリングするための「低速システム」です。

本研究の核心的な貢献は、「マルチスケール心の理論モジュール」の開発です。これは、人間パートナーの行動軌跡を理解し、彼らの精神特性を推論するための低速システムをシミュレートし、より効果的な協調を促進します。このToMプロセスは、3つの階層的な推論プロセスに従います。ドメイン知識から認知スタイル、最終的にドメイン意図へと進みます。

Overcooked環境での実験結果は、DPMTがリアルタイム人間-AI協調を改善する効果を実証しています。特に、固定戦略の人間パートナーとの協調実験では、DPMTはすべてのマップで優れた協調パフォーマンスを示しました。さらに、多様な戦略を持つ30名の参加者との実験でも、DPMTは一貫してベースライン手法を上回り、主観的評価でも高いスコアを獲得しました。

2. 提案手法

2.1 手法の概要

DPMTフレームワークは、情報抽出器、低速推論システム、高速直感システム、アクションデコーディングモジュールという複数のコンポーネントで構成されています。情報抽出器は、環境観測$o_t$と人間パートナーの軌跡$c_{t-1}$を言語状態に変換し、システムキュー$p_t^{\textrm{system}}$として表現します。

高速システムは迅速な直感・意思決定に焦点を当てます。事前定義されたマクロアクションセットから$m_t$を選択します。低速システムはマルチスケールToM推論で$k_t$、$y_t$、$n_t$をモデリングします。

アクションデコーディングモジュールは、現在のマクロアクション$m_t$をアトミックアクション$a_t$に分解し、$m_t$が完了するまで高い頻度で実行します。$m_t$が完了すると、高速システムは低速推論システムからのマルチスケールパートナー推論$k_t$、$y_t$、$n_t$に基づいて、後続の$m_{t+1}$を決定します。

2.2 技術的詳細

低速システムの中核となるマルチスケール心の理論モジュールは、社会心理学の研究に基づいて設計されています。これらの研究は、個人の行動に影響を与える様々な精神特性を3つの主要な次元に分類しています。ドメイン知識、認知スタイル、ドメイン意図です。

ドメイン知識推論段階は知識キュー$p_t^{\textrm{knowledge}}$を入力とします。
これは言語状態$p_t^{\textrm{system}}$、軌跡$c_{t-1}$、推論ケースを統合します。
知識コーパスの情報も含みます。

認知スタイル推論段階のキュー$p_t^{\textrm{style}}$は3要素です。
それらは$p_t^{\textrm{knowledge}}$、$y_{t-1}$、$k_t$です。
スタイルコーパスを用いて$y_t$を予測します。

ドメイン意図推論段階$\textrm{ToM}_{\textrm{intention}}$は$k_t$と$y_t$に基づきます。短期・長期意図コーパスをキュー$p_t^{\textrm{intention}}$に組み込み、予測された意図$n_t$を出力します。

高速システムは、リアルタイム性を実現するために、llama-13Bのような小規模なLLMを活用してレイテンシを削減します。高速システムは、トークン確率を計算することでマクロアクション確率を計算します。各マクロアクションはトークンのシーケンスとして表現され、LLMは低速システムからの人間ToM推論に基づいてトークンシーケンスの確率を評価します。

2.3 新規性

先行研究では、人間のパートナーとAIエージェント間のコミュニケーションを促進することで、LLMエージェントの適応性と意思決定能力を向上させることに焦点を当てていました。しかし、コミュニケーションの改善だけでは、リアルタイムシナリオの課題に対処できません。

本研究の新規性は以下の点にあります。

  • 認知科学の二重過程理論をLLMエージェントに適用し、高速・低速の2つのシステムを統合した初めてのフレームワーク
  • マルチスケールToMモジュールによる人間の精神特性の階層的モデリング(知識→スタイル→意図)
  • LLMの解釈可能性と幅広い世界知識を活用した、高品質な軌跡や事前知識に依存しないToMモデリング
  • マルチスレッディング実装による、リアルタイム性と推論性能の両立

3. 実験結果

3.1 実験設定

実験環境はOvercookedで、人間-AI協調の主要なベンチマークです。Liuらの最近の研究に基づいて3つのマップで実験しました。この環境では、エージェントと人間のプレイヤーが協力して、限られた時間内にできるだけ早く料理タスクを完了し、より高い報酬を達成します。

環境には3つのマップが含まれます。Ring、Bottleneck、Quickで、それぞれ異なる難易度を持ちます。QuickとBottleneckマップはより挑戦的です。注文完了には特定のステップシーケンスに従います。エージェントと人間は材料を取得・調理し、皿に盛り付けて提供します。

実験は2つのパートに分かれます。実験1では、固定戦略を持つ人間パートナーとの協調を評価しました。ベースライン手法には、Qwenを使用したDPMT、マルチスケールToM(MsToM)なしのDPMT、HLAgentが含まれます。実験2では、多様な戦略を持つ30名の参加者(26名男性、4名女性、年齢20〜50歳)との協調を評価しました。

3.2 主要な結果

実験1の結果では、DPMT手法がすべてのマップで一貫して優れた協調パフォーマンスを達成しました。

  • Ringマップ: DPMT 121(±53.56)、HLAgent 99(±18.81)
  • Bottleneckマップ: DPMT 101(±13.56)、HLAgent 60(±20.74)
  • Quickマップ: DPMT 104(±16.73)、HLAgent 87(±16.00)

特に注目すべきは、MsToMを削除したDPMTの性能が平均で約78%低下したことです(Ring: 44、Bottleneck: 23、Quick: 9)。これは、マルチスケール・精神特性ToM推論モジュールの重要性を示しています。

アブレーション実験では、特定の精神特性・推論段階(知識、スタイル、意図)を削除した場合の影響を分析しました。スタイル層を削除するとBottleneckマップで顕著な性能低下が見られ、意図推論層を削除するとQuickマップで大きな性能低下が発生しました。

実験2では、多様な人間参加者との協調でもDPMTが一貫してベースライン手法を上回りました。主観的評価でも、DPMTはすべてのマップで最高スコアを獲得しました(5点満点)。

  • Ring: DPMT 4.07(±0.53)、HLAgent 3.09(±0.30)
  • Bottleneck: DPMT 4.02(±0.45)、HLAgent 2.78(±0.59)
  • Quick: DPMT 4.02(±0.61)、HLAgent 3.22(±0.69)

3.3 既存手法との比較

既存のHLAgentベースラインと比較して、DPMTは特にBottleneckのような複雑なマップで優れた性能とより安定したパフォーマンスを達成しました。Bottleneckマップは、狭い通路を持つより複雑な構造で、ブロッキング率が高くなります。これは、効果的な人間-AI協調を達成する上で正確なToM推論が重要な役割を果たすことを強調しています。

GPT-4o APIをQwen-72Bに置き換えた場合、Quickマップでわずかな改善が見られました。この向上は、レイテンシによるリアルタイム実験結果の小さな変動に起因する可能性があります。

マルチスケール・精神特性ToM推論モジュールの導入により、スープ提供の成功率が高くなりました。障害率が低下し、人間パートナーの精神特性を正確に予測し、料理の焦げすぎも減少しました。

4. 実用性評価

4.1 実装の容易性

DPMTフレームワークは、モジュール化された設計を採用しており、各コンポーネントは明確に定義された役割を持っています。低速システムには大規模LLM(GPT-4oまたはQwen-72B)が必要ですが、高速システムにはより小さなLLM(llama-13B)で十分です。

マルチスケールToMモジュールの実装には、以下のコーパスが必要です。

  • パートナードメイン知識推論ケース
  • カスタマイズされたドメイン知識コーパス
  • パートナースタイルコーパス
  • 短期意図ケースおよび長期意図推論コーパス

これらのコーパスは、人間の行動実験から観察されたパターンに基づいて設計され、構造化された形式(名前、説明段落、代表的な例)で保存されます。

4.2 計算効率

マルチスレッディング実装により、低速システムのパートナーモデリングのための推論は、高速システムのマクロアクション決定よりも長い時間スケールで動作します。この設計により、高速システムがより頻繁に実行され、応答性の高いリアルタイム人間-AI協調が可能になります。

高速システムでは、大きなモデル(GPT-4oなど)は優れた推論能力を示しますが、高いレイテンシが高速システムには不適合です。そのため、llama-13Bのような小規模LLMを使用してレイテンシを削減し、リアルタイム協調を実現しています。小さなモデルが最適ではない決定を下す可能性がありますが、低速システムからの正確なパートナー推論を活用することでこれを補償しています。

4.3 応用可能性

DPMTフレームワークの基本原理は、Overcookedを超えて様々な人間-AI協調タスクに適用できます。二重過程構造とマルチスケールToMモデリングは、以下のようなシナリオに特に有効です。

  • ロボット支援タスク:工場や倉庫で人間とロボットが協働する場面
  • 医療AIアシスタント:医療従事者の意図や知識レベルを理解して支援
  • 教育AIシステム:学習者の認知スタイルと知識レベルを考慮した個別化指導
  • チームコラボレーションツール:バーチャル会議や共同作業でのメンバーの意図理解

特に、複雑なマップで最も大きな性能向上が見られたことから、より複雑な人間-AI協調タスクに取り組む可能性を示しています。また、直接的なコミュニケーションが制限される状況で特に有効であることが実証されています。

5. まとめと所感

5.1 論文の意義

本研究は、人間-AI協調の分野において重要な進歩をもたらしました。認知科学の二重過程理論をLLMエージェントに初めて適用し、リアルタイム性と高度な推論能力を両立させたことは、実用的なAIシステムの設計に新たな方向性を示しています。

特に重要なのは、マルチスケール心の理論モジュールの導入です。ドメイン知識から認知スタイル、そしてドメイン意図へと進む階層的な推論プロセスは、AIによる人間理解の新しいアプローチを提供しています。これにより、AIエージェントは単に行動を予測するだけでなく、人間の精神状態や意図を理解し、最適な協調戦略を立てることが可能になりました。

実験結果は、DPMTが特に複雑な環境で優れた性能を発揮することを示しています。これは、現実世界の複雑な協調タスクへの応用可能性を強く示唆しています。また、多様な人間パートナーとの実験で高い主観的評価を得たことは、ユーザー受容性の高さを示しています。

5.2 今後の展望

今後の研究方向として、以下のような課題が考えられます。

スケーラビリティの改善:現在の実装では、低速システムに大規模LLMが必要です。計算量を削減するモデルや推論手法の開発が望まれます。

精神特性推論の精度向上:現在のコーパスベースのアプローチに加えて、機械学習手法を組み合わせることで、より正確な推論が可能になる可能性があります。

多様なタスクへの適用:Overcooked以外の様々な協調タスクへのDPMTの適用を検証し、汎用性を検証します。

マルチモーダル情報の統合:言語情報だけでなく、視覚情報や音声情報を統合することで、より豊かな人間理解が可能になるでしょう。

安全性と倫理的考慮:人間の精神状態を推論することの倫理的影響と、プライバシー保護の問題についても検討が必要です。

二重過程理論に着想を得たDPMTフレームワークは、人間-AI協調の新たな可能性を開きました。この研究が、より自然で効果的な人間とAIの協働を実現するための重要な一歩となることを期待しています。