Prompt-to-Product: Generative Assembly via Bimanual Manipulation
Prompt-to-Product: Generative Assembly via Bimanual Manipulation
基本情報
- arXiv ID: 2508.21063v1 (https://arxiv.org/abs/2508.21063)
- 著者: Ruixuan Liu*, Philip Huang*, Ava Pun, Kangle Deng, Shobhit Aggarwal
- 共著者: Kevin Tang, Michelle Liu, Deva Ramanan, Jun-Yan Zhu, Jiaoyang Li, Changliu Liu
- 所属: Carnegie Mellon University
- 投稿日: 2025年8月30日
- カテゴリ: cs.RO, cs.AI
簡単に説明すると
この論文は、自然言語の指示から現実世界のLEGO組み立て製品を自動生成する統合パイプライン「Prompt-to-Product」を提案しています。このシステムは2つの主要段階で構成されます。第1段階のLegoGPTは、テキストプロンプトから物理的に構築可能なLEGOデザインを生成します。第2段階のBuilderは、生成されたデザインを実際に組み立てるbimanual(双腕)ロボットシステムです。
21名の参加者による包括的なユーザー研究により、Prompt-to-Productは手動での組み立て製品作成に比べて身体的労力と精神的労力を統計的に有意な水準で削減することが実証されました。特に複数の組み立て品を作成する場合、ユーザーはロボット支援システムを強く好む傾向が示されました。
1. 研究概要
1.1 背景と動機
デザインコンセプトを実際の製品に変換することは、創造性と技術の専門知識の両方を要求する複雑で時間のかかるプロセスです。生成AI技術の発展により単体オブジェクトの物理的プロトタイピング障壁は下がりましたが、複数の相互接続部品から構成される組み立て物体については課題が残っています。
従来の手法は主として接続された一体構造の剛体オブジェクトを対象としており、組み立て物体は適用できません。しかし、おもちゃから家具、機械、電子機器まで、現実世界のほとんどの工学製品は本質的にモジュラーであり組み立てが必要です。3D組み立てデザインを物理的現実に変換することは、視覚的・美的期待だけでなく、厳しい物理制約も満たさなければならないため、特に困難です。
1.2 主要な貢献
本研究の主要な貢献は、自然言語プロンプトから現実世界の3D組み立て製品への完全な変換システムの実現にあります。従来のシステムとは異なり、高い再現性、カスタマイズ可能性、および数百個の部品を含む複雑な構造へのスケーラビリティを提供します。
本研究では次のような点で貢献しています。
- テキストプロンプトから現実世界のLEGO組み立て製品を作成する自動パイプライン「Prompt-to-Product」の提案。
- 高度な器用性を持つ統合bimanualロボットシステム「Builder」の導入。
- 21名の参加者による包括的ユーザー研究の実施。
- 抽象的アイデアから組み立て製品作成における手動努力の大幅削減の実証。
2. 提案手法
2.1 手法の概要
Prompt-to-Productは段階的アーキテクチャを採用し、自然言語プロンプトから物理的LEGO組み立て品への変換における異なる課題を分離して対処します。このモジュラー設計により、前段では創造的推論、後段では器用な操作を適用可能にし、物理推論モジュールによって全体の実現可能性と一貫性を維持します。
システムは以下の数学的定式化で表現されます。
B̂ = f_design(u) ∈ D_constrained(u)
G = f_build(B̂)
B ← ROBOT_EXECUTION(G) ∈ D_buildable(u)
2.2 技術的詳細
Stage 1: LegoGPT による設計生成
LegoGPT++はマルチヘッド生成機能を備え、与えられたプロンプトに対して複数のデザイン候補を生成し、最適なものを選択します。物理制約(環境リソース制約、物理実現可能性の制約)を考慮しながら設計を生成します。構築可能で安定したLEGO構造のみを出力します。
生成プロセスは以下の制約最適化の問題として定式化されます。
B̂ = gen_f(u)
subject to: c_i ∈ I, ∀i ∈ {1,2,...,N}
B̂ ∈ S
Stage 2: Builder による物理構築
Builderは特殊なEnd-of-Arm Tool(EOAT)を装備したbimanualロボットシステムで、近接視覚フィードバックと異常検出のための拡張された知覚スキルセットを提供します。APEX多レベル推論フレームワークを使用し、組み立てシーケンスの計画、ロボットタスクの割り当て、衝突回避モーション、協調実行を統合的に実現します。
物理制約を考慮した構築プロセスは以下で表現されます。
G = build_f(B̂)
subject to: B_i^a ∈ S
a_i ∈ A, ∀i ∈ {1,2,...,N}
2.3 新規性
本研究の最大の新規性は、高レベル意図の保持と物理実現の可能性およびロボット実行制約の満足を両立する段階的統合アーキテクチャの実現です。物理推論モジュールがデザイン生成の制約とロボット構築のガイダンスの両方において中心的役割を果たし、意味生成と物理的基盤付けの間の重要な結合を提供しています。
技術的革新として、従来のend-to-endアプローチが苦手とする長期推論と細粒度器用性の課題を、モジュラー設計による分離と物理推論による統合で解決した点が挙げられます。また、LEGOプラットフォームの選択により、低コストで再現可能、かつ高い設計自由度を持つベンチマーク環境を提供しています。
3. 実験結果
3.1 実験設定
実験環境:8台のNvidia RTX A4000 GPUを搭載したサーバー上でシステムをホスト、Gazeboを使用したデジタルツインによる仮想実行環境を構築しました。ユーザーインターフェイスはWebベースで実装され、プロンプト入力からデザイン選択、仮想構築確認までの完全なワークフローを提供しています。
評価設定:LegoGPT++の性能評価では、ユーザー研究から得られた36個のオープンワールドプロンプトを使用し、Builder構築可能率、CLIPスコア、生成時間を測定しました。Builderの評価では、Faucet、Fish、Vessel、Guitarの4つのLEGO構造を使用し、成功率、生存長(リスタートなしで組み立てられたブロック数)、計画時間を比較しました。
ユーザー研究:21名の参加者(18-31歳、女性6名・男性15名)を対象とした包括的な研究を実施しました。参加者は主に技術的背景を持ちながら、芸術や建築の分野出身者も含み、LEGOの経験レベルも初心者から上級者(1000ピース超)まで多様でした。
3.2 主要な結果
LegoGPT++の性能向上
オリジナルのLegoGPTと比較して、LegoGPT++はBuilder構築可能率を19.4%から66.6%へと47.2ポイント改善しました。CLIPスコアも0.248から0.266に向上し、オープンワールドプロンプトとのアライメントが改善されています。生成時間は増加したものの(44.0秒→85.7秒)、品質向上による全体的なワークフロー改善効果が得られています。
Builderの構築性能
従来のdual-armシステムとの比較において、Builderは全ての構造で1回の試行での成功を達成しました(成功率1/1)。従来システムが複数回の試行や完全失敗を経験したのに対し、大幅な改善を示しました。生存長(リスタートなしの組み立てブロック数)でも全構造で最大値を達成し、計画時間も27.2-83.4秒と短時間での実行を実現しています。
ユーザー研究の結果
Wilcoxon符号付き順位検定により、5点リッカート尺度でのユーザー評価において統計的に有意な結果が得られました。LegoGPTは身体的労力(p=0.037)と精神的労力(p=0.041)の両方で有意な削減を実現し、Builderも身体的労力(p=0.023)で有意、精神的労力(p=0.055)で限界的有意な削減を示しました。完全パイプラインでは両方の労力で高い有意性(p=0.021)を達成しています。
3.3 既存手法との比較
従来の音声入力システムや3Dプリントブロックシステムとの比較において、Prompt-to-Productは以下の優位性を実証しました。
再現性:LEGOプラットフォームの使用により、カスタム部品に依存しない高い再現性を実現しています。既存のcuboctahedronブロックシステムや滑面3Dプリントブロックシステムと異なり、標準LEGO部品による広範な表現力と接続性を提供します。
スケーラビリティ:数百個の部品を含む複雑構造への対応能力を実証し、従来の単一ロボットシステムが10個程度のブロックに制限されるのに対し、大幅な拡張性を提供しています。
物理制約の統合として、単純なルールベース安定性評価ではなく、詳細な構造安定性解析による物理推論を採用し、より堅牢で信頼性の高い構築を実現しています。
4. 実用性評価
4.1 実装の容易性
Prompt-to-Productの段階的アーキテクチャは実装の複雑さを効果的に管理しています。LegoGPT++はオープンソースのQwen2.5-VL-7B-Instructをベースとした微調整により実現されており、既存の視覚言語モデルの活用で開発負荷を軽減しています。
Builderシステムは汎用ロボットアームにカスタマイズされたEOATを組み合わせることで実現され、特殊なロボットハードウェアを必要としません。APEX多レベル推論フレームワークの採用により、タスク・モーション・アクションプランニングの統合が効率的に実現されています。
WebベースのユーザーインターフェイスとGazeboデジタルツインの組み合わせにより、ユーザーは物理ロボットシステムに直接アクセスすることなくシステムの機能を評価・確認できる使いやすい環境を提供しています。
4.2 計算効率
LegoGPT++のマルチヘッド生成は単一デザイン生成と比較して処理時間は増加するものの、品質向上により全体的なユーザビリティは改善されています。生成時間85.7±48.8秒は実用的な応用において許容範囲内です。
Builderの計画時間は修正されたDFS(深度優先探索)アルゴリズムの採用により大幅に短縮され、従来システムと比較して全構造で優れた効率性を示しています。特にFaucetでは157.0秒から83.4秒へ、Vesselでは78.4秒から58.1秒への短縮を実現しています。
物理推論モジュールによる安定性解析は、従来の物理エンジンシミュレーションと比較して、LEGO接続の変形や相互接続を正確にモデル化し、より信頼性の高い評価を提供しています。
4.3 応用可能性
教育応用:LEGOプラットフォームの採用により、STEM教育、ロボティクス教育、創造性開発などの教育分野での活用が期待されます。自然言語からの直感的なデザイン生成は、技術の専門知識のない学習者にも高度な組み立て体験を提供できます。
産業応用:小規模生産やプロトタイピング分野での応用可能性があります。特に複数の組み立て品を製作する場合のユーザー選好は、小規模製造業での労力削減ソリューションとしての価値を示しています。p=0.008でBuilderを選好し、p=0.021で完全パイプラインを選好するという結果が得られています。
研究プラットフォーム:標準化されたLEGO部品とオープンアクセスなシステム設計により、組み立てロボティクス、人間-ロボット協調、生成AI応用研究のベンチマークプラットフォームとして機能することが期待されます。
スケーラビリティ:現在の8種類のLEGO部品から、より多様な部品への拡張や、LEGOを超えた他の組み立てシステムへの適用可能性があります。bimanual操作技術は他の細かい組み立てタスクにも応用可能です。
5. まとめと所感
5.1 論文の意義
この論文は、生成AIとロボティクス技術の統合による実用的システム構築の優れた実例を提供しています。最も注目すべき貢献は、抽象的な言語概念から物理的製品への完全な自動化パイプラインを実現し、ユーザー研究により実際の価値を定量的に実証した点です。
技術的革新として、end-to-endアプローチではなく段階的モジュラーアーキテクチャを採用することで、各段階の特性を最適化しながら物理推論による統合を実現しています。これは複雑なマルチモーダルシステム設計の新たな方向性を示しています。
教育・産業両分野での実用性を示し、特にユーザー研究による統計的に有意な労力削減効果の実証は、人間中心のロボティクスシステム評価の重要性を明確に示しています。21名の多様な背景を持つ参加者による包括的評価は結果の信頼性を高めています。
5.2 今後の展望
技術的拡張:現在LEGOブリックに限定されているシステムを、より多様な部品や材料に拡張することが主要な発展方向です。論文で言及されているように、非ブリック部品の対応により、より生き生きとした表現力豊かなデザインの生成が可能になります。
データセットとモデルの改良:SLV(ShapeNet-LEGO-Vision)データセットのカテゴリ制限により、オープンエンドプロンプトでの性能低下が報告されています。より多様な3Dデータセットの探索と生成能力の拡張が必要です。
ロボット能力の向上:current systemの66.6%のBuilder構築可能率は改善の余地があります。手作業組み立て、故障回復、協調サブアセンブリなどの追加スキルの統合により、人間レベルの器用性への接近が期待されます。
応用領域の拡大:現在の研究で示された基本的枠組みを基に、医療、製造業、建設など他の組み立て集約型産業への適用展開が予想されます。特に小規模カスタマイゼーション生産における労力削減効果は、Industry 4.0における人間-ロボット協調の重要な事例となる可能性があります。
ヒューマン・ロボット・インタラクション研究への貢献:単一組み立て品では手動作業を好み、複数組み立て品ではロボット支援を選好するという興味深いユーザー行動パターンは、作業負荷と自動化受容性の関係についてのさらなる研究の基礎を提供しています。