Spatio-Temporal LLM: Reasoning about Environments and Actions
この論文は、3D空間の環境情報とエージェントが実行した最近の行動に関する時系列情報の両方を同時に理解できる「Spatio-Temporal LLM (ST-LLM)」という新しいマルチモーダル大規模言語モデルを提案しています。ロボットやエージェントが現実世界で活動する際に必要となる、環境全体の空間的理解と最近の観測の時間的理解を統合的に処理できるモデルです。 また、この研究では「Reasonin...