基座模型技术背景下的具身智能体综述
李颂元,朱祥维,李玺

Survey of embodied agent in context of foundation model
Songyuan LI,Xiangwei ZHU,Xi LI
表 5 视觉导航智能体的比较
Tab.5 Comparison of agents for visual navigation
智能体语言基座模型真实世界模拟器室内/室外建图参数量
EmbCLIP[119]CLIPAI2-THOR室内8.8×107
CoW[120]CLIPAI2-THOR, Habitat室内3.07×108
ZSON[121]CLIPHabitat, Gibson室内
LFG[122]GPT-3.5Habitat室内2.0×1010
DDN[123]GPT-3.5AI2-THOR室内2.0×1010
PixNav[124]LLaMA-Adapter, GPT-4, Grounding DINO, SAMHabitat室内
PreSS[125]BERT, GPTMatterport3D室内1.17×108/3.40×108
VLN-BERT[68]ViLBERTMatterport3D室内1.55×108
MARVAL[126]Matterport3D, Gibson室内
LM-Nav[76]ViNG, CLIP GPT-3室外
NavGPT[77]GPT-3.5, GPT-4Matterport3D室内
DiscussNav[114]GPT-4Matterport3D室内
Vienna[127]Matterport3D, Habitat室内3.1×107
ViNT[115]室内/室外3.1×107