基座模型技术背景下的具身智能体综述

基座模型技术背景下的具身智能体综述

李颂元,朱祥维,李玺

Survey of embodied agent in context of foundation model

Songyuan LI,Xiangwei ZHU,Xi LI

表 2 大型多模态模型

Tab.2 Large multimodal model

大型多模态模型	视觉	语言	本体	动作	参数量	图像-文本对数量	轨迹量
ViLBERT^[64]	✓	✓	—	—	1.55×10⁸	3.1×10⁶	—
UNITER^[65]	✓	✓	—	—	8.6×10⁷/3.03×10⁸	9.6×10⁶	—
Oscar^[66]	✓	✓	—	—	1.10×10⁸/3.40×10⁸	6.5×10⁶	—
CLIP^[5]	✓	✓	—	—	3.70×10⁸	4.00×10⁸	—
ALIGN^[28]	✓	✓	—	—	7.90×10⁸	1.8×10⁹	—
BASIC^[67]	✓	✓	—	—	3×10⁹	6.6×10⁹	—
PaLI^[29]	✓	✓	—	—	1.7×10¹⁰	1×10⁹	—
PaLI-X^[30]	✓	✓	—	—	5.5×10¹⁰	—	—
Gato^[54]	✓	✓	✓	✓	1.2×10⁹	2.1×10⁹	6.3×10⁷
RPT^[63]	✓	—	✓	✓	3.08×10⁸	—	2.0×10⁴
RoboCat^[57]	✓	—	✓	✓	1.18×10⁹	—	2.8×10⁶