基座模型技术背景下的具身智能体综述
李颂元,朱祥维,李玺

Survey of embodied agent in context of foundation model
Songyuan LI,Xiangwei ZHU,Xi LI
表 2 大型多模态模型
Tab.2 Large multimodal model
大型多模态模型视觉语言本体动作参数量图像-文本对数量轨迹量
ViLBERT[64]1.55×1083.1×106
UNITER[65]8.6×107/3.03×1089.6×106
Oscar[66]1.10×108/3.40×1086.5×106
CLIP[5]3.70×1084.00×108
ALIGN[28]7.90×1081.8×109
BASIC[67]3×1096.6×109
PaLI[29]1.7×10101×109
PaLI-X[30]5.5×1010
Gato[54]1.2×1092.1×1096.3×107
RPT[63]3.08×1082.0×104
RoboCat[57]1.18×1092.8×106