多模态大模型边缘部署与推理加速技术综述
陈思如,舒元超

Survey on edge deployment and inference acceleration of multimodal large language models
Siru CHEN,Yuanchao SHU
表 1 边缘侧多模态大语言模型
Tab.1 Multi-modal large language model on edge side
模型名字输入模态输出模态大模型主干总参数量/109时间
1) 注:总参数量中A/E标注分别表示MoE模型激活参数量(如A3)与显存等效参数量(如E2),旨在说明模型在边缘侧的实际计算负载与资源占用
Gemini Nano[10]文本、图像、音频、视频文本Gemini[10]1.8/3.252023.12
MobileVLM[11]文本、图像文本MobileLLaMA[11]1.7/3.02023.12
TinyGPT-V[12]文本、图像文本Phi-2[13]2.82023.12
Vary-toy[14]文本、图像文本Qwen[8]1.82024.01
MobileVLM V2[15]文本、图像文本MobileLLaMA[11]1.7/3.0/7.02024.02
LLaVA-Phi[16]文本、图像文本Phi-2[13]3.02024.02
Cobra[17]文本、图像文本Mamba[18]2.82024.03
Mipha[19]文本、图像文本Phi-2[13]3.02024.03
LLaVA-Gemma[20]文本、图像文本Gemma[21]2.0/7.02024.04
Imp[22]文本、图像文本Phi-2[13]3.02024.05
Bunny[23]文本、图像文本Phi-3[24]4.02024.07
PaliGemma[25]文本、图像文本Gemma[21]3.02024.07
InternVL2[26]文本、图像、视频文本InternLM2[27]1.0/2.0/4.0/8.02024.07
MiniCPM-V 2.6[28]文本、图像、视频文本MiniCPM[29]8.02024.08
Qwen2-VL[30]文本、图像、视频文本Qwen2[31]2.02024.09
GLM-Edge[32]文本、图像文本GLM-4[33]1.5/2.0/4.0/5.02024.11
Ivy-VL[34]文本、图像文本Qwen2.5[35]3.02024.12
InternVL2.5[36]文本、图像、视频文本InternLM2[27]1.0/2.0/4.0/8.02024.12
PaliGemma2[37]文本、图像文本Gemma[21]3.02024.12
MiniCPM-o 2.6[38]文本、图像、音频、视频文本、音频MiniCPM[29]8.02025.01
Megrez-Omni[39]文本、图像、音频文本LLaMA2[40]4.02025.02
SmolVLM2[41]文本、图像文本SmolLM2[42]0.256/0.5/2.22025.02
Moondream[43]文本、图像文本Phi-1.5[44]0.5/2.02025.03
InternVL3[45]文本、图像、视频文本InternLM2[27]1.0/2.0/8.02025.04
Kimi-VL[46]文本、图像、视频文本Moonlight[46]A31)2025.04
Gemma 3n[47]文本、图像、音频、视频文本MatFormer[48]5.0(E2)/8.0(E4)2025.06
BlueLM-2.5[49]文本、图像文本BlueLM[49]2.92025.07
MiniCPM-V 4.5[50]文本、图像、视频文本MiniCPM[29]8.02025.09