多模态大模型边缘部署与推理加速技术综述
|
|
陈思如,舒元超
|
Survey on edge deployment and inference acceleration of multimodal large language models
|
|
Siru CHEN,Yuanchao SHU
|
|
| 表 1 边缘侧多模态大语言模型 |
| Tab.1 Multi-modal large language model on edge side |
|
| 模型名字 | 输入模态 | 输出模态 | 大模型主干 | 总参数量/109 | 时间 | | 1) 注:总参数量中A/E标注分别表示MoE模型激活参数量(如A3)与显存等效参数量(如E2),旨在说明模型在边缘侧的实际计算负载与资源占用 | | Gemini Nano[10] | 文本、图像、音频、视频 | 文本 | Gemini[10] | 1.8/3.25 | 2023.12 | | MobileVLM[11] | 文本、图像 | 文本 | MobileLLaMA[11] | 1.7/3.0 | 2023.12 | | TinyGPT-V[12] | 文本、图像 | 文本 | Phi-2[13] | 2.8 | 2023.12 | | Vary-toy[14] | 文本、图像 | 文本 | Qwen[8] | 1.8 | 2024.01 | | MobileVLM V2[15] | 文本、图像 | 文本 | MobileLLaMA[11] | 1.7/3.0/7.0 | 2024.02 | | LLaVA-Phi[16] | 文本、图像 | 文本 | Phi-2[13] | 3.0 | 2024.02 | | Cobra[17] | 文本、图像 | 文本 | Mamba[18] | 2.8 | 2024.03 | | Mipha[19] | 文本、图像 | 文本 | Phi-2[13] | 3.0 | 2024.03 | | LLaVA-Gemma[20] | 文本、图像 | 文本 | Gemma[21] | 2.0/7.0 | 2024.04 | | Imp[22] | 文本、图像 | 文本 | Phi-2[13] | 3.0 | 2024.05 | | Bunny[23] | 文本、图像 | 文本 | Phi-3[24] | 4.0 | 2024.07 | | PaliGemma[25] | 文本、图像 | 文本 | Gemma[21] | 3.0 | 2024.07 | | InternVL2[26] | 文本、图像、视频 | 文本 | InternLM2[27] | 1.0/2.0/4.0/8.0 | 2024.07 | | MiniCPM-V 2.6[28] | 文本、图像、视频 | 文本 | MiniCPM[29] | 8.0 | 2024.08 | | Qwen2-VL[30] | 文本、图像、视频 | 文本 | Qwen2[31] | 2.0 | 2024.09 | | GLM-Edge[32] | 文本、图像 | 文本 | GLM-4[33] | 1.5/2.0/4.0/5.0 | 2024.11 | | Ivy-VL[34] | 文本、图像 | 文本 | Qwen2.5[35] | 3.0 | 2024.12 | | InternVL2.5[36] | 文本、图像、视频 | 文本 | InternLM2[27] | 1.0/2.0/4.0/8.0 | 2024.12 | | PaliGemma2[37] | 文本、图像 | 文本 | Gemma[21] | 3.0 | 2024.12 | | MiniCPM-o 2.6[38] | 文本、图像、音频、视频 | 文本、音频 | MiniCPM[29] | 8.0 | 2025.01 | | Megrez-Omni[39] | 文本、图像、音频 | 文本 | LLaMA2[40] | 4.0 | 2025.02 | | SmolVLM2[41] | 文本、图像 | 文本 | SmolLM2[42] | 0.256/0.5/2.2 | 2025.02 | | Moondream[43] | 文本、图像 | 文本 | Phi-1.5[44] | 0.5/2.0 | 2025.03 | | InternVL3[45] | 文本、图像、视频 | 文本 | InternLM2[27] | 1.0/2.0/8.0 | 2025.04 | | Kimi-VL[46] | 文本、图像、视频 | 文本 | Moonlight[46] | A31) | 2025.04 | | Gemma 3n[47] | 文本、图像、音频、视频 | 文本 | MatFormer[48] | 5.0(E2)/8.0(E4) | 2025.06 | | BlueLM-2.5[49] | 文本、图像 | 文本 | BlueLM[49] | 2.9 | 2025.07 | | MiniCPM-V 4.5[50] | 文本、图像、视频 | 文本 | MiniCPM[29] | 8.0 | 2025.09 |
|
|
|