多模态大模型边缘部署与推理加速技术综述
陈思如,舒元超

Survey on edge deployment and inference acceleration of multimodal large language models
Siru CHEN,Yuanchao SHU
表 3 典型边缘侧端到端高效推理框架对比
Tab.3 Comparison of typical end-to-end efficient inference frameworks on edge
框架描述
MLC-LLM[89]基于多层次计算的语言模型,采用优化的硬件加速方案,致力于在多种平台上实现高效且高性能的推理
MNN-M[90]MNN框架中的一个模块,专注于模型优化和加速,特别是在移动端和嵌入式设备上,具有较低的资源占用和较快的推理速度
vLLM[91]专为大语言模型优化的推理框架,旨在提高推理效率并降低内存使用,同时支持多种硬件平台的加速
llama.cpp[92]基于LLaMA模型的C++实现,优化了推理性能,适用于低资源环境中的高效推理,并支持多种硬件加速技术