多模态大模型边缘部署与推理加速技术综述

陈思如,舒元超

Survey on edge deployment and inference acceleration of multimodal large language models

Siru CHEN,Yuanchao SHU

表 3 典型边缘侧端到端高效推理框架对比

Tab.3 Comparison of typical end-to-end efficient inference frameworks on edge

框架	描述
MLC-LLM^[89]	基于多层次计算的语言模型，采用优化的硬件加速方案，致力于在多种平台上实现高效且高性能的推理
MNN-M^[90]	MNN框架中的一个模块，专注于模型优化和加速，特别是在移动端和嵌入式设备上，具有较低的资源占用和较快的推理速度
vLLM^[91]	专为大语言模型优化的推理框架，旨在提高推理效率并降低内存使用，同时支持多种硬件平台的加速
llama.cpp^[92]	基于LLaMA模型的C++实现，优化了推理性能，适用于低资源环境中的高效推理，并支持多种硬件加速技术