工作坊: Triton 语言与 vLLM

多模态压缩与推理:探索vLLM中FlagScale的应用实践和技术细节

Date / Time
2024-10-17
16:30
吕梦思

大模型因其在各种任务中的卓越表现而受到广泛关注。然而,在资源受限的场景下,大模型所需的大量计算和内存资源给推理带来了诸多挑战。因此,业界正在积极开发技术以提高大模型的推理效率。本报告将分享 FlagScale 在基于 vLLM 框架压缩和推理多模态大模型的实践经验,重点包括: 1、vLLM 框架的相关模块、策略和性能分析:特别关注新增的 CFG Sampling 特性。 2、使用 llm-compressor 工具进行多模态模型的量化压缩:根据不同部署场景,以不同粒度进行压缩,并探索多模态模型与语言模型的差异,以及如何实现多模态模型的极致压缩。