工作坊: Triton 语言与 vLLM

多模态压缩与推理：探索vLLM中FlagScale的应用实践和技术细节

Speakers

赵英利

吕梦思

Date / Time

2024-10-17

16:30

吕梦思

Presentation Slides

Presentation Video

YouTube

大模型因其在各种任务中的卓越表现而受到广泛关注。然而，在资源受限的场景下，大模型所需的大量计算和内存资源给推理带来了诸多挑战。因此，业界正在积极开发技术以提高大模型的推理效率。本报告将分享 FlagScale 在基于 vLLM 框架压缩和推理多模态大模型的实践经验，重点包括： 1、vLLM 框架的相关模块、策略和性能分析：特别关注新增的 CFG Sampling 特性。 2、使用 llm-compressor 工具进行多模态模型的量化压缩：根据不同部署场景，以不同粒度进行压缩，并探索多模态模型与语言模型的差异，以及如何实现多模态模型的极致压缩。