介绍
前言
LLM Compressor 是 vLLM 项目 中用于高效服务 LLM 的一部分,集成了最新的模型压缩研究成果,打造了一个开源库,使得生成高效且压缩的模型变得轻松便捷。
该框架允许用户应用最新的模型压缩技术研究成果,以提升生成式 AI(gen AI)模型的效率、可扩展性和性能,同时保持准确性。通过对 Hugging Face 和 vLLM 的原生支持,压缩后的模型可以无缝集成到部署流水线中,实现更快且更具成本效益的大规模推理。
LLM Compressor 允许您执行模型优化技术,如量化、稀疏性和压缩,以减少内存使用、模型大小,并提升推理速度,同时不影响模型响应的准确性。LLM Compressor 支持以下压缩方法:
- 量化:将模型权重和激活转换为低位格式,如 int8,从而减少内存占用。
- 稀疏性:将部分模型权重置零,通常采用固定模式,从而实现更高效的计算。
- 压缩:缩小保存的模型文件大小,理想情况下对性能影响极小。
结合使用这些方法,可以在资源受限的硬件上更高效地部署模型。
LLM Compressor 支持多种压缩技术:
- 仅权重量化(W4A16)将模型权重压缩至 4 位精度,适用于硬件资源有限或对延迟高度敏感的 AI 应用。
- 权重和激活量化(W8A8)将权重和激活均压缩至 8 位精度,面向整数和浮点格式的一般服务器场景。
LLM Compressor 支持多种压缩算法:
- AWQ:仅权重
INT4量化 - GPTQ:仅权重
INT4量化 - FP8:动态逐令牌量化
- SparseGPT:训练后稀疏性
- SmoothQuant:激活量化
有关压缩算法和格式的更多信息,请参阅文档以及 llmcompressor 仓库中的示例。 这些压缩方法均计算权重和激活的最优缩放因子和零点。优化的缩放因子可以是按张量、通道、组或令牌计算。最终结果是一个保存了所有应用量化参数的压缩模型。