介绍

前言

LLM CompressorvLLM 项目 中用于高效服务 LLM 的一部分,集成了最新的模型压缩研究成果,打造了一个开源库,使得生成高效且压缩的模型变得轻松便捷。

该框架允许用户应用最新的模型压缩技术研究成果,以提升生成式 AI(gen AI)模型的效率、可扩展性和性能,同时保持准确性。通过对 Hugging Face 和 vLLM 的原生支持,压缩后的模型可以无缝集成到部署流水线中,实现更快且更具成本效益的大规模推理。

LLM Compressor 允许您执行模型优化技术,如量化、稀疏性和压缩,以减少内存使用、模型大小,并提升推理速度,同时不影响模型响应的准确性。LLM Compressor 支持以下压缩方法:

  • 量化:将模型权重和激活转换为低位格式,如 int8,从而减少内存占用。
  • 稀疏性:将部分模型权重置零,通常采用固定模式,从而实现更高效的计算。
  • 压缩:缩小保存的模型文件大小,理想情况下对性能影响极小。

结合使用这些方法,可以在资源受限的硬件上更高效地部署模型。

LLM Compressor 支持多种压缩技术:

  • 仅权重量化(W4A16)将模型权重压缩至 4 位精度,适用于硬件资源有限或对延迟高度敏感的 AI 应用。
  • 权重和激活量化(W8A8)将权重和激活均压缩至 8 位精度,面向整数和浮点格式的一般服务器场景。

LLM Compressor 支持多种压缩算法:

  • AWQ:仅权重 INT4 量化
  • GPTQ:仅权重 INT4 量化
  • FP8:动态逐令牌量化
  • SparseGPT:训练后稀疏性
  • SmoothQuant:激活量化

有关压缩算法和格式的更多信息,请参阅文档以及 llmcompressor 仓库中的示例。 这些压缩方法均计算权重和激活的最优缩放因子和零点。优化的缩放因子可以是按张量、通道、组或令牌计算。最终结果是一个保存了所有应用量化参数的压缩模型。