简体中文

介绍

目录

前言 LLM Compressor 支持多种压缩技术：LLM Compressor 支持多种压缩算法：

前言

LLM Compressor 是 vLLM 项目中用于高效服务 LLM 的一部分，集成了最新的模型压缩研究成果，打造了一个开源库，使得生成高效且压缩的模型变得轻松便捷。

该框架允许用户应用最新的模型压缩技术研究成果，以提升生成式 AI（gen AI）模型的效率、可扩展性和性能，同时保持准确性。通过对 Hugging Face 和 vLLM 的原生支持，压缩后的模型可以无缝集成到部署流水线中，实现更快且更具成本效益的大规模推理。

LLM Compressor 允许您执行模型优化技术，如量化、稀疏性和压缩，以减少内存使用、模型大小，并提升推理速度，同时不影响模型响应的准确性。LLM Compressor 支持以下压缩方法：

量化：将模型权重和激活转换为低位格式，如 int8，从而减少内存占用。
稀疏性：将部分模型权重置零，通常采用固定模式，从而实现更高效的计算。
压缩：缩小保存的模型文件大小，理想情况下对性能影响极小。

结合使用这些方法，可以在资源受限的硬件上更高效地部署模型。

LLM Compressor 支持多种压缩技术：

仅权重量化（W4A16）将模型权重压缩至 4 位精度，适用于硬件资源有限或对延迟高度敏感的 AI 应用。
权重和激活量化（W8A8）将权重和激活均压缩至 8 位精度，面向整数和浮点格式的一般服务器场景。

LLM Compressor 支持多种压缩算法：

AWQ：仅权重 INT4 量化
GPTQ：仅权重 INT4 量化
FP8：动态逐令牌量化
SparseGPT：训练后稀疏性
SmoothQuant：激活量化

有关压缩算法和格式的更多信息，请参阅文档以及 llmcompressor 仓库中的示例。这些压缩方法均计算权重和激活的最优缩放因子和零点。优化的缩放因子可以是按张量、通道、组或令牌计算。最终结果是一个保存了所有应用量化参数的压缩模型。