发版日志
AI 2.1.0
新增与优化功能
基于镜像的模型支持
平台现支持使用容器镜像部署模型。通过利用 KServe 中的 ModelCar 功能,用户可以将模型打包为 OCI 容器镜像,并直接从这些镜像创建模型推理服务,无需在运行时下载模型工件。
使用 OCI 容器进行模型存储和分发带来多项优势:
- 启动时间缩短 —— 模型工件包含在容器镜像中,避免了部署或扩缩推理服务时的重复下载。
- 磁盘空间使用降低 —— 容器镜像层的复用减少了节点间相同模型文件的冗余存储。
- 推理性能稳定性提升 —— 镜像可在节点上预先拉取和缓存,实现更快且更可预测的服务启动。
该功能规范了模型部署流程,利用容器镜像生态实现高效的模型版本管理、分发和生命周期管理。
模型压缩工具包
通过集成 llm-compressor 库,引入了模型压缩工具包,为大型语言模型提供压缩能力。
该工具包支持权重量化、激活量化和模型稀疏化等先进优化技术,使用户能够在保持模型质量的同时,降低大型模型的计算和内存需求。压缩任务可在 Notebook 环境或自动化流水线中执行,帮助组织降低硬件成本并提升推理性能。
事件驱动自动扩缩容
通过与 KEDA 集成,引入了事件驱动的自动扩缩容能力,使模型推理服务能够基于实时工作负载信号自动调整规模。
不同于传统仅依赖 CPU 或 GPU 利用率的自动扩缩容策略,事件驱动扩缩容可响应请求速率、队列长度或消息事件等指标,实现更灵敏的推理服务扩缩容,提升整体资源利用效率和系统稳定性。
Notebook 基础镜像库
新增 Notebook 基础镜像库,提供预构建的数据科学和 AI 工作负载开发环境。
这些镜像包含常用的机器学习框架、深度学习库和数据处理工具,帮助用户快速启动 Notebook 环境进行实验和模型开发,减少环境搭建开销。
TrustyAI 漂移检测
平台引入了由 TrustyAI 提供的模型漂移检测能力。
该功能持续监控推理数据分布和模型行为,检测生产环境中的潜在数据漂移或预测漂移,帮助团队及早发现模型性能下降,保障已部署 AI 系统的可靠性。
安全护栏
通过 TrustyAI 引入了生成式 AI 应用的安全护栏。
该功能支持基于策略的模型输出监控和过滤,使组织能够检测并限制 AI 模型生成的不安全或不合规内容,提升生成式 AI 服务的安全性、治理和合规性。
语言模型评估框架
引入了语言模型评估框架,支持大型语言模型的标准化评估。
该评估框架支持多种基准任务和数据集,帮助用户系统性地衡量模型性能,基于数据驱动做出模型选择或优化决策。
弃用功能
无。
修复的问题
- 删除模型后,列表页未能立即反映出删除结果,被删除的模型仍短暂存留于列表中。
- 进入命名空间没有被纳管的 AI 页面时,无法切换至命名空间已纳管的页面。
已知问题
- 当平台访问地址采用自签证书时,更新平台其它访问地址时会触发自签证书重新签发。在新证书未同步到推理服务的模型下载程序时,会导致模型下载失败。
临时解决方案: 平台访问地址的证书会在后台自动同步,如果遇到由于证书验证失败导致的模型下载失败的问题,可以在等待几分钟后尝试重新启动推理服务。 - 在使用 VictoriaMetrics 对 Serverless 模式的推理服务进行监控数据采集时,存在推理服务无法缩容到0的已知问题。
- 在发布推理服务时,如果用户通过修改 yaml 的方式实现镜像从 OCI下载,创建推理服务后,再次更新推理服务时,只要触发UI表单修改并提交,会导致模型的 storageUri 字段数据失效,模型将无法启动。
临时解决方案:对于通过yaml 的方式实现镜像从 OCI下载的推理服务,如果需要更新,也请从页面的 yaml 编辑器中更新,或者从页面更新后,再次检查 yaml 编辑器中的storageUri字段,修改正确后提交。