发版日志

AI 2.1.0

新增与优化功能

基于镜像的模型支持

平台现支持使用容器镜像部署模型。通过利用 KServe 中的 ModelCar 功能，用户可以将模型打包为 OCI 容器镜像，并直接从这些镜像创建模型推理服务，无需在运行时下载模型工件。

使用 OCI 容器进行模型存储和分发带来多项优势：

启动时间缩短 —— 模型工件包含在容器镜像中，避免了部署或扩缩推理服务时的重复下载。
磁盘空间使用降低 —— 容器镜像层的复用减少了节点间相同模型文件的冗余存储。
推理性能稳定性提升 —— 镜像可在节点上预先拉取和缓存，实现更快且更可预测的服务启动。

该功能规范了模型部署流程，利用容器镜像生态实现高效的模型版本管理、分发和生命周期管理。

模型压缩工具包

通过集成 llm-compressor 库，引入了模型压缩工具包，为大型语言模型提供压缩能力。

该工具包支持权重量化、激活量化和模型稀疏化等先进优化技术，使用户能够在保持模型质量的同时，降低大型模型的计算和内存需求。压缩任务可在 Notebook 环境或自动化流水线中执行，帮助组织降低硬件成本并提升推理性能。

事件驱动自动扩缩容

通过与 KEDA 集成，引入了事件驱动的自动扩缩容能力，使模型推理服务能够基于实时工作负载信号自动调整规模。

不同于传统仅依赖 CPU 或 GPU 利用率的自动扩缩容策略，事件驱动扩缩容可响应请求速率、队列长度或消息事件等指标，实现更灵敏的推理服务扩缩容，提升整体资源利用效率和系统稳定性。

Notebook 基础镜像库

新增 Notebook 基础镜像库，提供预构建的数据科学和 AI 工作负载开发环境。

这些镜像包含常用的机器学习框架、深度学习库和数据处理工具，帮助用户快速启动 Notebook 环境进行实验和模型开发，减少环境搭建开销。

TrustyAI 漂移检测

平台引入了由 TrustyAI 提供的模型漂移检测能力。

该功能持续监控推理数据分布和模型行为，检测生产环境中的潜在数据漂移或预测漂移，帮助团队及早发现模型性能下降，保障已部署 AI 系统的可靠性。

安全护栏

通过 TrustyAI 引入了生成式 AI 应用的安全护栏。

该功能支持基于策略的模型输出监控和过滤，使组织能够检测并限制 AI 模型生成的不安全或不合规内容，提升生成式 AI 服务的安全性、治理和合规性。

语言模型评估框架

引入了语言模型评估框架，支持大型语言模型的标准化评估。

该评估框架支持多种基准任务和数据集，帮助用户系统性地衡量模型性能，基于数据驱动做出模型选择或优化决策。

弃用功能

无。

修复的问题

删除模型后，列表页未能立即反映出删除结果，被删除的模型仍短暂存留于列表中。
进入命名空间没有被纳管的 AI 页面时，无法切换至命名空间已纳管的页面。

已知问题

在 Gitlab 中通过直接编辑 readme 文件，来修改 library_name，在页面中无法同步显示出其模型类型变化。
临时方案：使用 UI 操作修改，避免直接操作 Gitlab 修改。
当平台访问地址采用自签证书时，更新平台其它访问地址时会触发自签证书重新签发。在新证书未同步到推理服务的模型下载程序时，会导致模型下载失败。
临时解决方案: 平台访问地址的证书会在后台自动同步，如果遇到由于证书验证失败导致的模型下载失败的问题，可以在等待几分钟后尝试重新启动推理服务。
在使用 VictoriaMetrics 对 Serverless 模式的推理服务进行监控数据采集时，存在推理服务无法缩容到0的已知问题。
在发布推理服务时，如果用户通过修改 yaml 的方式实现镜像从 OCI下载，创建推理服务后，再次更新推理服务时，只要触发UI表单修改并提交，会导致模型的 storageUri 字段数据失效，模型将无法启动。
临时解决方案：对于通过yaml 的方式实现镜像从 OCI下载的推理服务，如果需要更新，也请从页面的 yaml 编辑器中更新，或者从页面更新后，再次检查 yaml 编辑器中的storageUri字段，修改正确后提交。

#发版日志

#目录

#AI 2.1.0

#新增与优化功能

#基于镜像的模型支持

#模型压缩工具包

#事件驱动自动扩缩容

#Notebook 基础镜像库

#TrustyAI 漂移检测

#安全护栏

#语言模型评估框架

#弃用功能

#修复的问题

#已知问题