发版日志

AI 2.2.0 新功能与优化Connection HubNeMo Guardrails 集成基于 RAGAS 的 RAG 评估LlamaFactory 微调硬件配置文件定义与模板ServingRuntime 管理ARM 架构的 Notebook 基础镜像库TrustyAI 的漂移检测与 Llama Stack 的 MCP 集成已废弃功能修复的问题已知问题

AI 2.2.0

新功能与优化

Connection Hub

Connections 使用户能够通过封装凭据和配置参数，作为可复用的项目资源，安全地配置对外部数据源和模型存储位置的访问。Connection Types 提供带有可自定义字段和默认值的模板化表单，简化常见存储协议的连接创建。2.2 版本内置了针对 OCI-compliant registries 和 基于 URI 的仓库 的连接类型，支持从容器镜像和远程端点部署模型。兼容 S3 的对象存储连接类型正在开发中。

NeMo Guardrails 集成

NVIDIA NeMo Guardrails 为 LLM 应用提供可编程的安全控制，作为模型前置的独立服务运行。它执行敏感数据检测（PII）、内容策略以及用 Colang 和 Python 编写的自定义验证流程，通过 TrustyAI Operator 的 NemoGuardrails 自定义资源暴露。

基于 RAGAS 的 RAG 评估

RAGAS（Retrieval-Augmented Generation Assessment） 集成提供用于评估 RAG 应用的客观指标，包括检索质量、答案相关性和事实一致性。开发者可以使用评估流水线自动化质量门控并优化 RAG 配置。

LlamaFactory 微调

通过 Kubeflow Trainer v2 集成的 LlamaFactory 提供了简化的模型微调解决方案，支持 SFT、LoRA 和 QLoRA 训练算法。用户可以通过单节点和多节点分布式训练，使用自有数据集定制基础模型。

硬件配置文件定义与模板

硬件配置文件 支持集中管理 AI/ML 工作负载的硬件资源分配。管理员可以定义带有特定加速器类型、内存限制和节点放置规则的自定义硬件配置，实现 GPU 即服务能力和自助式资源配置。

ServingRuntime 管理

通过自定义推理运行时扩展 AI 平台，以支持 LLM 或其他模型类型（图像分类、目标检测等）的服务。管理员可以通过 ClusterServingRuntime 资源添加 MLServer、Triton 或 Xinference 等自定义运行时，支持除默认 vLLM 运行时外的更多模型框架、GPU 类型和专用推理场景。

ARM 架构的 Notebook 基础镜像库

Notebook 基础镜像库 现包含适用于 ARM 架构 的 minimal 和 datascience 笔记本镜像，扩展了基于笔记本的 ARM 平台开发的硬件兼容性。

TrustyAI 的漂移检测

通过检测输入数据分布随时间的变化，监控已部署模型的数据漂移。TrustyAI 漂移检测 使用统计指标将实际推理数据与原始训练数据进行比较，识别可能影响模型性能的分布变化，确保模型在生产环境中的准确性和可靠性。

与 Llama Stack 的 MCP 集成

Llama Stack 连接器为 AI 注册表如 Model Context Protocol (MCP) 提供高级抽象。平台工程师可以注册连接器，AI 工程师则可直接使用预注册的连接器，无需管理复杂配置，使 AI 代理能够通过标准化接口连接外部工具和数据源。

已废弃功能

本版本无。

修复的问题

解决了在符合 FIPS 标准的环境下，GPU 推理服务报 OpenSSL 自检失败的问题。
hami-scheduler 在启动后加载一次证书，当cert-manager 管理的证书过期后自动续发新的证书，hami 不会自动热加载，导致服务异常。
在发布推理服务时，如果用户通过修改 yaml 的方式实现镜像从 OCI下载，创建推理服务后，再次更新推理服务时，只要触发UI表单修改并提交，会导致模型的 storageUri 字段数据失效，模型将无法启动。
当平台访问地址采用自签证书时，更新平台其它访问地址时会触发自签证书重新签发。在新证书未同步到推理服务的模型下载程序时，会导致模型下载失败。

已知问题

在 Gitlab 中通过直接编辑 readme 文件，来修改 library_name，在页面中无法同步显示出其模型类型变化。
临时方案：使用 UI 操作修改，避免直接操作 Gitlab 修改。
当成功创建推理服务之后，在管理视图更新 ServingRuntime 的参数，如果推理服务引用了这个 ServingRuntime，即使停止再启动，或者更新部分参数，都无法在内部实际引用最新的 ServingRuntime 参数。临时解决方案，可先更新其他的 ServingRuntime，更新成功后再更新回原 ServingRuntime，从而重新加载 ServingRuntime 相关参数

#发版日志

#目录

#AI 2.2.0

#新功能与优化

#Connection Hub

#NeMo Guardrails 集成

#基于 RAGAS 的 RAG 评估

#LlamaFactory 微调

#硬件配置文件定义与模板

#ServingRuntime 管理

#ARM 架构的 Notebook 基础镜像库

#TrustyAI 的漂移检测

#与 Llama Stack 的 MCP 集成

#已废弃功能

#修复的问题

#已知问题