发版日志
目录
AI 2.2.0新功能与优化Connection HubNeMo Guardrails 集成基于 RAGAS 的 RAG 评估LlamaFactory 微调硬件配置文件定义与模板ServingRuntime 管理ARM 架构的 Notebook 基础镜像库TrustyAI 的漂移检测与 Llama Stack 的 MCP 集成已废弃功能修复的问题已知问题AI 2.2.0
新功能与优化
Connection Hub
Connections 使用户能够通过封装凭据和配置参数,作为可复用的项目资源,安全地配置对外部数据源和模型存储位置的访问。Connection Types 提供带有可自定义字段和默认值的模板化表单,简化常见存储协议的连接创建。2.2 版本内置了针对 OCI-compliant registries 和 基于 URI 的仓库 的连接类型,支持从容器镜像和远程端点部署模型。兼容 S3 的对象存储连接类型正在开发中。
NeMo Guardrails 集成
NVIDIA NeMo Guardrails 为 LLM 应用提供可编程的安全控制,作为模型前置的独立服务运行。它执行敏感数据检测(PII)、内容策略以及用 Colang 和 Python 编写的自定义验证流程,通过 TrustyAI Operator 的 NemoGuardrails 自定义资源暴露。
基于 RAGAS 的 RAG 评估
RAGAS(Retrieval-Augmented Generation Assessment) 集成提供用于评估 RAG 应用的客观指标,包括检索质量、答案相关性和事实一致性。开发者可以使用评估流水线自动化质量门控并优化 RAG 配置。
LlamaFactory 微调
通过 Kubeflow Trainer v2 集成的 LlamaFactory 提供了简化的模型微调解决方案,支持 SFT、LoRA 和 QLoRA 训练算法。用户可以通过单节点和多节点分布式训练,使用自有数据集定制基础模型。
硬件配置文件定义与模板
硬件配置文件 支持集中管理 AI/ML 工作负载的硬件资源分配。管理员可以定义带有特定加速器类型、内存限制和节点放置规则的自定义硬件配置,实现 GPU 即服务能力和自助式资源配置。
ServingRuntime 管理
通过自定义推理运行时扩展 AI 平台,以支持 LLM 或其他模型类型(图像分类、目标检测等)的服务。管理员可以通过 ClusterServingRuntime 资源添加 MLServer、Triton 或 Xinference 等自定义运行时,支持除默认 vLLM 运行时外的更多模型框架、GPU 类型和专用推理场景。
ARM 架构的 Notebook 基础镜像库
Notebook 基础镜像库 现包含适用于 ARM 架构 的 minimal 和 datascience 笔记本镜像,扩展了基于笔记本的 ARM 平台开发的硬件兼容性。
TrustyAI 的漂移检测
通过检测输入数据分布随时间的变化,监控已部署模型的数据漂移。TrustyAI 漂移检测 使用统计指标将实际推理数据与原始训练数据进行比较,识别可能影响模型性能的分布变化,确保模型在生产环境中的准确性和可靠性。
与 Llama Stack 的 MCP 集成
Llama Stack 连接器为 AI 注册表如 Model Context Protocol (MCP) 提供高级抽象。平台工程师可以注册连接器,AI 工程师则可直接使用预注册的连接器,无需管理复杂配置,使 AI 代理能够通过标准化接口连接外部工具和数据源。
已废弃功能
本版本无。
修复的问题
- 解决了在符合 FIPS 标准的环境下,GPU 推理服务报 OpenSSL 自检失败的问题。
- hami-scheduler 在启动后加载一次证书,当cert-manager 管理的证书过期后自动续发新的证书,hami 不会自动热加载,导致服务异常。
- 在发布推理服务时,如果用户通过修改 yaml 的方式实现镜像从 OCI下载,创建推理服务后,再次更新推理服务时,只要触发UI表单修改并提交,会导致模型的 storageUri 字段数据失效,模型将无法启动。
- 当平台访问地址采用自签证书时,更新平台其它访问地址时会触发自签证书重新签发。在新证书未同步到推理服务的模型下载程序时,会导致模型下载失败。
已知问题
- 在 Gitlab 中通过直接编辑 readme 文件,来修改 library_name,在页面中无法同步显示出其模型类型变化。
临时方案:使用 UI 操作修改,避免直接操作 Gitlab 修改。 - 当成功创建推理服务之后,在管理视图更新 ServingRuntime 的参数,如果推理服务引用了这个 ServingRuntime,即使停止再启动,或者更新部分参数,都无法在内部实际引用最新的 ServingRuntime 参数。临时解决方案,可先更新其他的 ServingRuntime,更新成功后再更新回原 ServingRuntime,从而重新加载 ServingRuntime 相关参数