发版日志
目录
AI 2.5.0新增与优化功能Alauda AI Platform Control PlaneJobSet OperatorLlama Stack Milvus Vector Store 集成vLLM Expert Parallel InferencevLLM Speculative DecodingKubeflow 和 MLflow 存储配置Alauda Build of Envoy AI Gateway废弃功能已修复问题已知问题AI 2.5.0
新增与优化功能
Alauda AI Platform Control Plane
Alauda AI Platform Control Plane 为 Alauda AI 增加了统一的组件管理能力。管理员可以使用 Alauda AI Operator 管理受支持组件的部署和升级工作流,从而减少组件维护工作量。该能力目前为 alpha 特性,且仅支持基于 operator 的组件;集群插件和 Helm Chart 组件不受此能力管理。
JobSet Operator
JobSet Operator 使用户能够为 AI、机器学习和 HPC 场景运行协调式分布式工作负载。用户可以将一组相关的 Kubernetes jobs 定义为一个 JobSet,帮助分布式 Training 和批处理工作负载将多个 worker、稳定网络和故障恢复作为单一工作负载进行管理。
Llama Stack Milvus Vector Store 集成
Llama Stack 支持由 Milvus 支撑的 vector store,用于 agent 和检索工作流。管理员可以为 Llama Stack server 配置可访问的 Milvus endpoint 以及可选认证,用户则可以通过客户端 API 使用 provider_id="milvus-remote" 创建 vector store。
vLLM Expert Parallel Inference
vLLM Expert Parallel 支持提供了一条用于通过 expert parallelism 提供 Mixture-of-Experts 模型服务的配置路径。用户在使用兼容的 vLLM runtime 且模型支持该服务模式时,可以在 inference service YAML 中启用 expert parallel 设置。
vLLM Speculative Decoding
vLLM Speculative Decoding 提供了在 vLLM inference service 上启用 speculative decoding 的指导。用户可以在 vLLM 启动参数中配置受支持的方法,例如 N-gram 或 EAGLE-3,并在将配置用于生产前,使用具有代表性的工作负载验证其效果。
Kubeflow 和 MLflow 存储配置
Kubeflow Pipelines 和 MLflow 支持外部存储配置。管理员可以为 pipeline artifacts 配置外部对象存储,并为 MLflow metadata 配置外部 PostgreSQL 存储。
Alauda Build of Envoy AI Gateway
Alauda Build of Envoy AI Gateway 已从集群插件重构为由 operator 管理的组件,因此可以通过 Alauda AI Operator 进行管理。交付的组件已更新至 v0.4.2,这是与 Community 版本对齐的较新版本,包含组件 bug 修复。
废弃功能
无。
已修复问题
- 修复了在 Ascend NPU 环境中使用多卡部署推理服务时,服务无法 Ready,启动过程中出现 HCCL 初始化失败的问题。该问题由 vLLM Ascend 多卡场景未同时适配 root 与 non-root 运行模式引起,导致 NPU 多卡通信初始化异常。现已补充双模式支持。
- 未安装 Workbench 组件时,进入 Cluster Storage 页面会出现 404 报错,PVC 列表加载失败,创建、编辑等入口在页面体验上被阻断。
已知问题
此次发版无相关问题。