发版日志

AI 2.0.0

新增与优化功能

NPU 支持

通过引入 NPU Operator,支持 NPU 硬件管理,简化了 NPU 的使用配置,提升硬件加速能力。

排队与准入控制

通过引入 Alauda Build of Kueue,实现了排队管理和准入控制,优化任务调度与资源分配。

模型注册中心

集成 Kubeflow Model Registry,增强了模型管理与版本控制,简化了模型注册与存储流程。

分布式推理

新增 llm-d 支持分布式推理,提升大规模推理任务的性能和资源利用效率。

Leader-Worker Set 支持

通过引入 Alauda Build of LeaderWorkerSet,支持分布式训练任务管理,简化 Leader-Worker 模型下的任务分发与协调。

AI Gateway

全新引入 Alauda build of Envoy AI Gateway,优化流量管理与安全性,提供更强大的 AI 服务代理能力。

Trainer 编排

支持 Kubeflow Trainer v2,增强模型训练任务的调度与管理,实现更灵活高效的训练工作流。

Pipelines 编排

集成 Kubeflow Pipeline,提升流水线编排与任务管理效率,增强工作流自动化能力。

向量存储

引入 Milvus,提供高效的向量存储解决方案,支持大规模向量数据存储与快速检索。

NVIDIA DRA

通过引入 NVIDIA DRA Driver for GPUs,优化 GPU 资源管理与调度,提高 GPU 利用率和性能。

节点特征发现

Alauda Build of Node Feature Discovery 实现硬件特征自动发现与节点标签管理,提升节点资源管理的灵活性。

Llama Stack 运行时

引入 Llama Stack,为分布式 AI 任务提供高效的运行时环境,增强 AI 智能体能力。

生成式 AI

通过引入 Kserve 的 Generative AI 模块,增强生成式 AI 支持,优化模型部署与推理,特别针对生成式 AI 应用。

低代码构建器集成

更新 Dify 版本并提供可部署的 Charts,简化低代码应用构建流程,进一步提升 AI 应用开发效率。

废弃功能

UI 微调与预训练废弃

由于缺乏通用性、复杂的横向扩展,且该方式并非业界主流的模型训练与微调方法,现废弃此功能。建议改用基于 notebook 的模型微调与训练方式。

Secret Manage 废弃

由于缺乏有效使用场景,且不再需要手动集成 GitLab,Secret Manage 功能已废弃,不再适用。

修复的问题

  • 通过页面更新推理服务资源 yaml时,会导致 volumeMount 相关字段丢失,从而导致推理服务无法正常启动
  • 旧版本中, GraphQL 查询(默认采用 POST 方式)会被网关层错误地拦截并校验 create 创建权限。新版本中,对于往 /api/graphql 接口发送的请求,RBAC 拦截器能正确将其对应为 get 读取权限,确保只读角色的用户也能顺畅地读取和访问包含 GraphQL 数据流的页面内容。

已知问题

  • 在 Gitlab 中通过直接编辑 readme 文件,来修改 library_name,在页面中无法同步显示出其模型类型变化。
    临时方案:使用 UI 操作修改,避免直接操作 Gitlab 修改。
  • 删除模型后,列表页未能立即反映出删除结果,被删除的模型仍短暂存留于列表中。临时解决方案,手动重新刷新页面。
  • 进入命名空间没有被纳管的 AI 页面时,无法切换至命名空间已纳管的页面。