发版日志

AI 2.3.0

新功能和优化功能

基于 Ray 的分布式工作负载

KubeRayCodeFlare SDK 使开发者能够从 Workbench 运行基于 Ray 的分布式工作负载,并在 Kubernetes 上管理远程 Ray 集群。开发者可以创建并监控 RayCluster 资源,提交 RayJob 工作负载,并为基于 Python 的环境定义分布式计算任务。

Feast Feature Store

Feast Feature Store 提供了一种一致的方式来管理可复用的机器学习特征,覆盖训练、批量评分和在线推理。管理员可以通过 FeatureStore 自定义资源在 Kubernetes 上部署 Feast,该资源负责管理在线存储、离线存储、注册中心、UI 和客户端配置等核心服务。

Connection Hub S3 支持

Connection Hub 支持 S3 连接类型,扩展了 AI 工作流中可复用连接配置的范围。它使用户只需配置一次 S3 兼容对象存储访问,即可在受支持的模型、数据和开发工作流中复用该连接。

TrainingHub 微调和后训练

TrainingHubWorkbench 环境中的模型微调和后训练提供统一的高层 API。它支持 SFTOSFT 工作流,涵盖单 GPU、多 GPU 和多节点执行场景,简化了分布式训练配置、内存管理、检查点保存和实验跟踪。

扩展 ARM 的 Notebook 基础镜像库

Notebook Base Image Library for ARM 现已包含 minimal CANNPyTorch CANNMindSpore CANNdatascience code-server 镜像。基于 CANN 的镜像为 Ascend NPUs 提供框架支持,扩展了 ARM 相关的 notebook 和 code-server 环境开发选项。

弃用功能

本版本中无。

已修复问题

  • [LWS] 为控制器添加 Master 节点容忍度,修复 Pod 持续处于 Pending 的问题。
  • Node Feature Discovery 包的tag 和chart tag 不一致导致在global 集群部署状态异常,在业务集群部署没有这个问题。
  • 修复 catalog 组件在断网环境中启动错误的问题
  • 当成功创建推理服务之后,在管理视图更新 ServingRuntime 的参数,如果推理服务引用了这个 ServingRuntime,即使停止再启动,或者更新部分参数,都无法在内部实际引用最新的 ServingRuntime 参数。

已知问题

  • 在 Gitlab 中通过直接编辑 readme 文件,来修改 library_name,在页面中无法同步显示出其模型类型变化。
    临时方案:使用 UI 操作修改,避免直接操作 Gitlab 修改。
  • 在使用 VictoriaMetrics 对 Serverless 模式的推理服务进行监控数据采集时,存在推理服务无法缩容到0的已知问题。