发版日志

AI 2.3.0

新功能和优化功能

基于 Ray 的分布式工作负载

KubeRay 和 CodeFlare SDK 使开发者能够从 Workbench 运行基于 Ray 的分布式工作负载，并在 Kubernetes 上管理远程 Ray 集群。开发者可以创建并监控 RayCluster 资源，提交 RayJob 工作负载，并为基于 Python 的环境定义分布式计算任务。

Feast Feature Store

Feast Feature Store 提供了一种一致的方式来管理可复用的机器学习特征，覆盖训练、批量评分和在线推理。管理员可以通过 FeatureStore 自定义资源在 Kubernetes 上部署 Feast，该资源负责管理在线存储、离线存储、注册中心、UI 和客户端配置等核心服务。

Connection Hub S3 支持

Connection Hub 支持 S3 连接类型，扩展了 AI 工作流中可复用连接配置的范围。它使用户只需配置一次 S3 兼容对象存储访问，即可在受支持的模型、数据和开发工作流中复用该连接。

TrainingHub 微调和后训练

TrainingHub 为 Workbench 环境中的模型微调和后训练提供统一的高层 API。它支持 SFT 和 OSFT 工作流，涵盖单 GPU、多 GPU 和多节点执行场景，简化了分布式训练配置、内存管理、检查点保存和实验跟踪。

扩展 ARM 的 Notebook 基础镜像库

Notebook Base Image Library for ARM 现已包含 minimal CANN、PyTorch CANN、MindSpore CANN 和 datascience code-server 镜像。基于 CANN 的镜像为 Ascend NPUs 提供框架支持，扩展了 ARM 相关的 notebook 和 code-server 环境开发选项。

弃用功能

本版本中无。

已修复问题

[LWS] 为控制器添加 Master 节点容忍度，修复 Pod 持续处于 Pending 的问题。
Node Feature Discovery 包的tag 和chart tag 不一致导致在global 集群部署状态异常，在业务集群部署没有这个问题。
修复 catalog 组件在断网环境中启动错误的问题
当成功创建推理服务之后，在管理视图更新 ServingRuntime 的参数，如果推理服务引用了这个 ServingRuntime，即使停止再启动，或者更新部分参数，都无法在内部实际引用最新的 ServingRuntime 参数。

已知问题

在 Ascend NPU 环境中使用多卡部署推理服务时，服务无法 Ready，启动过程中出现 HCCL 初始化失败的问题。该问题由 vLLM Ascend 多卡场景未同时适配 root 与 non-root 运行模式引起，导致 NPU 多卡通信初始化异常。
在 Gitlab 中通过直接编辑 readme 文件，来修改 library_name，在页面中无法同步显示出其模型类型变化。
临时方案：使用 UI 操作修改，避免直接操作 Gitlab 修改。
在使用 VictoriaMetrics 对 Serverless 模式的推理服务进行监控数据采集时，存在推理服务无法缩容到0的已知问题。

#发版日志

#目录

#AI 2.3.0

#新功能和优化功能

#基于 Ray 的分布式工作负载

#Feast Feature Store

#Connection Hub S3 支持

#TrainingHub 微调和后训练

#扩展 ARM 的 Notebook 基础镜像库

#弃用功能

#已修复问题

#已知问题