架构

下图展示了 Alauda AI 平台的架构。

architecture

注意:Alauda AI 使用了一些通用的 Kubernetes、ACP 组件,包括:

  • ALB
  • Erebus
  • kube-apiserver(kubernetes 组件)
组件描述类型许可证
LichAlauda AI UI 控制台自研
aml-operator管理 Alauda AI 组件的安装和生命周期自研
aml-apiserver扩展 kubernetes api-server 并为 Alauda AI API 访问提供授权增强自研
skipper & oauth2-proxy代理来自 global 集群到工作负载集群的流量。流量通过 oauth2-proxy 进行认证开源Apache 2.0 版本
aml-controller管理工作负载集群上的 Alauda AI 命名空间。命名空间将自动配置模型仓库空间及相应资源。自研
aml-api-deploy为 “Lich” 提供高级 API自研
Gitlab (with Minio or S3)模型仓库后端存储和版本跟踪开源MIT
kserve-controller(可选启用 knative serving 和 istio)管理 AI 推理服务及推理服务运行时开源Apache 2.0 版本
workspace-controller管理工作台实例(jupyter notebooks, codeserver)开源Apache 2.0 版本
Volcano为 AI 训练作业提供协同调度(gang-scheduling)功能的插件。同时管理 “volcanojob” 资源以运行通用训练工作负载。开源Apache 2.0 版本
MLFlow通过存储和可视化指标及工件来跟踪训练和评估作业开源Apache 2.0 版本
Fine Tuning提供无代码 LLM 微调作业创建和管理的实验性 UI自研
Kubeflow提供 MLOps 功能的开源插件,包括:Notebooks、Tensorboard、Kubeflow pipeline、训练 operator。开源Apache 2.0 版本
Label Studio用于数据集标注的开源插件开源Apache 2.0 版本
Dify用于通过 Web UI 创建 LLM Agents、RAG 应用的开源插件开源<br>a modified version of the Apache License 2.0<br>
Evidently用于监控在线推理服务性能和数据漂移的开源插件开源Apache 2.0 版本
GPU device pluginsHAMi 和 nvidia GPU 设备插件开源Apache 2.0 版本