架构

下图展示了 Alauda AI 平台的架构。

architecture

组件说明

Alauda 容器平台层组件

组件说明类型许可证
GPU (Alauda Build of Nvidia GPU Device Plugin)为 AI 工作负载提供 GPU 资源开源Apache 2.0
HAMi (Alauda Build of Hami, Alauda Build of Hami-WebUI)GPU 资源切片、共享与调度开源Apache 2.0
Alauda Build of DCGM-ExporterGPU 监控开源Apache 2.0
Alauda Build of NPU Operator为 AI 工作负载提供 NPU 资源开源Apache 2.0
Alauda Build of Node Feature Discovery检测集群节点的硬件特征开源Apache 2.0
DRA (Alauda build of NVIDIA DRA Driver for GPUs)GPU 共享的动态资源分配开源Apache 2.0
Volcano (Alauda support for Volcano)AI 工作负载的批处理作业调度开源Apache 2.0
Kueue (Alauda Build of Kueue)AI 工作负载的作业调度开源Apache 2.0
Milvus (Alauda Build of Milvus)用于嵌入存储和检索的向量数据库开源Apache 2.0
PGVector (Alauda support for PostgreSQL)PostgreSQL 的向量相似度搜索扩展开源PostgreSQL 许可证

AI 平台层组件

组件说明类型许可证
Model Catalog (Alauda AI/Alauda AI Essentials)集中管理 AI 模型及其元数据的仓库专有商业
Model Registry (Alauda support for Kubeflow Model Registry)跟踪每个命名空间的 AI 模型版本和元数据开源Apache 2.0
Datasets (Alauda AI/Alauda AI Essentials)集中管理数据集及其元数据的仓库专有商业
Labeling (Alauda support for Label Studio)用于创建标注数据集的数据标注工具开源Apache 2.0
Feature Store (Alauda support for FeatureForm)集中管理和提供机器学习特征的仓库开源Mozilla 公共许可证 (MPL)
Workbench (Alauda AI Workbench)基于 Web 的 AI 项目管理界面,包括模型训练和推理专有商业
Training Jobs (Alauda support for Kubeflow Trainer v2)Kubernetes 原生的训练作业管理开源Apache 2.0
Kubeflow Pipelines (Alauda support for Kubeflow Base & Alauda support for Kubeflow Pipeline)AI 流水线的工作流编排开源Apache 2.0
Guardrails (Coming soon)AI 安全与治理框架开源Apache 2.0
Drift & Bias Detection (Alauda support for Evidently)模型性能退化和偏差的监控开源Apache 2.0
Experiment Tracking (Alauda support for MLFlow)机器学习实验的跟踪与比较开源Apache 2.0

GenAI 平台层组件

组件说明类型许可证
Kserve (Alauda AI/Alauda Build of KServe)Kubernetes 原生的模型服务框架开源Apache 2.0
vLLM (Alauda AI/Alauda Build of KServe)面向大型语言模型的高性能模型推理引擎开源Apache 2.0
llm-d (Alauda Build of KServe)大型语言模型的分布式推理引擎开源Apache 2.0
Model as a Service (Alauda build of Envoy AI Gateway)用于将 AI 模型作为服务提供的 API 网关开源Apache 2.0
Fine-tuning集成于工作台的用于大型语言模型微调的工具,如 transformers、accelerate、llama-factory 等开源-
Training (Alauda support for Kubeflow Trainer v2)Kubernetes 原生的训练作业管理开源Apache 2.0
Model Quantization集成于工作台的模型量化工具,如 llm-compressor 等开源-
Evaluation集成于工作台的模型性能评估工具,如 lm-evaluation-harness 等开源-
Llama Stack (Alauda build of Llama Stack)用于构建大型语言模型应用的框架开源MIT
Langchain集成于工作台的用于构建基于 Langchain 的 LLM 应用的工具开源MIT
Dify (Alauda support for Dify)用于构建 AI 助手和聊天机器人的平台开源Apache 2.0 (修改版)
MCP Servers可集成多种 MCP 服务器--
Agent Tracing (Alauda support for MLflow)AI 智能体的追踪与监控开源Apache 2.0
Agent Evaluation集成于工作台的 AI 智能体评估工具,如 RAGAS 等开源-