架构#
下图展示了 Alauda AI 平台的架构。

#组件说明
#Alauda 容器平台层组件
| 组件 | 说明 | 类型 | 许可证 |
|---|---|---|---|
| GPU (Alauda Build of Nvidia GPU Device Plugin) | 为 AI 工作负载提供 GPU 资源 | 开源 | Apache 2.0 |
| HAMi (Alauda Build of Hami, Alauda Build of Hami-WebUI) | GPU 资源切片、共享与调度 | 开源 | Apache 2.0 |
| Alauda Build of DCGM-Exporter | GPU 监控 | 开源 | Apache 2.0 |
| Alauda Build of NPU Operator | 为 AI 工作负载提供 NPU 资源 | 开源 | Apache 2.0 |
| Alauda Build of Node Feature Discovery | 检测集群节点的硬件特征 | 开源 | Apache 2.0 |
| DRA (Alauda build of NVIDIA DRA Driver for GPUs) | GPU 共享的动态资源分配 | 开源 | Apache 2.0 |
| Volcano (Alauda support for Volcano) | AI 工作负载的批处理作业调度 | 开源 | Apache 2.0 |
| Kueue (Alauda Build of Kueue) | AI 工作负载的作业调度 | 开源 | Apache 2.0 |
| Milvus (Alauda Build of Milvus) | 用于嵌入存储和检索的向量数据库 | 开源 | Apache 2.0 |
| PGVector (Alauda support for PostgreSQL) | PostgreSQL 的向量相似度搜索扩展 | 开源 | PostgreSQL 许可证 |
#AI 平台层组件
| 组件 | 说明 | 类型 | 许可证 |
|---|---|---|---|
| Model Catalog (Alauda AI/Alauda AI Essentials) | 集中管理 AI 模型及其元数据的仓库 | 专有 | 商业 |
| Model Registry (Alauda support for Kubeflow Model Registry) | 跟踪每个命名空间的 AI 模型版本和元数据 | 开源 | Apache 2.0 |
| Datasets (Alauda AI/Alauda AI Essentials) | 集中管理数据集及其元数据的仓库 | 专有 | 商业 |
| Labeling (Alauda support for Label Studio) | 用于创建标注数据集的数据标注工具 | 开源 | Apache 2.0 |
| Feature Store (Alauda support for FeatureForm) | 集中管理和提供机器学习特征的仓库 | 开源 | Mozilla 公共许可证 (MPL) |
| Workbench (Alauda AI Workbench) | 基于 Web 的 AI 项目管理界面,包括模型训练和推理 | 专有 | 商业 |
| Training Jobs (Alauda support for Kubeflow Trainer v2) | Kubernetes 原生的训练作业管理 | 开源 | Apache 2.0 |
| Kubeflow Pipelines (Alauda support for Kubeflow Base & Alauda support for Kubeflow Pipeline) | AI 流水线的工作流编排 | 开源 | Apache 2.0 |
| Guardrails (Coming soon) | AI 安全与治理框架 | 开源 | Apache 2.0 |
| Drift & Bias Detection (Alauda support for Evidently) | 模型性能退化和偏差的监控 | 开源 | Apache 2.0 |
| Experiment Tracking (Alauda support for MLFlow) | 机器学习实验的跟踪与比较 | 开源 | Apache 2.0 |
#GenAI 平台层组件
| 组件 | 说明 | 类型 | 许可证 |
|---|---|---|---|
| Kserve (Alauda AI/Alauda Build of KServe) | Kubernetes 原生的模型服务框架 | 开源 | Apache 2.0 |
| vLLM (Alauda AI/Alauda Build of KServe) | 面向大型语言模型的高性能模型推理引擎 | 开源 | Apache 2.0 |
| llm-d (Alauda Build of KServe) | 大型语言模型的分布式推理引擎 | 开源 | Apache 2.0 |
| Model as a Service (Alauda build of Envoy AI Gateway) | 用于将 AI 模型作为服务提供的 API 网关 | 开源 | Apache 2.0 |
| Fine-tuning | 集成于工作台的用于大型语言模型微调的工具,如 transformers、accelerate、llama-factory 等 | 开源 | - |
| Training (Alauda support for Kubeflow Trainer v2) | Kubernetes 原生的训练作业管理 | 开源 | Apache 2.0 |
| Model Quantization | 集成于工作台的模型量化工具,如 llm-compressor 等 | 开源 | - |
| Evaluation | 集成于工作台的模型性能评估工具,如 lm-evaluation-harness 等 | 开源 | - |
| Llama Stack (Alauda build of Llama Stack) | 用于构建大型语言模型应用的框架 | 开源 | MIT |
| Langchain | 集成于工作台的用于构建基于 Langchain 的 LLM 应用的工具 | 开源 | MIT |
| Dify (Alauda support for Dify) | 用于构建 AI 助手和聊天机器人的平台 | 开源 | Apache 2.0 (修改版) |
| MCP Servers | 可集成多种 MCP 服务器 | - | - |
| Agent Tracing (Alauda support for MLflow) | AI 智能体的追踪与监控 | 开源 | Apache 2.0 |
| Agent Evaluation | 集成于工作台的 AI 智能体评估工具,如 RAGAS 等 | 开源 | - |