logo
Alauda AI
  • 简体中文
    • English
    • 简体中文
    • Alauda AI
    • 监控与运维
    • 资源监控
    • 故障排除
    导航
    概览
    架构
    介绍
    快速开始
    发版日志
    安装
    安装前配置
    安装 Workbench
    安装 Alauda AI Essentials
    安装 Alauda AI
    工具菜单配置
    升级
    升级 Alauda AI
    迁移到 Knative Operator
    卸载
    卸载
    基础设施管理
    设备管理
    关于 Alauda Build of Hami
    关于 Alauda Build 的 NVIDIA GPU 设备插件
    多租户
    指南
    Namespace Management
    工作台
    概览
    介绍
    升级
    实用指南
    创建工作台
    使用 Workbench 对 LLM 进行微调
    使用 Training Hub 微调大型语言模型
    在 Ascend NPU 上使用 Workbench 对 LLM 进行微调和预训练
    Kubeflow Trainer 快速入门
    模型部署与推理
    概览
    介绍
    特性
    推理服务
    介绍
    实用指南
    Create Inference Service using CLI
    Extend Inference Runtimes
    使用 KServe Modelcar 进行模型存储
    为 vLLM 推理服务启用 Expert Parallel
    Configure External Access for Inference Services
    Configure Scaling for Inference Services
    Scheduling Inference Services based on the CUDA version
    Set Up Autoscaling for Inference Services with KEDA
    故障排查
    使用 MLServer 运行时体验推理服务超时
    推理服务无法进入运行状态
    指导手册
    推理服务
    模型管理
    介绍
    功能指南
    模型仓库
    模型存储
    实用指南
    使用 Notebook 上传模型
    Share Models
    监控与运维
    概览
    介绍
    特性概述
    日志记录与跟踪
    介绍
    功能指南
    日志
    资源监控
    介绍
    实用指南
    添加监控面板
    故障排除
    监控面板卡在加载中
    功能指南
    资源监控
    Label Studio
    概览
    介绍
    主要功能
    安装 Label Studio
    快速入门
    Dify
    概览
    介绍
    主要功能
    安装 Dify
    LLM Compressor
    介绍
    实用指南
    在 Alauda AI 中使用 LLM Compressor
    Alauda 版 KubeRay Operator
    介绍
    安装
    实用指南
    CodeFlare SDK 教程
    Alauda 版 Kueue
    介绍
    安装 Kueue
    实用指南
    设置 RBAC
    配置配额
    监控待处理的工作负载
    使用 cohorts
    配置公平共享
    Gang scheduling
    与 Alauda DevOps Pipelines 集成
    与 InferenceService 集成
    Alauda 版 KServe
    介绍
    安装 KServe
    Alauda 版 Llama Stack
    概览
    介绍
    主要特性
    安装 Llama Stack
    快速入门
    Alauda 的 LeaderWorkerSet 构建
    介绍
    安装 LeaderWorkerSet
    使用 Ragas 评估 RAG
    Alauda Build of TrustyAI
    介绍
    安装 TrustyAI
    评估 LLM
    用于 LLM 安全性的 AI Guardrails
    NeMo Guardrails
    TrustyAI Service (TAS)
    Alauda Envoy AI Gateway 构建
    介绍
    安装 Envoy AI Gateway
    Feast 的 Alauda 构建
    介绍
    安装 Feast
    快速开始
    Alauda 对 Kubeflow 的支持
    介绍
    how_to
    使用 Kubeflow Notebooks
    使用 Kubeflow Tensorboards
    使用 Kubeflow Volumes
    使用 Kubeflow Model Registry
    使用 Kubeflow Pipelines
    使用 Kubeflow Trainer v2 进行微调
    安装 Kubeflow 插件
    升级 Kubeflow 插件
    API 参考
    介绍
    Kubernetes APIs
    Inference Service APIs
    ClusterServingRuntime [serving.kserve.io/v1alpha1]
    推理服务 [serving.kserve.io/v1beta1]
    Workbench APIs
    Workspace Kind [kubeflow.org/v1beta1]
    Workspace [kubeflow.org/v1beta1]
    管理 API
    AmlNamespace [manage.aml.dev/v1alpha1]
    Operator APIs
    AmlCluster [amlclusters.aml.dev/v1alpha1]
    学习
    架构、版本和组件
    术语表

    #故障排除

    编辑此页面
    上一页添加监控面板下一页监控面板卡在加载中