介绍

KServe

Alauda Build of KServe 基于 KServe。 KServe 提供了一个标准化的、云原生的接口,用于在 Kubernetes 上大规模服务机器学习模型。 它围绕两个主要场景发展:传统机器学习推理的 Predictive AI,以及基于大语言模型的工作负载的 Generative AI

Generative AI

Generative AI 支持针对具有 OpenAI 兼容 API 的大语言模型(LLM)服务进行了优化。

  • llm-d (Distributed LLM Inference):一个 Kubernetes 原生的分布式推理框架,运行在 KServe 控制平面下。llm-d 使用 Leader/Worker 模式编排多节点 LLM 推理,并基于 KV 缓存状态和 GPU 负载做实时路由决策——实现了感知 KV 缓存的请求调度、弹性张量/流水线并行以及集群范围内的推理,表现如同单机。这降低了每个令牌的成本,并最大化了对超出单节点内存的大模型(例如 Llama 3.1 405B)的 GPU 利用率。
  • LLM Inference & Streaming:原生支持流式响应(SSE / 分块传输),实现聊天和补全工作负载的实时令牌传递,提供 OpenAI 兼容的 /chat/completions/completions API。
  • vLLM Runtime:与 vLLM 作为高性能 LLM 服务后端的一级集成,支持连续批处理和 PagedAttention。
  • Gateway Integration:与 Envoy Gateway 及 Gateway API Inference Extension (GIE) 原生集成,实现 AI 感知的流量路由、负载均衡以及跨推理服务的模型级限流。
  • Autoscaling for LLMs:基于指标的自动扩缩容策略,针对 LLM 吞吐特性定制,包括支持零实例扩缩以提升成本效率。

Predictive AI

Predictive AI 涵盖传统机器学习模型服务,满足高吞吐和低延迟需求。

  • InferenceService:部署和管理模型服务端点的核心 CRD。支持金丝雀发布、跨模型版本的流量拆分以及 A/B 测试工作流。
  • Model Serving Runtimes:预集成了流行 ML 框架的运行时——TensorFlow Serving、TorchServe、Triton Inference Server、SKLearn、XGBoost 等。通过 ClusterServingRuntimeServingRuntime CRD 支持自定义运行时。
  • Inference GraphInferenceGraph CRD 支持将多个模型组合成流水线,包括预处理/后处理节点、路由逻辑和集成模式。
  • Autoscaling:通过 KEDA 或 Kubernetes HPA 支持零实例扩缩和从零扩缩,策略基于请求率、队列深度或自定义指标。

有关平台上的安装,请参见 Install KServe

Documentation

KServe 上游文档及关键依赖: