介绍
KServe
Alauda Build of KServe 基于 KServe。 KServe 提供了一个标准化的、云原生的接口,用于在 Kubernetes 上大规模服务机器学习模型。 它围绕两个主要场景发展:传统机器学习推理的 Predictive AI,以及基于大语言模型的工作负载的 Generative AI。
Generative AI
Generative AI 支持针对具有 OpenAI 兼容 API 的大语言模型(LLM)服务进行了优化。
- llm-d (Distributed LLM Inference):一个 Kubernetes 原生的分布式推理框架,运行在 KServe 控制平面下。llm-d 使用 Leader/Worker 模式编排多节点 LLM 推理,并基于 KV 缓存状态和 GPU 负载做实时路由决策——实现了感知 KV 缓存的请求调度、弹性张量/流水线并行以及集群范围内的推理,表现如同单机。这降低了每个令牌的成本,并最大化了对超出单节点内存的大模型(例如 Llama 3.1 405B)的 GPU 利用率。
- LLM Inference & Streaming:原生支持流式响应(SSE / 分块传输),实现聊天和补全工作负载的实时令牌传递,提供 OpenAI 兼容的
/chat/completions和/completionsAPI。 - vLLM Runtime:与 vLLM 作为高性能 LLM 服务后端的一级集成,支持连续批处理和 PagedAttention。
- Gateway Integration:与 Envoy Gateway 及 Gateway API Inference Extension (GIE) 原生集成,实现 AI 感知的流量路由、负载均衡以及跨推理服务的模型级限流。
- Autoscaling for LLMs:基于指标的自动扩缩容策略,针对 LLM 吞吐特性定制,包括支持零实例扩缩以提升成本效率。
Predictive AI
Predictive AI 涵盖传统机器学习模型服务,满足高吞吐和低延迟需求。
- InferenceService:部署和管理模型服务端点的核心 CRD。支持金丝雀发布、跨模型版本的流量拆分以及 A/B 测试工作流。
- Model Serving Runtimes:预集成了流行 ML 框架的运行时——TensorFlow Serving、TorchServe、Triton Inference Server、SKLearn、XGBoost 等。通过 ClusterServingRuntime 和 ServingRuntime CRD 支持自定义运行时。
- Inference Graph:InferenceGraph CRD 支持将多个模型组合成流水线,包括预处理/后处理节点、路由逻辑和集成模式。
- Autoscaling:通过 KEDA 或 Kubernetes HPA 支持零实例扩缩和从零扩缩,策略基于请求率、队列深度或自定义指标。
有关平台上的安装,请参见 Install KServe。
Documentation
KServe 上游文档及关键依赖:
- KServe Documentation:https://kserve.github.io/website/ — 官方文档,涵盖概念、模型服务运行时和 API 参考。
- KServe GitHub:https://github.com/kserve/kserve — 源代码、release notes 和问题跟踪。
- llm-d:https://github.com/llm-d/llm-d — Kubernetes 原生分布式 LLM 推理框架,支持感知 KV 缓存的调度和弹性并行。
- LeaderWorkerSet (LWS):https://github.com/kubernetes-sigs/lws — Kubernetes SIG 工作负载控制器,支持多节点 Leader/Worker 模式,多节点 LLM 推理所需。
- Envoy Gateway:https://gateway.envoyproxy.io/ — 基于 Envoy Proxy 构建的 Kubernetes 原生网关,为 KServe 推理服务提供底层流量管理。
- Envoy AI Gateway:https://aigateway.envoyproxy.io/ — 构建在 Envoy Gateway 之上的 AI 专用网关功能,包括 AI 感知路由和模型级策略。
- Gateway API Inference Extension (GIE):https://gateway-api-inference-extension.sigs.k8s.io/ — Kubernetes SIG 项目,提供推理服务的 AI 感知路由和负载均衡。