介绍

KServe

Alauda Build of KServe 基于 KServe。 KServe 提供了一个标准化的、云原生的接口，用于在 Kubernetes 上大规模服务机器学习模型。它围绕两个主要场景发展：传统机器学习推理的 Predictive AI，以及基于大语言模型的工作负载的 Generative AI。

Generative AI

Generative AI 支持针对具有 OpenAI 兼容 API 的大语言模型（LLM）服务进行了优化。

llm-d (Distributed LLM Inference)：一个 Kubernetes 原生的分布式推理框架，运行在 KServe 控制平面下。llm-d 使用 Leader/Worker 模式编排多节点 LLM 推理，并基于 KV 缓存状态和 GPU 负载做实时路由决策——实现了感知 KV 缓存的请求调度、弹性张量/流水线并行以及集群范围内的推理，表现如同单机。这降低了每个令牌的成本，并最大化了对超出单节点内存的大模型（例如 Llama 3.1 405B）的 GPU 利用率。
LLM Inference & Streaming：原生支持流式响应（SSE / 分块传输），实现聊天和补全工作负载的实时令牌传递，提供 OpenAI 兼容的 /chat/completions 和 /completions API。
vLLM Runtime：与 vLLM 作为高性能 LLM 服务后端的一级集成，支持连续批处理和 PagedAttention。
Gateway Integration：与 Envoy Gateway 及 Gateway API Inference Extension (GIE) 原生集成，实现 AI 感知的流量路由、负载均衡以及跨推理服务的模型级限流。
Autoscaling for LLMs：基于指标的自动扩缩容策略，针对 LLM 吞吐特性定制，包括支持零实例扩缩以提升成本效率。

Predictive AI

Predictive AI 涵盖传统机器学习模型服务，满足高吞吐和低延迟需求。

InferenceService：部署和管理模型服务端点的核心 CRD。支持金丝雀发布、跨模型版本的流量拆分以及 A/B 测试工作流。
Model Serving Runtimes：预集成了流行 ML 框架的运行时——TensorFlow Serving、TorchServe、Triton Inference Server、SKLearn、XGBoost 等。通过 ClusterServingRuntime 和 ServingRuntime CRD 支持自定义运行时。
Inference Graph：InferenceGraph CRD 支持将多个模型组合成流水线，包括预处理/后处理节点、路由逻辑和集成模式。
Autoscaling：通过 KEDA 或 Kubernetes HPA 支持零实例扩缩和从零扩缩，策略基于请求率、队列深度或自定义指标。

有关平台上的安装，请参见 Install KServe。

Documentation

KServe 上游文档及关键依赖：

KServe Documentation：https://kserve.github.io/website/ — 官方文档，涵盖概念、模型服务运行时和 API 参考。
KServe GitHub：https://github.com/kserve/kserve — 源代码、release notes 和问题跟踪。
llm-d：https://github.com/llm-d/llm-d — Kubernetes 原生分布式 LLM 推理框架，支持感知 KV 缓存的调度和弹性并行。
LeaderWorkerSet (LWS)：https://github.com/kubernetes-sigs/lws — Kubernetes SIG 工作负载控制器，支持多节点 Leader/Worker 模式，多节点 LLM 推理所需。
Envoy Gateway：https://gateway.envoyproxy.io/ — 基于 Envoy Proxy 构建的 Kubernetes 原生网关，为 KServe 推理服务提供底层流量管理。
Envoy AI Gateway：https://aigateway.envoyproxy.io/ — 构建在 Envoy Gateway 之上的 AI 专用网关功能，包括 AI 感知路由和模型级策略。
Gateway API Inference Extension (GIE)：https://gateway-api-inference-extension.sigs.k8s.io/ — Kubernetes SIG 项目，提供推理服务的 AI 感知路由和负载均衡。

#介绍

#目录

#KServe

#Generative AI

#Predictive AI

#Documentation

介绍

目录

KServe

Generative AI

Predictive AI

Documentation