介绍
Envoy AI Gateway
Alauda Build of Envoy AI Gateway 基于 Envoy AI Gateway 项目构建。
Envoy AI Gateway 是一个 Kubernetes 原生、专为 AI 设计的网关层,构建于 Envoy Gateway 之上,提供智能流量管理、路由和策略执行,专注于 AI 推理工作负载。
主要组件和功能包括:
- AI 感知路由:根据请求内容、模型名称和后端可用性,将推理请求路由到合适的后端模型服务,实现单一端点下的多模型透明服务。
- 兼容 OpenAI 的 API:对所有下游推理服务暴露统一的、兼容 OpenAI 的 API 接口(
/v1/chat/completions、/v1/completions、/v1/models),无论底层运行时如何。 - 按模型限流与策略:在单个模型层面执行细粒度的限流、令牌配额和流量策略,防止资源饥饿,确保多租户公平使用。
- 后端负载均衡:使用可配置的负载均衡策略,将推理请求分发到同一模型的多个副本,支持健康检查和自动故障转移。
- Envoy Gateway 集成:作为 Envoy Gateway 的扩展运行,继承其 Kubernetes Gateway API 原生控制平面、TLS 终止和可观测性功能(指标、访问日志、分布式追踪)。
- Gateway API 推理扩展(GIE):集成 Kubernetes SIG Gateway API 推理扩展,实现基于实时后端状态的高级推理感知调度和负载均衡决策。
Envoy AI Gateway 是 Alauda Build of KServe 暴露推理服务的必备依赖。
有关平台上的安装,请参见 Install Envoy AI Gateway。
文档
Envoy AI Gateway 上游文档及相关资源:
- Envoy AI Gateway 文档:https://aigateway.envoyproxy.io/ — 官方文档,涵盖架构、配置和 API 参考。
- Envoy AI Gateway GitHub:https://github.com/envoyproxy/ai-gateway — 源代码、release notes 和问题跟踪。
- Envoy Gateway:https://gateway.envoyproxy.io/ — Envoy AI Gateway 所基于的底层网关基础设施。
- Gateway API 推理扩展(GIE):https://gateway-api-inference-extension.sigs.k8s.io/ — Kubernetes SIG 项目,提供与 Envoy AI Gateway 集成的 AI 感知路由功能。
- KServe (Alauda Build):../kserve/intro — KServe 使用 Envoy AI Gateway 作为暴露和路由推理服务的必备依赖。