介绍

Envoy AI Gateway

Alauda Build of Envoy AI Gateway 基于 Envoy AI Gateway 项目构建。
Envoy AI Gateway 是一个 Kubernetes 原生、专为 AI 设计的网关层,构建于 Envoy Gateway 之上,提供智能流量管理、路由和策略执行,专注于 AI 推理工作负载。

主要组件和功能包括:

  • AI 感知路由:根据请求内容、模型名称和后端可用性,将推理请求路由到合适的后端模型服务,实现单一端点下的多模型透明服务。
  • 兼容 OpenAI 的 API:对所有下游推理服务暴露统一的、兼容 OpenAI 的 API 接口(/v1/chat/completions/v1/completions/v1/models),无论底层运行时如何。
  • 按模型限流与策略:在单个模型层面执行细粒度的限流、令牌配额和流量策略,防止资源饥饿,确保多租户公平使用。
  • 后端负载均衡:使用可配置的负载均衡策略,将推理请求分发到同一模型的多个副本,支持健康检查和自动故障转移。
  • Envoy Gateway 集成:作为 Envoy Gateway 的扩展运行,继承其 Kubernetes Gateway API 原生控制平面、TLS 终止和可观测性功能(指标、访问日志、分布式追踪)。
  • Gateway API 推理扩展(GIE):集成 Kubernetes SIG Gateway API 推理扩展,实现基于实时后端状态的高级推理感知调度和负载均衡决策。

Envoy AI Gateway 是 Alauda Build of KServe 暴露推理服务的必备依赖。

有关平台上的安装,请参见 Install Envoy AI Gateway

文档

Envoy AI Gateway 上游文档及相关资源: