安装 Llama Stack
本文档介绍如何使用 Llama Stack Operator 在 Kubernetes 上安装和部署 Llama Stack Server。
上传 Operator
下载 Llama Stack Operator 安装文件(例如,llama-stack-operator.alpha.ALL.xxxx.tgz)。
使用 violet 命令发布到平台仓库:
安装 Operator
-
进入 Alauda 容器平台的
Administrator视图。 -
在左侧导航中选择
Marketplace/Operator Hub。 -
在右侧面板中找到
Alauda build of Llama Stack并点击Install。 -
保持所有参数为默认,完成安装。
部署 Llama Stack Server
Operator 安装完成后,通过创建 LlamaStackDistribution 自定义资源来部署 Llama Stack Server:
注意: 请提前准备以下内容,否则分发可能无法变为就绪状态:
- Inference URL:
VLLM_URL必须指向一个 vLLM OpenAI 兼容 的 HTTP 基础 URL(例如集群内的 vLLM 或 KServe InferenceService),用于提供目标模型服务。- Secret(可选):
VLLM_API_TOKEN仅在 vLLM 端点需要认证时才需要。如果 vLLM 无需认证,则不要设置。需要时,在相同命名空间创建 Secret,并从containerSpec.env引用它(见下方清单中的注释示例)。- 存储类:确保集群中存在
default存储类,否则 PVC 无法绑定,资源将无法变为就绪。
部署完成后,Llama Stack Server 将在集群内可用。访问 URL 显示在 status.serviceURL 中,例如:
使用 KServe 上的 vLLM 进行工具调用
以下内容适用于 KServe 上的 vLLM predictor,不适用于 LlamaStackDistribution 清单。对于使用 工具(客户端工具或 MCP)的 agent 流程,vLLM 进程必须支持工具调用。根据上游 vLLM 要求,添加 predictor 容器的 args,例如:
根据 所服务的模型 及该模型系列的 vLLM 文档,选择 --tool-call-parser(及相关标志)。