安装 Alauda Hyperflux
目录
下载软件包并上传到集群准备 LLM 和 rerank 服务安装 Alauda Hyperflux 集群插件Database调度LLM serviceRerankerAgent ModeRetrieval(RAG)调优审计和身份Rate limiter故障排查下载软件包并上传到集群
你可以从 Customer Portal 网站上的 Marketplace 下载名为 Alauda Hyperflux 的应用。
下载后的软件包是一个名为 alauda-hyperflux-<version>.tar.gz 的 tarball 文件。
如果机器上没有 violet 命令行工具,请下载它:
- 登录 ACP Web Console,并切换到 Administrator 视图。
- 在 Marketplace / Upload Packages 中,点击 Download Packaging and Listing Tool。
- 选择正确的 OS/CPU arch,然后点击 Download。
- 运行
chmod +x ${PATH_TO_THE_VIOLET_TOOL}使该工具可执行。
将以下脚本保存为 upload.sh,
然后根据注释编辑该文件,填入正确的配置值。
准备 LLM 和 rerank 服务
在安装 Alauda Hyperflux 之前,你需要先准备一个供 Alauda Hyperflux 使用的 LLM 服务。 你可以使用 Azure OpenAI service,或者通过 Alauda AI 部署一个本地(On-Premise)LLM service,例如 vLLM。
在 Alauda Hyperflux 的安装步骤中,你将使用 LLM service endpoint、model name 和 API key。
如果你希望启用 Alauda Hyperflux 中的 rerank 功能,还需要准备一个支持 Cohere Reranker API v2 的 rerank service。关于如何使用 Alauda AI + vLLM 部署该服务的一种方式,请参见 Setup On-Premise Reranker Service。
NOTE: 从 v1.4.0 开始,内置的 knowledge-base dump 文件已随 plugin package 一并提供——你不再需要单独下载它,早期版本中的手动
pg_restore步骤也已移除。init container 会在首次启动时自动恢复所选 dump。如果你想使用自己的内部文档来添加或替换随附的 corpus,请参见 Build a Custom Knowledge Base。
安装 Alauda Hyperflux 集群插件
进入 Administrator / Marketplace / Cluster Plugins 页面,
从 cluster 下拉列表中选择 "global" cluster,
然后找到 Alauda Hyperflux plugin 并点击 Install。
NOTE: Alauda Hyperflux 必须安装在
Globalcluster 中。
安装表单按主题分组如下。必填字段标记为 (required)。
Database
-
Enable builtin PGVector — 启用后,chart 会为 Alauda Hyperflux 提供一个单独的 PostgreSQL + ParadeDB 实例。设置:
- PGVector Storage Size — PostgreSQL PVC 的存储大小,例如
10Gi。 - PGVector StorageClass name — PVC 使用的 Kubernetes storage class,例如
sc-topolvm。
- PGVector Storage Size — PostgreSQL PVC 的存储大小,例如
-
当禁用时,请改为创建一个
Secret(通过 pg database secret name 引用),其中包含外部 PostgreSQL 的连接信息。Hyperflux 在同一实例上使用三个逻辑数据库——docvec_sys_kb(内置产品知识库)、docvec_user_kb(用户上传的知识库)以及聊天历史数据库(默认docvec,可通过 PG database name 配置)——如果缺失,init container 会自动创建它们。然后在 pg database secret name 中输入 secret 名称。
-
PG database name — 聊天历史数据库名称(默认
docvec)。如果缺失,会在首次启动时创建。 -
PG collection name — 服务从
docvec_sys_kb读取时使用的 LangChain PGVector collection 名称。它必须与所选 Built-in KnowledgeBase File 的内部 collection 名称一致;按照约定,该名称就是去掉.dump后缀的 dump 文件名。默认值docvec_gte_acp_4_3_20260508与默认 dump 匹配,因此除非你在下方选择了非默认的内置 dump,或者 (b) 部署了通过 Build a Custom Knowledge Base 构建的自定义 KB,否则请保持不变——在这两种情况下,都应将其设置为对应 dump 文件名去掉.dump后缀。 -
Built-in KnowledgeBase File — 选择首次启动时要恢复的内置 dump。每个 dump 都是采集自特定 ACP release 的 Alauda Container Platform (ACP) 产品文档知识库,并全部使用 gte-multilingual-base model 进行嵌入。请选择与你运行的 ACP 版本匹配的条目;默认值为最新版本。可选项包括:
docvec_gte_acp_4_1_20260508.dump— ACP 4.1 documentation corpus。docvec_gte_acp_4_2_20260508.dump— ACP 4.2 documentation corpus。docvec_gte_acp_4_3_20260508.dump(默认)— ACP 4.3 documentation corpus(最新)。
NOTE: 首次启动时的恢复会按原样加载 dump,并保留其内部 collection 名称。如果你选择的 dump 不是默认值,你必须同时将 PG collection name 设置为该 dump 文件名去掉
.dump后缀(例如docvec_gte_acp_4_1_20260508),否则服务会查询一个不存在的 collection,检索结果将为空。 -
Enable builtin Redis — 启用后,chart 会提供一个单独的 Redis 实例供 rate limiter 使用。禁用时,请在 redis database secret name 中提供 Redis 凭据 secret。
调度
- Node Selector (optional) — 通过 label 将 Hyperflux pods 固定到特定节点。可以添加一行或多行;不同的 label key 按 OR 关系进行判断。
LLM service
- LLM Model type (required) —
azure或openai。 - LLM Base URL (required) — LLM API 调用的 base URL。对于本地 vLLM 部署,请使用
http://<your-vllm-host>:<port>/v1。 - LLM Model Name (required) — API 调用中传入的 model name,例如
gpt-5-mini或qwen2。 - LLM API Key (required) — 用于 LLM API 调用的 API key。会作为外部密码存储。
- Azure API Version — 仅当 LLM Model type =
azure时需要,例如2024-12-01-preview。 - Azure Deployment Name — 仅当 LLM Model type =
azure时需要,例如o4-mini。
Reranker
- Enable Reranker (required) — 启用兼容 Cohere API 的 reranking。它会通过额外一次服务调用提升答案相关性,但会带来一次额外的服务跳转。启用后,设置:
- Cohere Reranker BaseUrl — reranker service 的 base URL。
- Cohere Reranker Model — model name。
- Cohere Reranker API key — API key(对于不强制认证的 vLLM 部署,任何非空值都可用)。
Agent Mode
- Enable Agent Mode (required) — 启用多步推理,使 agent 可以调用 MCP tools。推荐: 在启用此功能时使用较强的 LLM(≥ GPT-4 / Qwen-72B 级别);较小的模型可能会陷入循环或误用工具。
- Enable MCP Tools — 加载 ACP MCP tools,以便 agent 读取实时集群状态。仅在启用 Agent Mode 时可用。
- Expose MCP — 通过 Ingress 暴露随附的
acp-mcp-server,以便外部 MCP client(例如 IDE 端的 coding agents)可以访问。仅在启用 Agent Mode 时可用。 - 随附的
acp-mcp-serverdeployment 本身由smartdoc.enableMCPServer控制(默认值为true);只要启用 Agent Mode,就请保持开启。
NOTE: 早期版本需要设置 "MCP K8s API Server Address"(即
erebusURL)。该字段已在 v1.4.0 中移除——随附的acp-mcp-server现在直接在 global 集群内与集群通信,外部流量则通过 Ingress 路由。
Retrieval(RAG)调优
- Total Search K (required) — 在 reranking 前从知识库中检索的候选数量,默认
20。 - RAG Similarity Threshold (required) — 保留一个 chunk 所需的最小 cosine similarity,默认
0.8。较低的值会以召回率为代价换取更高的精确率。 - Cohere Reranker Top N (required) — reranking 后送入 LLM 的 top-ranked chunk 数量,默认
6。仅在启用 reranking 时生效。 - Max History Number (required) — 提示词中保留的历史轮次数量,默认
1。 - Model Context Window — LLM 的总上下文窗口大小,单位为 tokens(例如
128000)。留空则按 model name 自动检测;会话历史压缩器会使用该值决定何时总结较早的轮次。
审计和身份
- Admin Users — 以逗号分隔的用户名列表,这些用户可以在 Alauda Hyperflux 中查看审计日志,例如
admin@cpaas.io,admin。
Rate limiter
- Enable Rate Limiter (required) — 启用后,将通过 Redis 强制执行按用户的请求频率和每日 token 配额。
- Max Requests Per Minute (RPM) — 每个用户的请求上限,默认
5。 - RPM Window Time (Minute) — 用于 RPM 检查的滑动窗口,默认
5。 - Max Total Tokens Per Day — 每个用户每天输入 + 输出 token 的总上限,默认
1000000。 - Max Input Tokens Per Day — 每个用户每天输入 token 的上限,默认
200000。 - Max Output Tokens Per Day — 每个用户每天输出 token 的上限,默认
1000000。
点击 Install 开始安装。首次启动时,init container 将执行以下操作:
- 将所选的内置 dump 恢复到
docvec_sys_kb中(该 dump 已包含 BM25 index)。 - 如果聊天历史数据库和
docvec_user_kb不存在,则创建它们。 - 将
doc_idbtree index 和 URL-backfill schema migrations 应用到两个 KB database。
故障排查
如果聊天界面没有响应,请检查 Alauda Hyperflux pod logs:
大多数问题由以下原因导致:
- LLM service 配置错误——base URL 不正确、Azure 的 API version 错误、model name 错误。
- 启用 reranking 时,Cohere API 配置错误。
- init container 未能创建或恢复 system KB database——init 日志行(在 data swap 步骤中以前缀
[upgrade]标识)会指出失败的步骤。