主要特性
基于 Server 的架构
- 集中式 Server:Llama Stack Server 承载推理、智能体、安全、工具运行时、向量 I/O 和文件
- 远程或内联 Provider:支持远程 API(例如,OpenAI-compatible)和内联 provider(例如,meta-reference、sqlite-vec、localfs)
- Kubernetes 部署:通过 Llama Stack Operator 使用
LlamaStackDistribution 自定义资源进行部署
带工具的 AI 智能体
- 智能体创建:使用模型、指令和工具列表创建智能体
- 客户端工具:使用
@client_tool 装饰器定义工具;客户端执行工具调用并将结果返回给 server
- 会话管理:创建会话并以流式响应运行多轮对话
- 流式传输:支持智能体响应流式输出,以便实时显示
配置和可扩展性
- Stack 配置:基于 YAML 的配置,用于 API、provider、持久化(例如,kv_default、sql_default)和模型
- 环境回退:在配置中使用
${env.VAR:~default} 以实现灵活部署
- 多种 Distribution:Starter、postgres-demo、meta-reference-gpu 以及其他 distribution 选项
集成
- Python Client:适用于 Python 3.12+ 的
llama-stack-client,提供完整的智能体和模型 API
- 向量存储 API:从客户端创建和查询向量存储,包括基于 PGVector 的存储(
provider_id="pgvector")以及基于 Milvus 的存储(provider_id="milvus-remote")
- 适合 REST 的设计:Server 暴露用于推理、智能体和工具运行时的 API;在生产环境中可封装到 FastAPI 或其他 Web 框架中使用