主要特性
基于服务器的架构
- 集中式服务器:Llama Stack Server 托管推理、智能体、安全、工具运行时、向量 I/O 及文件
- 远程或内联提供者:支持远程 API(例如,兼容 OpenAI 的接口)和内联提供者(例如,meta-reference、sqlite-vec、本地文件系统)
- Kubernetes 部署:通过 Llama Stack Operator 使用
LlamaStackDistribution 自定义资源进行部署
带工具的 AI 智能体
- 智能体创建:使用模型、指令和工具列表创建智能体
- 客户端工具:使用
@client_tool 装饰器定义工具;客户端执行工具调用并将结果返回服务器
- 会话管理:创建会话并运行支持流式响应的多轮对话
- 流式传输:支持智能体响应的流式传输,实现实时显示
配置与可扩展性
- 堆栈配置:基于 YAML 的配置,涵盖 API、提供者、持久化(例如,kv_default、sql_default)和模型
- 环境变量回退:配置中使用
${env.VAR:~default} 实现灵活部署
- 多种发行版:Starter、postgres-demo、meta-reference-gpu 等多种发行版选项
集成
- Python 客户端:适用于 Python 3.12+ 的
llama-stack-client,提供完整的智能体和模型 API
- REST 友好:服务器暴露推理、智能体和工具运行时的 API;可封装在 FastAPI 或其他 Web 框架中用于生产环境