主要特性

基于服务器的架构

  • 集中式服务器:Llama Stack Server 托管推理、智能体、安全、工具运行时、向量 I/O 及文件
  • 远程或内联提供者:支持远程 API(例如,兼容 OpenAI 的接口)和内联提供者(例如,meta-reference、sqlite-vec、本地文件系统)
  • Kubernetes 部署:通过 Llama Stack Operator 使用 LlamaStackDistribution 自定义资源进行部署

带工具的 AI 智能体

  • 智能体创建:使用模型、指令和工具列表创建智能体
  • 客户端工具:使用 @client_tool 装饰器定义工具;客户端执行工具调用并将结果返回服务器
  • 会话管理:创建会话并运行支持流式响应的多轮对话
  • 流式传输:支持智能体响应的流式传输,实现实时显示

配置与可扩展性

  • 堆栈配置:基于 YAML 的配置,涵盖 API、提供者、持久化(例如,kv_default、sql_default)和模型
  • 环境变量回退:配置中使用 ${env.VAR:~default} 实现灵活部署
  • 多种发行版:Starter、postgres-demo、meta-reference-gpu 等多种发行版选项

集成

  • Python 客户端:适用于 Python 3.12+ 的 llama-stack-client,提供完整的智能体和模型 API
  • REST 友好:服务器暴露推理、智能体和工具运行时的 API;可封装在 FastAPI 或其他 Web 框架中用于生产环境