主要特性

基于 Server 的架构

  • 集中式 Server:Llama Stack Server 承载推理、智能体、安全、工具运行时、向量 I/O 和文件
  • 远程或内联 Provider:支持远程 API(例如,OpenAI-compatible)和内联 provider(例如,meta-reference、sqlite-vec、localfs)
  • Kubernetes 部署:通过 Llama Stack Operator 使用 LlamaStackDistribution 自定义资源进行部署

带工具的 AI 智能体

  • 智能体创建:使用模型、指令和工具列表创建智能体
  • 客户端工具:使用 @client_tool 装饰器定义工具;客户端执行工具调用并将结果返回给 server
  • 会话管理:创建会话并以流式响应运行多轮对话
  • 流式传输:支持智能体响应流式输出,以便实时显示

配置和可扩展性

  • Stack 配置:基于 YAML 的配置,用于 API、provider、持久化(例如,kv_default、sql_default)和模型
  • 环境回退:在配置中使用 ${env.VAR:~default} 以实现灵活部署
  • 多种 Distribution:Starter、postgres-demo、meta-reference-gpu 以及其他 distribution 选项

集成

  • Python Client:适用于 Python 3.12+ 的 llama-stack-client,提供完整的智能体和模型 API
  • 向量存储 API:从客户端创建和查询向量存储,包括基于 PGVector 的存储(provider_id="pgvector")以及基于 Milvus 的存储(provider_id="milvus-remote"
  • 适合 REST 的设计:Server 暴露用于推理、智能体和工具运行时的 API;在生产环境中可封装到 FastAPI 或其他 Web 框架中使用