介绍

Llama Stack

Llama Stack 是一个用于构建和运行带有工具的 AI 智能体的框架。它提供了基于服务器的架构,使开发者能够创建能够与用户交互、访问外部工具并执行复杂推理任务的智能体。

主要组件和概念包括:

  • Llama Stack Server:托管模型、智能体和工具运行时的核心服务。可以通过 Llama Stack Operator 在 Kubernetes 上部署(参见 Install Llama Stack)。
  • Client SDK (llama-stack-client):用于连接服务器、创建智能体、使用 @client_tool 装饰器定义工具以及管理会话的 Python 客户端。
  • Agents:可配置的 AI 智能体,使用 LLM 模型并能够调用工具(例如天气 API、自定义 API)来回答用户查询。
  • Tools:向智能体暴露的函数(例如天气查询)。使用 @client_tool 定义,并在创建智能体时传入。
  • Configuration:YAML 堆栈配置定义了提供者(推理、智能体、安全、vector_io、文件)、持久化后端和模型注册(例如通过兼容 OpenAI API 的 DeepSeek)。

Llama Stack 支持多种 API 提供者、存储和持久化后端以及分发选项(例如 starter、postgres-demo、meta-reference-gpu),适合快速实验和生产部署。

文档

Llama Stack 提供官方文档和资源以供深入使用:

官方文档