简体中文

主要特性

目录

基于服务器的架构带工具的 AI 智能体配置与可扩展性集成

基于服务器的架构

集中式服务器：Llama Stack Server 托管推理、智能体、安全、工具运行时、向量 I/O 及文件
远程或内联提供者：支持远程 API（例如，兼容 OpenAI 的接口）和内联提供者（例如，meta-reference、sqlite-vec、本地文件系统）
Kubernetes 部署：通过 Llama Stack Operator 使用 LlamaStackDistribution 自定义资源进行部署

带工具的 AI 智能体

智能体创建：使用模型、指令和工具列表创建智能体
客户端工具：使用 @client_tool 装饰器定义工具；客户端执行工具调用并将结果返回服务器
会话管理：创建会话并运行支持流式响应的多轮对话
流式传输：支持智能体响应的流式传输，实现实时显示

配置与可扩展性

堆栈配置：基于 YAML 的配置，涵盖 API、提供者、持久化（例如，kv_default、sql_default）和模型
环境变量回退：配置中使用 ${env.VAR:~default} 实现灵活部署
多种发行版：Starter、postgres-demo、meta-reference-gpu 等多种发行版选项

集成

Python 客户端：适用于 Python 3.12+ 的 llama-stack-client，提供完整的智能体和模型 API
REST 友好：服务器暴露推理、智能体和工具运行时的 API；可封装在 FastAPI 或其他 Web 框架中用于生产环境