简体中文

主要特性

目录

基于 Server 的架构带工具的 AI 智能体配置和可扩展性集成

基于 Server 的架构

集中式 Server：Llama Stack Server 承载推理、智能体、安全、工具运行时、向量 I/O 和文件
远程或内联 Provider：支持远程 API（例如，OpenAI-compatible）和内联 provider（例如，meta-reference、sqlite-vec、localfs）
Kubernetes 部署：通过 Llama Stack Operator 使用 LlamaStackDistribution 自定义资源进行部署

带工具的 AI 智能体

智能体创建：使用模型、指令和工具列表创建智能体
客户端工具：使用 @client_tool 装饰器定义工具；客户端执行工具调用并将结果返回给 server
会话管理：创建会话并以流式响应运行多轮对话
流式传输：支持智能体响应流式输出，以便实时显示

配置和可扩展性

Stack 配置：基于 YAML 的配置，用于 API、provider、持久化（例如，kv_default、sql_default）和模型
环境回退：在配置中使用 ${env.VAR:~default} 以实现灵活部署
多种 Distribution：Starter、postgres-demo、meta-reference-gpu 以及其他 distribution 选项

集成

Python Client：适用于 Python 3.12+ 的 llama-stack-client，提供完整的智能体和模型 API
向量存储 API：从客户端创建和查询向量存储，包括基于 PGVector 的存储（provider_id="pgvector"）以及基于 Milvus 的存储（provider_id="milvus-remote"）
适合 REST 的设计：Server 暴露用于推理、智能体和工具运行时的 API；在生产环境中可封装到 FastAPI 或其他 Web 框架中使用