功能简介
推理服务功能的核心定义是将训练好的机器学习或深度学习模型部署为可在线调用的服务,使用 HTTP API 或 gRPC 等协议,使应用能够实时或批量使用模型的预测、分类、生成等能力。该功能主要解决在模型训练完成后,如何高效、稳定、便捷地将模型部署到生产环境,并提供可扩展的在线服务。
优势
- 简化模型部署流程,降低部署复杂度。
- 提供高可用、高性能的在线和批量推理服务。
- 支持动态模型更新和版本管理。
- 实现推理服务的自动化运维和监控。
适用场景
- 实时推荐系统:基于用户行为对商品或内容进行实时推荐。
- 图像识别:对上传的图像进行分类、检测或识别。
- 自然语言处理:提供文本分类、情感分析和机器翻译等服务。
- 金融风控:实时评估用户信用风险或交易风险。
- 大语言模型服务:提供在线问答、文本生成等服务。
- 批量推理:对大量非实时数据进行推理,例如历史数据分析和报告生成。
带来的价值
- 加速模型部署,缩短应用开发周期。
- 提高模型推理效率,降低延迟。
- 降低运维成本,提升系统稳定性。
- 支持业务快速迭代和创新。
主要功能
推理服务的直接模型部署
- 允许用户直接从模型仓库中选择模型文件的特定版本,并指定推理运行时镜像,快速部署在线推理服务。系统会自动下载、缓存并加载模型,启动推理服务。这简化了模型部署流程,降低了部署门槛。
推理服务的自定义镜像部署
- 支持用户编写 Dockerfile,将模型及其依赖打包到自定义镜像中,然后通过标准的 Kubernetes Deployment 部署推理服务。该方式提供了更高的灵活性,允许用户根据自身需求自定义推理环境。
推理服务的批量操作
- 支持对多个推理服务进行批量操作,例如批量启动、停止、更新和删除。
- 支持创建、监控和结果导出的批量推理任务。
- 提供批量资源管理能力,可批量分配和调整推理服务的资源。
推理服务体验
- 提供交互式界面,便于用户测试和体验推理服务。
- 支持多种输入和输出格式,满足不同应用场景的需求。
- 提供模型性能评估工具,帮助用户优化模型部署。
推理运行时支持
- 集成多种主流推理框架,例如 vLLM、Seldon MLServer 等,并支持用户自定义推理运行时。
TIP
- vLLM:针对 DeepSeek/Qwen 等大语言模型(LLMs)进行了优化,具备高并发处理能力,并通过更优的资源利用率提升吞吐量。
- MLServer:面向传统 ML 模型(XGBoost/图像分类),提供多框架兼容性和更简化的调试体验。
访问方式、日志、Swagger、监控等
- 提供多种访问方式,例如 HTTP API 和 gRPC。
- 支持详细的日志记录和分析,便于用户排查问题。
- 自动生成 Swagger 文档,便于用户集成和调用推理服务。
- 提供实时监控和告警功能,确保服务稳定运行。
功能优势
性能优势:
- 支持 GPU 加速,提升模型推理速度。
- 支持批量推理,提高吞吐量。
- 优化推理运行时,降低延迟。
可扩展性:
- 基于 Kubernetes 构建,支持弹性扩缩容。
- 支持水平扩展,以应对高并发场景。
- 支持大模型分布式推理。
- 支持批量任务并行处理。
安全性:
- 提供身份认证和授权机制,保障服务安全。
- 支持网络隔离,防止数据泄露。
- 支持模型的安全部署和更新。
稳定性:
- 提供健康检查和自动重启机制,提升服务可用性。
- 支持日志监控和告警,及时发现并解决问题。
创建推理服务
Step 1
选择自定义发布
TIP
自定义发布推理服务需要手动设置参数。你也可以通过组合输入参数创建一个“模板”,以便快速发布推理服务。
Step 2
填写用于模型发布的推理服务详情
Step 3
点击 发布 按钮创建推理服务。
体验
Step 1
在 Inference API 服务列表中,点击任意 Running 服务的名称以查看其详细信息。
Step 2
点击 体验 以展开右侧图表。
Step 3
提问
-
系统角色
定义 AI 的目的、语气和操作边界(例如,“你是一个专注于医疗信息的有用助手”)。
-
参数
根据你的任务类型选择参数。详情请参考下面的参数说明。
不同任务类型的参数说明
文本生成
预设参数
其他参数
更多参数请参考 文本生成参数配置。
图像生成
预设参数
其他参数
更多参数请参考 图像生成参数配置。
文本分类
预设参数
更多参数请参考 文本分类参数配置