实验概述¶
🎬 你的任务,如果你选择接受的话
你的角色和任务¶
你是 ACME 公司的高级 AI 工程师,被分配评估和实施一个能够高效服务多个大型语言模型(LLM)的 AI 推理系统。
ACME 需要升级其客户支持基础设施,以应对不断增长的需求,同时保持响应质量。你的经理解释道:
"我们需要一个灵活的 AI 推理平台,能够服务多个模型,与外部工具集成,并满足我们的企业级需求。"
你的任务:评估 vLLM 作为 ACME AI 推理服务的基础,展示其模型服务、工具调用和智能体工作流的能力。
目标:证明 vLLM 可以提供高性能的 LLM 推理,具备结构化输出、工具调用和 MCP 集成等高级功能。
关于 vLLM Playground
在整个实验过程中,你将使用 vLLM Playground —— 一个让 vLLM 变得易于使用和可视化的现代 Web 界面。它处理容器管理、配置,并提供直观的聊天界面来探索 vLLM 的功能。
任务成功标准¶
完成本实验后,你将获得实用的 AI 推理技能,以解决 ACME 的客户支持挑战:
| 技能 | 业务成果 |
|---|---|
| 使用 Podman 容器部署和管理 vLLM 服务器 | 建立可靠的模型服务基础设施 |
| 通过现代聊天界面与 LLM 交互 | 展示实时客户交互能力 |
| 配置结构化输出以获得一致的 AI 响应 | 确保下游系统获得可预测、可解析的数据 |
| 实现工具调用以实现动态功能 | 使 AI 能够执行操作和检索信息 |
| 设置 MCP 服务器以实现智能体能力 | 通过外部工具访问和人工审批扩展 AI |
| 运行性能基准测试以验证吞吐量 | 证明系统可以处理生产工作负载 |
技术成果:你将获得直接应用于 ACME AI 基础设施需求的 vLLM 实践经验。
业务收益:一个经过验证的 AI 推理平台,可实现具有企业级可靠性的智能客户支持。
目标受众¶
本实验专为以下人员设计:
- 🧑💻 AI 工程师 构建推理基础设施
- 👨💻 开发人员 将 LLM 集成到应用程序中
- 🏗️ 平台工程师 评估 AI 服务解决方案
- 📐 架构师 设计企业级 AI 系统
成功所需条件¶
你应该具备:
- ✅ 基本的 Linux 经验 — 你之前使用过终端
- ✅ 了解容器 — 你知道如何运行 Podman/Docker 容器
- ✅ 基本的 AI/ML 概念 — 你了解 LLM 和推理的含义
- ✅ 一台支持 GPU 的机器(或者对 CPU 模式有耐心)
ACME 公司的 AI 挑战¶
情况:ACME 公司需要构建一个 AI 驱动的客户支持系统,能够高效处理各种客户咨询。
项目时间线:评估 vLLM 并展示其满足 ACME 企业级 AI 需求的能力。
当前挑战¶
| 挑战 | 影响 |
|---|---|
| AI 响应不一致 | 不同模型产生不同的输出格式 → 与现有系统集成困难 |
| 工具集成有限 | 当前 AI 解决方案无法执行操作或访问外部数据 → 降低自动化潜力 |
| 手动模型管理 | 部署和更新模型需要大量工作 → 减慢迭代周期 |
| 可扩展性问题 | 不确定当前方法是否能处理生产流量 → 客户体验风险 |
机会:vLLM 提供了一个统一的模型服务平台,具有可以解决这些挑战的高级功能,你被选中来评估其对 ACME 用例的可行性。
你的成功愿景¶
如果 vLLM 证明对 ACME 的用例有效,以下是潜在的改进:
即时改进(短期)¶
- ⚡ 更快的模型部署:通过容器在几分钟内部署新模型 → 加速实验和迭代
- 📋 一致的 AI 输出:结构化输出确保可预测的响应格式 → 简化与下游系统的集成
战略收益(长期)¶
- 🤖 智能体能力:MCP 集成使 AI 能够使用外部工具 → 扩展自动化可能性
- 👤 人工审批:通过手动审批安全执行工具 → 保持对 AI 操作的控制
- 📊 性能可见性:内置基准测试验证吞吐量 → 自信的容量规划
成功指标:一个可演示的 AI 推理平台,能够服务多个模型,具有工具调用、结构化输出和智能体能力,适合 ACME 的客户支持需求。
常见问题¶
我们可以针对不同用例使用不同的模型吗?
是的!vLLM 支持各种模型,包括 Llama、Mistral 和 Qwen,并提供模型特定的优化。
如何控制 AI 输出以适应我们的系统?
模块 2 介绍了使用 JSON Schema、Regex 和 Grammar 来约束响应的结构化输出。
工具调用如何在客户支持场景中工作?
模块 3 演示了定义自定义工具,AI 可以调用这些工具来检索客户数据或执行支持操作。
我们可以扩展 AI 以访问我们的内部系统吗?
模块 4 展示了 MCP 集成,用于将 AI 连接到外部工具,并提供人工审批。
我们如何验证系统能够处理生产工作负载?
模块 5 介绍了使用 GuideLLM 进行性能基准测试,以测量吞吐量、延迟和优化服务器配置。
准备好开始了吗? 继续访问 开始之前 查看模块分解和时间安排。