实验概述¶

🎬 你的任务，如果你选择接受的话

你的角色和任务¶

你是 ACME 公司的高级 AI 工程师，被分配评估和实施一个能够高效服务多个大型语言模型（LLM）的 AI 推理系统。

ACME 需要升级其客户支持基础设施，以应对不断增长的需求，同时保持响应质量。你的经理解释道：

"我们需要一个灵活的 AI 推理平台，能够服务多个模型，与外部工具集成，并满足我们的企业级需求。"

你的任务：评估 vLLM 作为 ACME AI 推理服务的基础，展示其模型服务、工具调用和智能体工作流的能力。

目标：证明 vLLM 可以提供高性能的 LLM 推理，具备结构化输出、工具调用和 MCP 集成等高级功能。

关于 vLLM Playground

在整个实验过程中，你将使用 vLLM Playground —— 一个让 vLLM 变得易于使用和可视化的现代 Web 界面。它处理容器管理、配置，并提供直观的聊天界面来探索 vLLM 的功能。

完成本实验后，你将获得实用的 AI 推理技能，以解决 ACME 的客户支持挑战：

技术成果：你将获得直接应用于 ACME AI 基础设施需求的 vLLM 实践经验。

业务收益：一个经过验证的 AI 推理平台，可实现具有企业级可靠性的智能客户支持。

本实验专为以下人员设计：

你应该具备：

情况：ACME 公司需要构建一个 AI 驱动的客户支持系统，能够高效处理各种客户咨询。

项目时间线：评估 vLLM 并展示其满足 ACME 企业级 AI 需求的能力。

挑战	影响
AI 响应不一致	不同模型产生不同的输出格式 → 与现有系统集成困难
工具集成有限	当前 AI 解决方案无法执行操作或访问外部数据 → 降低自动化潜力
手动模型管理	部署和更新模型需要大量工作 → 减慢迭代周期
可扩展性问题	不确定当前方法是否能处理生产流量 → 客户体验风险

机会：vLLM 提供了一个统一的模型服务平台，具有可以解决这些挑战的高级功能，你被选中来评估其对 ACME 用例的可行性。

如果 vLLM 证明对 ACME 的用例有效，以下是潜在的改进：

成功指标：一个可演示的 AI 推理平台，能够服务多个模型，具有工具调用、结构化输出和智能体能力，适合 ACME 的客户支持需求。

我们可以针对不同用例使用不同的模型吗？

是的！vLLM 支持各种模型，包括 Llama、Mistral 和 Qwen，并提供模型特定的优化。

如何控制 AI 输出以适应我们的系统？

模块 2 介绍了使用 JSON Schema、Regex 和 Grammar 来约束响应的结构化输出。

工具调用如何在客户支持场景中工作？

模块 3 演示了定义自定义工具，AI 可以调用这些工具来检索客户数据或执行支持操作。

我们可以扩展 AI 以访问我们的内部系统吗？

模块 4 展示了 MCP 集成，用于将 AI 连接到外部工具，并提供人工审批。

我们如何验证系统能够处理生产工作负载？

模块 5 介绍了使用 GuideLLM 进行性能基准测试，以测量吞吐量、延迟和优化服务器配置。

准备好开始了吗？ 继续访问开始之前查看模块分解和时间安排。