vLLM 介绍与使用-谢先斌的博客

vLLM 是一个用于大型语言模型 (LLM) 推理加速的开源库，它以其卓越的性能和易用性而闻名。vLLM 的核心优势在于其创新的PagedAttention算法，该算法有效解决了传统注意力机制在处理长序列时内存碎片化的问题，从而显著提高了吞吐量和降低了延迟。

介绍

vLLM 的主要特点包括：

高吞吐量和低延迟： 归功于 PagedAttention 算法，vLLM 能够高效地管理注意力键值 (KV) 缓存，从而实现业界领先的推理性能。
高效的内存利用率： PagedAttention 借鉴了操作系统中的分页思想，使得 KV 缓存的内存分配更加灵活和高效，避免了内存浪费。
易于使用： vLLM 提供了简单直观的 API，用户可以轻松地集成到现有项目中。
广泛的模型支持： vLLM 支持 Hugging Face Transformers 库中的绝大多数流行模型。
分布式推理： 支持在多个 GPU 上进行模型推理，进一步提升性能。
流式输出： 能够像 ChatGPT 一样实时生成和返回文本。

当前不支持 CPU（vLLM primarily focuses on GPU acceleration, native and optimized CPU support for vLLM is not its core offering）

PagedAttention

随着大型语言模型（LLM）的不断发展，它们在处理长序列输入时面临着巨大的内存挑战。传统的注意力机制需要存储所有键（Key）和值（Value）向量，这被称为KV Cache。当序列长度增加时，KV Cache 会迅速占用大量显存，成为 LLM 推理效率的瓶颈。PagedAttention 正是为了解决这个问题而诞生的。

什么是 PagedAttention？

PagedAttention 是 vLLM（一个高效的 LLM 推理和服务引擎）中引入的一项创新技术，它借鉴了操作系统中虚拟内存和分页的思想来管理 KV Cache。

在传统的注意力机制中，KV Cache 是连续存储的，这意味着即使序列中途有填充（padding）或分批处理（batching）导致的空间浪费，这部分内存也无法被其他序列利用。PagedAttention 打破了这种限制，它将 KV Cache 分割成固定大小的块（blocks），这些块可以不连续地存储在内存中。

PagedAttention 的核心原理

PagedAttention 的核心原理可以概括为以下几点：

KV Cache 分块： PagedAttention 将每个序列的 KV Cache 划分为多个固定大小的块。每个块包含特定数量的令牌（tokens）的键和值向量。
块表（Block Table）： 对于每个序列，PagedAttention 维护一个逻辑块表。这个块表记录了该序列的逻辑块与实际存储在显存中的物理块之间的映射关系。
按需分配： 只有当模型处理到新的令牌时，才会在显存中按需分配新的物理块来存储对应的 KV Cache。
共享和复用： PagedAttention 允许不同序列共享相同的物理块。当多个序列拥有共同的前缀时（例如，在批处理推理或 Beam Search 中），它们可以共享这些前缀对应的 KV Cache 块，从而显著减少内存占用。
内存碎片优化： 通过将 KV Cache 分块并允许不连续存储，PagedAttention 有效地减少了内存碎片化，提高了显存利用率。

PagedAttention 的优势

PagedAttention 技术为 LLM 的推理带来了显著的优势：

显著提高显存利用率： 这是 PagedAttention 最主要的优势。通过避免 KV Cache 的内存碎片和实现块共享，它大大减少了显存的占用，使得在相同硬件条件下可以处理更长的序列或更大的批次。
支持更长的上下文窗口： 由于显存利用率的提高，LLM 可以处理更长的输入序列，从而更好地理解和生成长篇文本。
提高吞吐量： 更高的显存利用率意味着可以并行处理更多的请求，从而显著提高 LLM 服务的吞吐量。
动态批处理（Dynamic Batching）： PagedAttention 与动态批处理相结合，可以更有效地管理请求，进一步优化资源分配。
支持高效的 Beam Search： 在 Beam Search 中，不同的候选序列可能共享相同的前缀。PagedAttention 允许这些共享前缀的 KV Cache 块被高效地复用，极大地提高了 Beam Search 的效率。

总之，PagedAttention 技术通过引入类似操作系统虚拟内存管理的方式，彻底改变了 LLM KV Cache 的管理方式。它有效地解决了 LLM 在处理长序列时面临的内存瓶颈，显著提高了显存利用率、吞吐量，并使得 LLM 能够处理更长的上下文。这项技术是 vLLM 之所以能够提供高性能 LLM 推理服务的关键之一，也为未来 LLM 的进一步发展奠定了基础。

Continuous Batching (连续批处理)

LLM 连续批处理（Continuous Batching），也称为动态批处理（Dynamic Batching），是一种旨在显著提高大型语言模型（LLM）推理吞吐量和效率的关键技术。传统上，LLM 推理采用静态批处理，即在每个推理步骤中将固定数量的请求打包在一起。然而，这种方法在处理可变长度的序列和请求到达不规律的情况下效率低下。

为什么需要连续批处理？

在理解连续批处理之前，我们需要了解传统批处理的局限性：

填充（Padding）浪费： 传统批处理通常需要将较短的序列填充（pad）到批次中最长序列的长度，以确保所有序列的计算量一致。这导致了大量的计算资源浪费，因为填充的部分并不包含有效信息。
低 GPU 利用率： 当请求到达不规律或序列长度差异大时，静态批处理可能导致批次未完全填充，从而降低 GPU 利用率。
高延迟： 对于需要快速响应的实时应用，等待积累足够的请求来填充一个批次会引入额外的延迟。

连续批处理的工作原理

连续批处理的核心思想是动态地管理和调度 GPU 上的请求，以最大化其利用率并减少不必要的等待和填充。它通常结合了以下几种关键机制：

请求队列和动态批次构建：
- 所有传入的请求都会被放入一个等待队列。
- 调度器会根据 GPU 的当前负载、可用内存以及序列长度等因素，动态地从队列中选择请求来构建批次。这意味着批次的大小不再是固定的，而是根据实际情况调整。
- 与传统批处理不同，连续批处理不会等待整个批次完成推理才开始下一个批次。相反，一旦一个请求的推理完成，它就会被从批次中移除，并立即为新的请求腾出空间。
注意力键值（KV）缓存共享：
- LLM 在生成每个 token 时都会计算注意力机制中的键（Key）和值（Value）。这些 KV 张量通常会被缓存，以便在生成后续 token 时重用，避免重复计算。
- 连续批处理利用了 KV 缓存的共享机制。当多个请求在 GPU 上并行处理时，它们的 KV 缓存可以被有效地管理和复用，减少内存占用并提高计算效率。
- 即使请求的长度不同，每个请求的 KV 缓存也会独立存储，只占用实际需要的内存空间。
预测性调度和并行化：
- 通过预测每个请求的生成长度（或最大生成长度），调度器可以更智能地分配 GPU 资源。
- 不同的请求可以并行地在 GPU 上运行，即使它们处于生成过程的不同阶段。例如，一个请求可能正在生成第 5 个 token，而另一个请求可能正在生成第 50 个 token。

连续批处理的优势

显著提高吞吐量： 这是连续批处理最主要的优势。通过减少填充和提高 GPU 利用率，它可以处理更多的并发请求。
降低平均延迟： 请求不再需要等待完整的批次，一旦进入就可能被处理，从而缩短了平均等待时间。
提高 GPU 利用率： 减少了 GPU 的空闲时间，确保计算资源得到更充分的利用。
更好的内存管理： 通过动态管理 KV 缓存，连续批处理可以更有效地利用 GPU 内存，从而允许更大的模型或更多的并发请求。
处理可变长度序列更高效： 避免了对短序列进行不必要的填充，从而节省了计算资源。

常见实现的框架

目前，一些流行的 LLM 推理框架已经内置或正在积极开发对连续批处理的支持，例如：

vLLM： 一个专门为 LLM 离线和在线推理优化的库，其核心特性就是高效的连续批处理（PagedAttention）。
TensorRT-LLM： 英伟达的 LLM 优化库，也支持动态批处理和 KV 缓存优化。
DeepSpeed-Mii： 微软 DeepSpeed 团队的推理优化库，也提供了相关的批处理优化功能。

vLLM 支持的模型格式

vLLM 主要支持 Hugging Face Transformers 格式的模型。这意味着只要是 Hugging Face Hub 上可用的模型，并且能够通过 Transformers 库加载，vLLM 通常都能够对其进行加速推理。

具体来说，这包括但不限于以下类型的模型：

因果语言模型 (Causal Language Models)： 如 Llama、GPT 系列 (GPT-2, GPT-NeoX)、Mistral、Gemma、Falcon 等，这些模型通常用于文本生成、问答、摘要等任务。
编码器-解码器模型 (Encoder-Decoder Models)： 虽然 vLLM 主要优化的是解码器模型的推理，但一些编码器-解码器模型的解码部分也可以受益。
多模态模型： 一些基于 Transformer 架构的多模态模型（如某些视觉语言模型）的文本生成部分也可以通过 vLLM 进行加速。

重要提示： vLLM 不支持 ONNX、TensorRT 等特定推理引擎的优化格式，它直接加载 Hugging Face 的模型权重和配置文件。当您准备使用 vLLM 时，请确保您的模型是通过 transformers 库的 AutoModelForCausalLM.from_pretrained() 等方法加载的标准 Hugging Face 格式。

安装

要运行 vLLM，首先需要安装它

pip install vllm

接下来，我们以一个简单的文本生成任务为例，展示 vLLM 的基本用法。

启动参数

vLLM 的启动参数可以大致分为三类：

模型与硬件配置 (Engine Arguments)：这是最核心的参数，决定了模型如何加载、使用何种数据类型、以及如何利用硬件资源（如多 GPU）。
API 服务器配置 (API Server Arguments)：当您使用 vllm.entrypoints.api_server 启动一个兼容 OpenAI API 的服务时，这些参数用来配置网络、端口、安全等。
推理请求参数 (SamplingParams)：这类参数不用于启动服务，而是在每次发送推理请求时附带，用于控制生成文本的策略（如温度、Top-p 等）。虽然不是启动参数，但在“在线推理”这个场景下至关重要，因此一并介绍。

一、模型与硬件配置 (Engine Arguments)

这些参数是 vLLM 性能和功能的基础，无论你是通过命令行启动还是在 Python 代码中初始化 LLM 或 AsyncLLMEngine，都会用到它们。以下是命令行中最常见的形式。

1. 核心模型加载

--model <model_name_or_path>
- 作用：指定要加载的模型。这可以说是最重要的参数。
- 值：可以是 Hugging Face Hub 上的模型名称（例如 meta-llama/Llama-2-7b-chat-hf），也可以是本地存放模型文件的路径。
- 示例：--model /path/to/my/model
--tokenizer <tokenizer_name_or_path>
- 作用：指定分词器。通常情况下，vLLM 可以自动从模型路径中找到对应的分词器，但如果分词器在别的位置，就需要手动指定。
- 示例：--tokenizer /path/to/my/tokenizer
--revision <branch_or_commit_hash>
- 作用：当从 Hugging Face Hub 加载模型时，可以指定某个特定的分支、标签或 commit 哈希。
- 示例：--revision fp16
--trust-remote-code
- 作用：一个重要的安全开关。如果模型仓库中包含自定义的 Python 代码（例如一些特殊的模型结构），必须开启此选项才能加载。
- 注意：请只在信任模型来源时开启此项。

2. 并行与性能
- --tensor-parallel-size <N>
  - 作用：设置张量并行的大小，也就是将模型的权重和计算分散到 N 个 GPU 上。这是多 GPU 推理最常用的方式。
  - 值：N 通常设置为你希望用于单个模型推理的 GPU 数量。例如，在一台有 4 张 GPU 的机器上，可以设置为 4。
  - 示例：--tensor-parallel-size 4
- --pipeline-parallel-size <N>
  - 作用：设置流水线并行的大小。当模型非常大，单个 GPU 无法容纳一个完整的层时，可以将模型的不同层分布在 N 个 GPU 上。通常与张量并行结合使用。对于大多数常见尺寸的模型，张量并行更常用。
- --gpu-memory-utilization <0.0-1.0>
  - 作用：设置 vLLM 可以使用的每张 GPU 的显存比例。vLLM 会根据这个比例来管理其核心的 KV Cache 内存池。
  - 值：默认为 0.9 (90%)。如果你的 GPU 上还运行了其他服务，可以适当调低此值。
  - 示例：--gpu-memory-utilization 0.85
- --max-num-batched-tokens <N>
  - 作用：限制 vLLM 在一个迭代批次中处理的最大 Token 数量。这是控制吞吐量和延迟的关键参数。vLLM 的 PagedAttention 机制会根据这个值动态地组合请求。
  - 注意：如果不设置，vLLM 会根据模型和硬件自动推断一个合理的值。
- --max-num-seqs <N>
  - 作用：限制引擎能同时处理的最大序列（请求）数量。
  - 示例：--max-num-seqs 256
3. 数据类型与量化
- --dtype <data_type>
  - 作用：设置模型加载时使用的数据类型，直接影响显存占用和计算速度。
  - 值：
    - auto：vLLM 会自动从模型配置中选择最佳类型。
    - half 或 float16：16 位浮点数，速度快，显存占用中等。
    - bfloat16：16 位浮点数，动态范围更广，适合训练和推理，需要较新的硬件（如 Ampere 架构 GPU）。
    - float32：32 位浮点数，精度最高，但速度慢，显存占用大，通常仅用于调试。
  - 示例：--dtype bfloat16
- --quantization <method>
  - 作用：加载量化模型以大幅减少显存占用。
  - 值：
    - awq：支持 AWQ (Activation-aware Weight Quantization) 量化模型。
    - gptq：支持 GPTQ 量化模型。
    - squeezellm: 支持 SqueezeLLM 量化模型。
  - 示例：--quantization awq
4. 模型行为
- --max-model-len <N>
  - 作用：设置模型能处理的最大序列长度（上下文长度）。
  - 注意：这个值不能超过模型本身支持的最大长度（例如 Llama 2 是 4096）。如果不设置，vLLM 会从模型配置中读取。设置一个更小的值可以节省显存。
  - 示例：--max-model-len 2048
- --enforce-eager
  - 作用：强制 vLLM 在 Eager 模式下运行，而不是使用 CUDA Graph。这会降低性能，但对于调试底层错误非常有用。
二、 API 服务器配置 (API Server Arguments)

当你使用 python -m vllm.entrypoints.api_server 启动服务时，除了上述引擎参数，还可以配置服务器本身。

--host <ip_address>
- 作用：指定服务器绑定的 IP 地址。
- 值：默认为 localhost。如果要让其他机器访问，应设置为 0.0.0.0。
- 示例：--host 0.0.0.0
--port <port_number>
- 作用：指定服务器监听的端口号。
- 值：默认为 8000。
- 示例：--port 6006
--served-model-name <name>
- 作用：在 API 中为模型指定一个名称。当同时提供多个模型服务时（通过 Multi-LoRA 等方式），这个参数很有用。
- 示例：--served-model-name llama2-7b-chat
--lora-modules <lora_path1> <lora_path2> ...
- 作用：在启动时加载一个或多个 LoRA 适配器。这使得你可以在同一个基础模型上提供多个微调版本的服务。
- 示例：--lora-modules lora_path_a lora_path_b
--api-key <your_api_key>
- 作用：为 API 端点设置一个简单的密码，请求时需要在 HTTP Header 中提供 Authorization: Bearer <your_api_key>。
- 示例：--api-key sk-my-secret-key

三、推理请求参数 (SamplingParams)

这些参数在每次调用 API 时在请求体 (request body) 中指定，用来精细控制单次文本生成的过程。

prompt: (string) 输入的提示词。
n: (integer) 为每个提示词生成的独立完成序列的数量。
temperature: (float) 温度参数，控制生成文本的随机性。值越高（如 1.0）随机性越强，值越低（如 0.1）则越确定。0 表示贪心搜索。
top_p: (float) 核采样（Nucleus Sampling）参数。模型会从累积概率超过 top_p 的最小词汇集合中进行采样。通常设置为 0.9 左右。与 temperature 一样，是控制多样性的核心参数。
top_k: (float) Top-K 采样参数。模型仅从概率最高的 k 个词中进行采样。设置为 -1 表示不使用。
max_tokens: (integer) 生成文本的最大长度（不包含提示词）。
stop: (string or list of strings) 停止符。当模型生成了列表中的任意一个字符串时，就会停止生成。
presence_penalty: (float) 存在惩罚。对已经出现在文本中的 token 施加惩罚，降低其再次出现的概率，鼓励模型谈论新话题。
frequency_penalty: (float) 频率惩罚。与 presence_penalty 类似，但惩罚力度与 token 出现的频率成正比，更有效地抑制高频词的重复。
logprobs: (integer) 返回每个生成 token 的对数概率。

docker

参考
- 官方 vllm-openai 镜像

# Launching OpenAI server
docker run --rm \
            --privileged=true \
            --shm-size=4g \
            -p 8000:8000 \
            -e VLLM_CPU_KVCACHE_SPACE=<KV cache space> \
            -e VLLM_CPU_OMP_THREADS_BIND=<CPU cores for inference> \
            vllm/vllm-openai:v0.9.2 \
            --model=meta-llama/Llama-3.2-1B-Instruct \
            --dtype=bfloat16 \
            other vLLM OpenAI server arguments

Kubernetes

Prometheus and Grafana

Prometheus and Grafana 监控配置参考
vllm metrics 指标参考

启动服务

支持从 huggingface 或 ModelScope 下载模型，参考

# Download a model
huggingface-cli download HuggingFaceH4/zephyr-7b-beta

启动 vllm 服务：OpenAI-Compatible Server

# 使用 MODELSCOPE 下载模型
export VLLM_USE_MODELSCOPE=true
# 日志
export VLLM_LOGGING_LEVEL=DEBUG

# 启动跨节点服务（2节点，每节点4 GPU）
# 服务监听在 http://localhost:8000/v1/chat/completions
# swagger docs http://localhost:8000/docs
vllm serve /path/to/model \
  - --gpu-memory-utilization 0.9 \
  --pipeline-parallel-size 2 \
  --tensor-parallel-size 4 \
  --max-model-len 16384 \
  --trust-remote-code \
  --chat_template <path-of-chat-template> \
  --dtype auto \
  --api-key token-abc123 \
  --port 8000 # 默认监听端口

# 或
# 代码在 https://github.com/vllm-project/vllm/blob/v0.9.2/vllm/entrypoints/api_server.py#L148
python -m vllm.entrypoints.openai.api_server \
  --model /path/to/model
python -m vllm.entrypoints.openai.api_server \
  --model /path/to/model \
  --port 8000 \
  --host 0.0.0.0

参数说明（详细的参数参考或参考）：

使用 Server Arguments 启动服务 vllm serve --config config.yaml
--model 参数指定模型路径或名称。
--backend 推理后端，可以是 vllm、hf 和 mii。分布对应 vLLM、HuggingFace 和 Mii 推理后端。
--input-len 输入长度
--output-len 输出长度
--num-prompts 生成的 prompt 数量
--seed 随机种子
--dtype 数据类型
--max-model-len 模型最大长度
--hf_max_batch_size transformers 库的最大批处理大小（仅仅对于 hf 推理后端有效且为必填字段）
--dataset 数据集路径。（如未设置会自动生成数据）
--gpu-memory-utilization 设置 vLLM 可以使用的每张 GPU 的显存比例。vLLM 会根据这个比例来管理其核心的 KV Cache 内存池。
- 默认为 0.9 (90%)。如果你的 GPU 上还运行了其他服务，可以适当调低此值。
--enable-expert-parallel 在 vLLM 中运行混合专家模型 (Mixture of Experts, MoE)
其他
- vllm 默认使用 GPU，对 CPU 支持不好，安装 VLLM_TARGET_DEVICE=cpu python setup.py install，使用时使用环境变量指定：os.environ['VLLM_TARGET_DEVICE'] = 'cpu'，可参考
- 也支持 GGUF 格式模型，不推荐，参考、write gguf model template?
- 环境变量 NCCL_SOCKET_IFNAME 指定高速网卡，减少跨节点延迟（如 InfiniBand）
- Multi-Node-Serving
  - 使用Ray Runtime：构建分布式应用工具实现多节点通信，参考
  - https://github.com/vllm-project/vllm/blob/main/examples/online_serving/run_cluster.sh

分布式

# 主节点
ray start --head --port=6379 --redis-password='password'
# 从节点
ray start --address='<主节点IP>:6379' --redis-password='password'

# 启动多节点脚本（distributed_vllm.py）
import ray
from vllm import LLM, SamplingParams

# 初始化 Ray
ray.init(address="auto")

# 定义模型和采样参数
model_name = "meta-llama/Llama-2-7b-hf"
sampling_params = SamplingParams(temperature=0.7, top_p=0.95, max_tokens=100)

# 在每个节点上加载模型
@ray.remote(num_gpus=1)
class ModelWorker:
    def __init__(self, model_name):
        self.llm = LLM(model=model_name)

    def generate(self, prompts):
        return self.llm.generate(prompts, sampling_params)

# 启动多个 Worker
workers = [ModelWorker.remote(model_name) for _ in range(8)]  # 假设每个节点有 1 个 GPU

# 分发任务
prompts = ["Hello, how are you?", "What is the capital of France?"]
results = ray.get([workers[i % len(workers)].generate.remote([prompts[i]]) for i in range(len(prompts))])

# 打印结果
for result in results:
    print(result)

更多优化调整参考

源码相关

ChatCompletionResponse 是推理的结果，可以通过 response.extra_body = xxx 扩展返回值
config 相关代码
最大并发数计算细节，可以从启动日志中查看，示例如下：
- 代码实现参考 determine_num_available_blocks
- get_cache_block_size
- get_max_concurrency_for_kv_cache_config 中 max_concurrency = kv_cache_config.num_blocks / num_block_per_request
- Calculate the number of blocks that can be allocated with the profiled peak memory. 代码

INFO 14:27:18 [default_loader.py:262] Loading weights took 0.28 seconds
INFO 14:27:19 [model_runner.py:1207] Model loading took 1.1201 GiB and 1.267336 seconds
INFO 14:27:20 [worker.py:296] Memory profiling takes 1.41 seconds
INFO 14:27:20 [worker.py:296] the current vLLM instance can use total_gpu_memory (79.11GiB) x gpu_memory_utilization (0.90) = 71.20GiB
INFO 14:27:20 [worker.py:296] model weights take 1.12GiB; non_torch_memory takes 0.15GiB; PyTorch activation peak memory takes 1.41GiB; the rest of the memory reserved for KV Cache is 68.51GiB.
INFO 14:27:20 [executor_base.py:115] # cuda blocks: 40090, # CPU blocks: 2340
INFO 14:27:20 [executor_base.py:120] Maximum concurrency for 40960 tokens per request: 15.66x

总内存：79.11GiB
gpu_memory_utilization 指定的可用内存：79.11GiB x 0.90 = 71.20GiB
模型权重占：1.12GiB
non_torch_memory takes: 0.15GiB
PyTorch activation peak memory takes: 1.41GiB
the rest of the memory reserved for KV Cache is: 71.20-1.12-0.15-1.41 ~= 68.51GiB
40960 tokens per request 并发数：15.66x

计算过程详见下面：内存分析上下文管理器

内存分析上下文管理器

memory_profiling 内存分析上下文管理器 用于测量 vLLM 实例（一个用于高效部署大型语言模型的推理引擎）在不同阶段的内存使用情况。

baseline_snapshot：指在当前 vLLM 实例创建之前的内存快照。
weights_memory：指 PyTorch 加载模型权重时所使用的内存。需要注意的是，在加载模型权重之前，vLLM 还会初始化设备和分布式环境，这部分内存消耗不受 PyTorch 控制，因此不包含在 weights_memory 中。

下面代码来自：

    diff_profile = result.after_profile - result.before_profile
    diff_from_create = result.after_profile - result.before_create
    result.torch_peak_increase = diff_profile.torch_peak
    result.non_torch_increase = diff_from_create.non_torch_memory
    result.profile_time = diff_profile.timestamp
    result.non_kv_cache_memory = result.non_torch_increase + result.torch_peak_increase + result.weights_memory  # noqa

内存分类

在单个 GPU 中，内存可分为三类：

类别 1：当前 vLLM 实例之外的任何程序所使用的内存。
类别 2：当前 vLLM 实例中由 PyTorch 所使用的内存。
类别 3：当前 vLLM 实例中使用，但不是由 PyTorch 所使用的内存。

定量示例

为了更好地理解上述分类，我们来看一个具体的内存使用示例。

vLLM 实例创建前

在创建 vLLM 实例之前，GPU 的内存使用情况如下：

类别 1: 1 GiB
类别 2: 0 GiB
类别 3: 0 GiB

vLLM 实例创建后（加载模型后）

创建 vLLM 实例并加载模型后，但在进行内存分析之前，内存使用情况发生变化：

类别 1: 1 GiB (保持不变)
类别 2: 2 GiB (模型权重占用 2 GiB)
类别 3: 0.5 GiB (NCCL 等组件占用的内存)

分析期间（峰值）

在内存分析的峰值阶段，内存使用达到最高点：

类别 1: 1 GiB (保持不变)
类别 2: 4 GiB (其中峰值激活张量占用了 2 GiB)
类别 3: 1 GiB (NCCL 占用内存加上某些注意力后端所需的缓冲区)

分析之后

分析完成后，部分临时内存被回收：

类别 1: 1 GiB (保持不变)
类别 2: 3 GiB (在垃圾回收了激活张量之后)
类别 3: 1 GiB (NCCL 占用内存加上某些注意力后端所需的缓冲区)

内存计算

在这个示例中，非 KV 缓存（KV cache） 总共占用了 5 GiB 的内存，其中包括：

a. 2 GiB: 模型权重所使用的内存（类别 2）。这部分内存直接由 weights_memory 参数给出。
b. 2 GiB: 为峰值激活张量所预留的内存（类别 2）。这部分内存的增加量可以通过 torch.cuda.memory_stats()["allocated_bytes.all.peak"] 在分析期间的增量来获取。
c. 1 GiB: 非 PyTorch 组件所使用的内存（类别 3）。这部分内存的增加量可以通过 non_torch_memory 从 vLLM 实例创建到分析结束后的增量来获取。

示例

示例 1：基本文本生成

from vllm import LLM, SamplingParams

# 1. 初始化 LLM 模型
# 这里我们以 "meta-llama/Llama-2-7b-chat-hf" 为例，您可以替换为其他支持的模型
# 如果是本地模型，可以直接指定模型路径，例如：model="/path/to/your/model"
llm = LLM(model="meta-llama/Llama-2-7b-chat-hf")

# 2. 定义采样参数
# temperature: 控制生成文本的随机性，值越高越随机
# top_p: 控制核采样（nucleus sampling），只考虑概率累积和达到 top_p 的词
# max_tokens: 生成的最大 token 数量
sampling_params = SamplingParams(temperature=0.7, top_p=0.95, max_tokens=100)

# 3. 准备输入提示
prompts = [
    "Hello, my name is",
    "The capital of France is",
    "Tell me a short story about a dragon.",
]

# 4. 生成文本
outputs = llm.generate(prompts, sampling_params)

# 5. 打印结果
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

运行说明：

首次运行 LLM(model="...") 时，vLLM 会自动从 Hugging Face Hub 下载模型权重和配置文件。这可能需要一些时间，具体取决于您的网络速度和模型大小。
model 参数可以指定 Hugging Face Hub 上的模型名称，也可以是本地模型文件的路径。
SamplingParams 允许您微调文本生成行为。

示例 2：使用 GPU 数量和量化模型

vLLM 也支持在多个 GPU 上运行，并且可以加载量化模型以减少显存占用和提高推理速度（如果模型提供了量化版本）。

from vllm import LLM, SamplingParams

# 初始化 LLM 模型，指定使用2个GPU进行张量并行，并加载4比特量化模型（如果可用）
# device_map="auto" 也可以用于自动分配 GPU
llm = LLM(
    model="meta-llama/Llama-2-7b-chat-hf", # 替换为实际支持量化的模型或路径
    tensor_parallel_size=2,  # 使用2个GPU进行张量并行
    dtype="auto",            # 自动选择数据类型，或指定如 "bfloat16", "float16"
    quantization="awq"       # 如果模型支持 AWQ 量化，可以这样指定
)

sampling_params = SamplingParams(temperature=0.7, top_p=0.95, max_tokens=100)

prompts = [
    "Explain the concept of quantum entanglement.",
    "Write a poem about the beauty of nature.",
]

outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")