Llm | 谢先斌的博客

LMDeploy

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。

2025-10-08 ai ai model LLM

SGLang 部署大模型

SGLang 是一个用于大型语言模型（LLMs）和视觉语言模型（VLMs）的快速服务框架。

2025-10-05 ai ai model LLM sglang

AI LLM 模型显存在线计算工具

AI 模型显存占用计算 (Memory/VRAM Usage)主要分为推理（Inference）和训练（Training）两种情况

2025-07-13 ai ai model memory llm vGPU inference+2

LLM 模型显存占用计算公式

理解 LLM 的资源占用主要分为两个方面：1. 显存占用 (Memory Footprint)：模型在运行时（推理或训练）需要占用多少内存（通常是 GPU 的 VRAM），这是决定需要多大显存的 GPU 的关键。2. 计算量 (Computational Cost)：模型进行一次完整的计算需要多少次浮点运算（FLOPs），这决定模型的运行速度。

2025-07-13 ai ai model memory llm vGPU inference+2

vLLM 介绍与使用

vLLM 是一个用于大型语言模型 (LLM) 推理加速的开源库，它以其卓越的性能和易用性而闻名。vLLM 的核心优势在于其创新的PagedAttention算法，该算法有效解决了传统注意力机制在处理长序列时内存碎片化的问题，从而显著提高了吞吐量和降低了延迟。

2025-05-04 ai ai model LLM vLLM PagedAttention DynamicBatching+2

llama.cpp 介绍

使用 C/C++ 的 LLM 推理

2025-05-01 ai ai model llama llm

LLM 大模型介绍

大规模语言模型（Large Language Model，LLM） 是一种基于人工智能技术的模型，是由具有大量参数（通常数十亿个权重或更多）的人工神经网络组成的一类语言模型，使用自监督学习或半监督学习对大量未标记文本进行训练。大语言模型在 2018 年左右出现，并在各种任务中表现出色。

2025-01-31 ai ai LLM model