llm
-
LMDeploy
LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发,是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。
-
SGLang 部署大模型
SGLang 是一个用于大型语言模型(LLMs)和视觉语言模型(VLMs)的快速服务框架。
-
AI LLM 模型显存在线计算工具
AI 模型显存占用计算 (Memory/VRAM Usage)主要分为
推理(Inference)和训练(Training)两种情况 -
LLM 模型显存占用计算公式
理解 LLM 的资源占用主要分为两个方面:1.
显存占用 (Memory Footprint):模型在运行时(推理或训练)需要占用多少内存(通常是 GPU 的 VRAM),这是决定需要多大显存的 GPU 的关键。2.计算量 (Computational Cost):模型进行一次完整的计算需要多少次浮点运算(FLOPs),这决定模型的运行速度。 -
vLLM 介绍与使用
vLLM 是一个用于大型语言模型 (LLM) 推理加速的开源库,它以其卓越的性能和易用性而闻名。vLLM 的核心优势在于其创新的PagedAttention算法,该算法有效解决了传统注意力机制在处理长序列时内存碎片化的问题,从而显著提高了吞吐量和降低了延迟。
2025-05-04 ai aimodelLLMvLLMPagedAttentionDynamicBatching+2 -
llama.cpp 介绍
使用 C/C++ 的 LLM 推理
-
LLM 大模型介绍
大规模语言模型(Large Language Model,LLM)是一种基于人工智能技术的模型,是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练。大语言模型在 2018 年左右出现,并在各种任务中表现出色。