vGPU
-
HAMi-scheduler:异构 AI 计算虚拟化中间件
HAMi(前身为 k8s-vGPU-scheduler)是一个面向 Kubernetes 的异构设备管理中间件。它可以管理不同类型的异构设备(如 GPU、NPU、MLU、DCU 等),实现异构设备在 Pod 之间的共享,并基于设备拓扑和调度策略做出更优的调度决策。
2025-07-27 kubernetes k8sGPUhamivgpu -
AI LLM 模型显存在线计算工具
AI 模型显存占用计算 (Memory/VRAM Usage)主要分为
推理(Inference)和训练(Training)两种情况 -
LLM 模型显存占用计算公式
理解 LLM 的资源占用主要分为两个方面:1.
显存占用 (Memory Footprint):模型在运行时(推理或训练)需要占用多少内存(通常是 GPU 的 VRAM),这是决定需要多大显存的 GPU 的关键。2.计算量 (Computational Cost):模型进行一次完整的计算需要多少次浮点运算(FLOPs),这决定模型的运行速度。