vGPU

HAMi-scheduler：异构 AI 计算虚拟化中间件

HAMi（前身为 k8s-vGPU-scheduler）是一个面向 Kubernetes 的异构设备管理中间件。它可以管理不同类型的异构设备（如 GPU、NPU、MLU、DCU 等），实现异构设备在 Pod 之间的共享，并基于设备拓扑和调度策略做出更优的调度决策。

2025-07-27 kubernetes k8s GPU hami vgpu
AI LLM 模型显存在线计算工具

AI 模型显存占用计算 (Memory/VRAM Usage)主要分为推理（Inference）和训练（Training）两种情况
2025-07-13 ai ai model memory llm vGPU inference+2
LLM 模型显存占用计算公式

理解 LLM 的资源占用主要分为两个方面：1. 显存占用 (Memory Footprint)：模型在运行时（推理或训练）需要占用多少内存（通常是 GPU 的 VRAM），这是决定需要多大显存的 GPU 的关键。2. 计算量 (Computational Cost)：模型进行一次完整的计算需要多少次浮点运算（FLOPs），这决定模型的运行速度。

2025-07-13 ai ai model memory llm vGPU inference+2

HAMi-scheduler：异构 AI 计算虚拟化中间件