quantization
-
GGUF 大模型文件格式及 LLM 模型量化类型介绍
GGUF(GPT-Generated Unified Format)是一种二进制格式文件的规范,原始的大模型预训练结果经过转换后变成 GGUF 格式可以更快地被载入使用,并消耗更低的资源 -
模型量化介绍
模型量化(
Model Quantization)是一种通过降低神经网络模型中参数和激活值的数值精度(如从 32 位浮点数转换为 8 位整数),以减小模型体积、提升计算效率并降低功耗的技术。它是深度学习模型压缩和优化的核心方法之一,尤其适用于在资源受限的设备(如手机、嵌入式设备)上部署模型。2025-02-01 ai aimodelquantization