quantization

GGUF 大模型文件格式及 LLM 模型量化类型介绍

GGUF(GPT-Generated Unified Format) 是一种二进制格式文件的规范，原始的大模型预训练结果经过转换后变成 GGUF 格式可以更快地被载入使用，并消耗更低的资源

2025-05-02 ai ai model GGUF GGML ONNX quantization
模型量化介绍

模型量化（Model Quantization）是一种通过降低神经网络模型中参数和激活值的数值精度（如从 32 位浮点数转换为 8 位整数），以减小模型体积、提升计算效率并降低功耗的技术。它是深度学习模型压缩和优化的核心方法之一，尤其适用于在资源受限的设备（如手机、嵌入式设备）上部署模型。

2025-02-01 ai ai model quantization

GGUF 大模型文件格式及 LLM 模型量化类型介绍