使用 C/C++ 的 LLM 推理
使用
git clone https://github.com/ggml-org/llama.cpp.git
python llama.cpp/[convert_hf_to_gguf.py|convert_hf_to_gguf_update.py|convert_llama_ggml_to_gguf.py|convert_lora_to_gguf.py] -h
python llama.cpp/convert_hf_to_gguf.py vicuna-hf \
--outfile vicuna-13b-v1.5.gguf \
--outtype q8_0