发布时间:2025-03-20 10:42:40编辑:123阅读(319)
在之前的文章中学习了如何使用 Ollama 运行 Ollama 平台上的开源模型,其实 Ollama 也是可以支持直接从 Hugging Face 上拉取并运行模型了,所以可以把刚刚训练好的模型上传到 Hugging Face 上。
GGUF 是一种高效的格式,它支持多种量化方法(如 4 位、8 位、16 位量化),可以显著减小模型文件的大小,便于存储和传输,适合在资源受限的设备上运行模型,例如在 Ollama 上部署时。量化后的模型在资源受限的设备上运行更快,适合边缘设备或低功耗场景。
将微调后的模型保存为 GGUF 格式,将微调后的模型上传到huggingface。
登录huggingface,可以到 HuggingFace 的 Settings - Access Tokens 下创建一个自己的 Token。
注意一定要配置位写权限,不然后面没有权限创建仓库。
创建好后,复制token就好了
代码如下:
# 将模型保存为8位量化格式(Q8_0) # 8 位量化这种格式小且运行快,适合部署到资源受限的设备 if True:model.save_pretrained_gguf("model", tokenizer) # 将模型保存为16位量化格式(f16) # 16 位量化精度更高,但文件稍大 if False:model.save_pretrained_gguf("model", tokenizer, quantization_method = "f16") # 将模型保存为4位量化格式(q4_k_m) # 4 位量化文件最小,但精度可能稍低 if False:model.save_pretrained_gguf("model", tokenizer, quantization_method = "q4_k_m") # 用于创建一个新的模型仓库 from huggingface_hub import create_repo model_name = 'SamTaoQaq/suanming' huggingface_hub_token = 'hf_zslflzYDYnUSZGXSKbmDFQSemAXLFPxxxx' # 在hugging face hub上创建一个新的模型仓库 create_repo(model_name, token=huggingface_hub_token, exist_ok=True) # 将模型和分词器上传到hugging face hub上的仓库 model.push_to_hub_gguf(model_name, tokenizer,token=huggingface_hub_token)
结果如下:
复制地址:https://huggingface.co/SamTaoQaq/suanming
去Hugging Face上查看一下:
使用Ollama运行HuggingFace模型
ollama支持直接从Huggingface拉去模型,格式如下:
ollama run hf.co/SamTaoQaq/suanming
如下:
上一篇: Ai之大模型进阶模型微调-Unsloth微调-实战5.1
下一篇: OCR使用深度学习识别图形验证码
48407
47274
38153
35414
29877
26572
25553
20499
20184
18624
32°
124°
275°
277°
249°
342°
319°
679°
413°
440°