Ai之大模型进阶模型微调-Unsloth微调-实战5.2

发布时间:2025-03-20 10:42:40编辑:123阅读(319)

    在之前的文章中学习了如何使用 Ollama 运行 Ollama 平台上的开源模型,其实 Ollama 也是可以支持直接从 Hugging Face 上拉取并运行模型了,所以可以把刚刚训练好的模型上传到 Hugging Face 上。

    GGUF 是一种高效的格式,它支持多种量化方法(如 4 位、8 位、16 位量化),可以显著减小模型文件的大小,便于存储和传输,适合在资源受限的设备上运行模型,例如在 Ollama 上部署时。量化后的模型在资源受限的设备上运行更快,适合边缘设备或低功耗场景。

    将微调后的模型保存为 GGUF 格式,将微调后的模型上传到huggingface。

    登录huggingface,可以到 HuggingFace 的 Settings - Access Tokens 下创建一个自己的 Token。

    image.png

    注意一定要配置位写权限,不然后面没有权限创建仓库。

    image.png

    创建好后,复制token就好了

    image.png

    代码如下:

    # 将模型保存为8位量化格式(Q8_0)
     # 8 位量化这种格式小且运行快,适合部署到资源受限的设备
     if True:model.save_pretrained_gguf("model", tokenizer)
     
     # 将模型保存为16位量化格式(f16)
     # 16 位量化精度更高,但文件稍大
     if False:model.save_pretrained_gguf("model", tokenizer, quantization_method = "f16")
     
     # 将模型保存为4位量化格式(q4_k_m)
     # 4 位量化文件最小,但精度可能稍低
     if False:model.save_pretrained_gguf("model", tokenizer, quantization_method = "q4_k_m")
     
     
     # 用于创建一个新的模型仓库
     from huggingface_hub import create_repo
     model_name = 'SamTaoQaq/suanming'
     huggingface_hub_token = 'hf_zslflzYDYnUSZGXSKbmDFQSemAXLFPxxxx'
     # 在hugging face hub上创建一个新的模型仓库
     create_repo(model_name, token=huggingface_hub_token, exist_ok=True)
     # 将模型和分词器上传到hugging face hub上的仓库
     model.push_to_hub_gguf(model_name, tokenizer,token=huggingface_hub_token)

    结果如下:

    image.png

    复制地址:https://huggingface.co/SamTaoQaq/suanming

    去Hugging Face上查看一下:

    image.png


    使用Ollama运行HuggingFace模型

    ollama支持直接从Huggingface拉去模型,格式如下:

    ollama run hf.co/SamTaoQaq/suanming

    如下:

关键字