Ai之大模型-公开数据集-理论6.2

发布时间:2025-03-28 11:18:55编辑:123阅读(85)

    如何将领域文献转换为可供模型微调的数据集?

    想微调特定领域的DeepSeek,数据集究竟要怎么搞?

    了解一些获取公开数据集的途径和注意事项


    获取公开数据集

    很多情况下,如果你只是需要通过微调来提升模型某一方面的能力,在没有特殊的内部数据要求的情况下,是没必要自己去构造数据集的,因为目前互联网上存在着大量的公开且免费使用的数据集,下面就带大家来了解一下,常见的获取公开数据集的途径有哪些,以及对应的使用方法。


    HuggingFace(🪜)

    地址:https://huggingface.co/datasets

    HuggingFace 是一个专注于自然语言处理和机器学习的社区平台,提供了大量高质量的数据集和预训练模型,也是目前 AI 领域最活跃的社区型平台。其数据集涵盖多种语言和任务,如文本分类、情感分析、机器翻译等。

    专注NLP/语音/多模态领域数据集

    提供Python库直接加载(datasets库)

    支持数据集版本控制与增量更新

    附带数据预处理脚本和评估指标

    image.png

    HuggingFace 的 datasets 库也是一个非常方便的工具,可以轻松加载和处理数据集。

    from datasets import load_dataset
    
    # 加载GLUE基准数据集
    dataset = load_dataset("glue", "mrpc")


    Kaggle(🪜)

    地址:https://www.kaggle.com/datasets

    Kaggle 是一个数据科学平台,不仅提供大量的公开数据集,还举办各种数据科学竞赛。其数据集涵盖了计算机视觉、自然语言处理、数据可视化等多个领域。

    全球最大的数据科学社区驱动平台

    包含竞赛数据集、教程和工具

    支持在线内核(Kaggle Kernels)进行数据分析

    支持通过 API 批量下载

    在数据集详情页,直接提供了下载 zip 包的方式,也可以通过 Python:kaggle datasets download -d <dataset-name> 进行下载

    image.png


    Google DataSet Search(🪜)

    地址:https://datasetsearch.research.google.com/

    Google Dataset Search 是一个专门用于搜索数据集的搜索引擎,能够帮助用户找到互联网上公开的数据集。

    它支持跨多个存储库的搜索,包括 Kaggle、GitHub、HuggingFace 等。

    image.png


    awesome-public-datasets

    下载地址:https://github.com/awesomedata/awesome-public-datasets

    GitHub 上的 awesome-public-datasets 是一个开源项目,汇集了各种主题的高质量公共数据集(不过已经有段时间没更新了)。这些数据集按照主题分类,如农业、生物、气候、计算机网络、教育、金融等。

    image.png


    openDataLab

    地址:https://opendatalab.com/

    openDataLab 是一个专注于中文数据集的平台,也是中国本土最大的开源数据集平台,提供了丰富的中文数据集资源。https://opendatalab.com/openDataLab 支持通过 CLI 和 Python SDK 下载,打开数据集详情后可以看到具体代码示例:

    image.png


    ModelScope

    地址:https://modelscope.cn/datasets

    ModelScope 是阿里巴巴推出的 AI 模型与数据集中心,除了提供预训练模型外,还包含与模型相关的数据集。其实有点类似于中国版的 HuggingFace。ModelScope 同样也提供了用于拉取数据集的 SDK:

    image.png


    几个平台对比

    image.png

     数据协议

    在使用开源数据集的时候,有一点一定注意,就是数据集的协议。数据使用协议(License),直接影响数据能否合法使用,特别是关注能不能商用。比如下面这个 Facebook 提供的推理数据集,协议为 cc-by-nc-4.0 (非商业数据集)

    如果是非商用数据集,一定不能用于公司内部业务的训练,自己学习使用是没问题的。

关键字