发布时间:2025-03-28 11:18:55编辑:123阅读(85)
如何将领域文献转换为可供模型微调的数据集?
想微调特定领域的DeepSeek,数据集究竟要怎么搞?
了解一些获取公开数据集的途径和注意事项
获取公开数据集
很多情况下,如果你只是需要通过微调来提升模型某一方面的能力,在没有特殊的内部数据要求的情况下,是没必要自己去构造数据集的,因为目前互联网上存在着大量的公开且免费使用的数据集,下面就带大家来了解一下,常见的获取公开数据集的途径有哪些,以及对应的使用方法。
HuggingFace(🪜)
地址:https://huggingface.co/datasets
HuggingFace 是一个专注于自然语言处理和机器学习的社区平台,提供了大量高质量的数据集和预训练模型,也是目前 AI 领域最活跃的社区型平台。其数据集涵盖多种语言和任务,如文本分类、情感分析、机器翻译等。
专注NLP/语音/多模态领域数据集
提供Python库直接加载(datasets库)
支持数据集版本控制与增量更新
附带数据预处理脚本和评估指标
HuggingFace 的 datasets 库也是一个非常方便的工具,可以轻松加载和处理数据集。
from datasets import load_dataset # 加载GLUE基准数据集 dataset = load_dataset("glue", "mrpc")
Kaggle(🪜)
地址:https://www.kaggle.com/datasets
Kaggle 是一个数据科学平台,不仅提供大量的公开数据集,还举办各种数据科学竞赛。其数据集涵盖了计算机视觉、自然语言处理、数据可视化等多个领域。
全球最大的数据科学社区驱动平台
包含竞赛数据集、教程和工具
支持在线内核(Kaggle Kernels)进行数据分析
支持通过 API 批量下载
在数据集详情页,直接提供了下载 zip 包的方式,也可以通过 Python:kaggle datasets download -d <dataset-name> 进行下载
Google DataSet Search(🪜)
地址:https://datasetsearch.research.google.com/
Google Dataset Search 是一个专门用于搜索数据集的搜索引擎,能够帮助用户找到互联网上公开的数据集。
它支持跨多个存储库的搜索,包括 Kaggle、GitHub、HuggingFace 等。
awesome-public-datasets
下载地址:https://github.com/awesomedata/awesome-public-datasets
GitHub 上的 awesome-public-datasets 是一个开源项目,汇集了各种主题的高质量公共数据集(不过已经有段时间没更新了)。这些数据集按照主题分类,如农业、生物、气候、计算机网络、教育、金融等。
openDataLab
地址:https://opendatalab.com/
openDataLab 是一个专注于中文数据集的平台,也是中国本土最大的开源数据集平台,提供了丰富的中文数据集资源。https://opendatalab.com/openDataLab 支持通过 CLI 和 Python SDK 下载,打开数据集详情后可以看到具体代码示例:
ModelScope
地址:https://modelscope.cn/datasets
ModelScope 是阿里巴巴推出的 AI 模型与数据集中心,除了提供预训练模型外,还包含与模型相关的数据集。其实有点类似于中国版的 HuggingFace。ModelScope 同样也提供了用于拉取数据集的 SDK:
几个平台对比
数据协议
在使用开源数据集的时候,有一点一定注意,就是数据集的协议。数据使用协议(License),直接影响数据能否合法使用,特别是关注能不能商用。比如下面这个 Facebook 提供的推理数据集,协议为 cc-by-nc-4.0 (非商业数据集)
如果是非商用数据集,一定不能用于公司内部业务的训练,自己学习使用是没问题的。
上一篇: Ai之大模型-数据集-理论6.1
下一篇: 深度学习识别滑动验证码缺口
48314
47115
37988
35280
29775
26462
25400
20397
20088
18533
84°
85°
96°
164°
133°
346°
197°
181°
236°
395°