DeepSeek 火爆以来,很多企业/机构甚至商户想要微调适配自身特色的模型,往往会面临自身专有数据量不足、不知道如何获取额外公开数据集的难题。很多情况下,如果只是需要通过微调来提升模型某一方面的能力,在没有特殊的内部数据要求的情况下,并不需要构造专有数据集。目前,互联网上存在着大量的公开且免费使用的数据集,本文就带大家了解一些提供公开数据集的平台和使用方法。
传统方式
人类的很多知识通过图书、报刊等载体得以承载、延续。作者介绍过若干匿名数字图书馆,如 Z-library、Anna’s Archive 等,这是获得特定领域知识并构建数据集的经典方法。
Z-library
Z-Library (也被称为 Z-Lib ) 是一个大型的在线数字图书馆和文件共享网站,有各种各样的书籍和学术文章提供免费下载。 它的藏书量极其庞大,涵盖了多种语言和学科领域。 Z-Library 拥有丰富的馆藏,提供数百万册电子书和学术文章。
Z-Library 最初于 2009 年左右成立,它最初是作为 “创世纪图书馆” (Library Genesis)的镜像网站而诞生的。创始人具体身份不详。据信它源自俄罗斯的 Library Genesis 项目,但具体关系不明确。该网站宣称是一个非营利组织,旨在促进知识传播和教育资源共享。
- 2009年:Z-Library成立,开始积累馆藏。
- 2015年:遭遇第一次来自英国出版商协会的法律挑战。
- 2022年11月:两名创始人在阿根廷被捕,网站遭遇全面封锁。
- 2023年:Z-Library采用新的运营模式,推出官方客户端。
- 2024年5月:创始人据报道从软禁中逃脱,去向不明。
Anna’s Archive
“安娜的档案”是一个免费电子书下载网站,可用于获取中英文书籍、期刊和书评等各种文献资源。该网站的名字来源于一个网友Anna,她爬取了Z-library上的资源,并将这些资源分享给广大用户,它基于去中心化的 IPFS 网络,因此在一定程度上避免了常见的下载限制和封锁。
同时,也可以通过数字知识产权交易场所购买部分机构公开出售的数据集,这些数据集一般可以直接使用,而无需再进行额外处理。
公开渠道
Huggingface
HuggingFace 是一个专注于自然语言处理和机器学习的社区平台,提供了大量高质量的数据集和预训练模型,也是目前 AI 领域最活跃的社区型平台。其数据集涵盖多种语言和任务,如文本分类、情感分析、机器翻译等。
- 专注NLP/语音/多模态领域数据集
- 提供Python库直接加载(datasets库)
- 支持数据集版本控制与增量更新
- 附带数据预处理脚本和评估指标
HuggingFace 的 datasets 库是一个非常方便的工具,可以轻松加载和处理数据集,也提供了可以在不同场景下使用数据集的代码示例。
Kaggle
Kaggle 是一个数据科学平台,不仅提供大量的公开数据集,还举办各种数据科学竞赛。其数据集涵盖了计算机视觉、自然语言处理、数据可视化等多个领域。
- 全球最大的数据科学社区驱动平台
- 包含竞赛数据集、教程和工具
- 支持在线内核(Kaggle Kernels)进行数据分析
- 支持通过 API 批量下载
在数据集详情页,直接提供了下载 zip 包的方式,也可以通过 Python进行下载。
kaggle datasets download -d <dataset-name>
Google DataSet Search
Google Dataset Search 是一个专门用于搜索数据集的搜索引擎,能够帮助用户找到互联网上公开的数据集。它支持跨多个存储库的搜索,包括 Kaggle、GitHub、HuggingFace 等。
Awesome-public-datasets
Awesome-public-datasets 是托管于 GitHub 上的一个开源项目,汇集了各种主题的高质量公共数据集(不过更新不频繁)。这些数据集按照主题分类,如农业、生物、气候、计算机网络、教育、金融等。
OpenDataLab
OpenDataLab 是一个专注于中文数据集的平台,也是中国本土最大的开源数据集平台,提供了丰富的中文数据集资源。OpenDataLab 支持通过 CLI 和 Python SDK 下载,打开数据集详情后可以显示出具体代码示例。
ModelScope
ModelScope 是阿里巴巴推出的 AI 模型与数据集中心,除了提供预训练模型外,还包含与模型相关的数据集,同样也提供了用于拉取数据集的 SDK。
注意点:在使用开源数据集的时候,有一点需要注意,就是数据集的协议。数据使用协议(License),直接影响数据能否合法使用,特别是关注是否可以商用。
文章评论