微调模型，数据集哪里找?

DeepSeek 火爆以来，很多企业/机构甚至商户想要微调适配自身特色的模型，往往会面临自身专有数据量不足、不知道如何获取额外公开数据集的难题。很多情况下，如果只是需要通过微调来提升模型某一方面的能力，在没有特殊的内部数据要求的情况下，并不需要构造专有数据集。目前，互联网上存在着大量的公开且免费使用的数据集，本文就带大家了解一些提供公开数据集的平台和使用方法。

传统方式

人类的很多知识通过图书、报刊等载体得以承载、延续。作者介绍过若干匿名数字图书馆，如 Z-library、Anna’s Archive 等，这是获得特定领域知识并构建数据集的经典方法。

Z-library

Z-Library (也被称为 Z-Lib ) 是一个大型的在线数字图书馆和文件共享网站，有各种各样的书籍和学术文章提供免费下载。它的藏书量极其庞大，涵盖了多种语言和学科领域。 Z-Library 拥有丰富的馆藏，提供数百万册电子书和学术文章。

zlib

Z-Library 最初于 2009 年左右成立，它最初是作为 “创世纪图书馆” (Library Genesis)的镜像网站而诞生的。创始人具体身份不详。据信它源自俄罗斯的 Library Genesis 项目，但具体关系不明确。该网站宣称是一个非营利组织，旨在促进知识传播和教育资源共享。

2009年：Z-Library成立，开始积累馆藏。
2015年：遭遇第一次来自英国出版商协会的法律挑战。
2022年11月：两名创始人在阿根廷被捕，网站遭遇全面封锁。
2023年：Z-Library采用新的运营模式，推出官方客户端。
2024年5月：创始人据报道从软禁中逃脱，去向不明。

Anna’s Archive

“安娜的档案”是一个免费电子书下载网站，可用于获取中英文书籍、期刊和书评等各种文献资源。该网站的名字来源于一个网友Anna，她爬取了Z-library上的资源，并将这些资源分享给广大用户，它基于去中心化的 IPFS 网络，因此在一定程度上避免了常见的下载限制和封锁。

anans-archive

同时，也可以通过数字知识产权交易场所购买部分机构公开出售的数据集，这些数据集一般可以直接使用，而无需再进行额外处理。

公开渠道

Huggingface

HuggingFace 是一个专注于自然语言处理和机器学习的社区平台，提供了大量高质量的数据集和预训练模型，也是目前 AI 领域最活跃的社区型平台。其数据集涵盖多种语言和任务，如文本分类、情感分析、机器翻译等。

专注NLP/语音/多模态领域数据集
提供Python库直接加载（datasets库）
支持数据集版本控制与增量更新
附带数据预处理脚本和评估指标

HuggingFace 的 datasets 库是一个非常方便的工具，可以轻松加载和处理数据集，也提供了可以在不同场景下使用数据集的代码示例。

ds-huggingface

Kaggle

Kaggle 是一个数据科学平台，不仅提供大量的公开数据集，还举办各种数据科学竞赛。其数据集涵盖了计算机视觉、自然语言处理、数据可视化等多个领域。

全球最大的数据科学社区驱动平台
包含竞赛数据集、教程和工具
支持在线内核（Kaggle Kernels）进行数据分析
支持通过 API 批量下载

ds-kaggle

在数据集详情页，直接提供了下载 zip 包的方式，也可以通过 Python进行下载。

kaggle datasets download -d <dataset-name>

注意点：在使用开源数据集的时候，有一点需要注意，就是数据集的协议。数据使用协议（License），直接影响数据能否合法使用，特别是关注是否可以商用。

本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可

微调模型，数据集哪里找?

传统方式

Z-library

Anna’s Archive

公开渠道

Huggingface

Kaggle

Google DataSet Search

Awesome-public-datasets

OpenDataLab

ModelScope

文章评论