老E的博客

  • 首页
  • 关于
  • 技术应用
    • VPS相关
    • AI相关
    • 盒子相关
    • 其他
  • 订阅Youtube频道
  • 网络加速
    • expressvpnNo.1 ExpressVPN
    • 最佳免费VPN-PrivadoVPN
    • NordVPN
    • 廉价王者-Surfshark
    • PrivateInternetAccess
    • 解锁一切-PrivateVPN
  • 公益资源
    • AI导航
    • 工具下载
    • Docker镜像加速
  • 友情链接
    • tickcloudTickcloud
老E的博客
专注记录并分享跨境技术应用及随想
  1. 首页
  2. 技术应用
  3. AI相关
  4. 正文

微调模型,数据集哪里找?

2025年3月21日 926次阅读 0条评论
clawcloud
expressvpn best vpn
privado vpn
surfshark vpn
private vpn
pia vpn
nord vpn

DeepSeek 火爆以来,很多企业/机构甚至商户想要微调适配自身特色的模型,往往会面临自身专有数据量不足、不知道如何获取额外公开数据集的难题。很多情况下,如果只是需要通过微调来提升模型某一方面的能力,在没有特殊的内部数据要求的情况下,并不需要构造专有数据集。目前,互联网上存在着大量的公开且免费使用的数据集,本文就带大家了解一些提供公开数据集的平台和使用方法。

传统方式

人类的很多知识通过图书、报刊等载体得以承载、延续。作者介绍过若干匿名数字图书馆,如 Z-library、Anna’s Archive 等,这是获得特定领域知识并构建数据集的经典方法。

Z-library

Z-Library (也被称为 Z-Lib ) 是一个大型的在线数字图书馆和文件共享网站,有各种各样的书籍和学术文章提供免费下载。 它的藏书量极其庞大,涵盖了多种语言和学科领域。 Z-Library 拥有丰富的馆藏,提供数百万册电子书和学术文章。

zlib

Z-Library 最初于 2009 年左右成立,它最初是作为 “创世纪图书馆” (Library Genesis)的镜像网站而诞生的。创始人具体身份不详。据信它源自俄罗斯的 Library Genesis 项目,但具体关系不明确。该网站宣称是一个非营利组织,旨在促进知识传播和教育资源共享。

  • 2009年:Z-Library成立,开始积累馆藏。
  • 2015年:遭遇第一次来自英国出版商协会的法律挑战。
  • 2022年11月:两名创始人在阿根廷被捕,网站遭遇全面封锁。
  • 2023年:Z-Library采用新的运营模式,推出官方客户端。
  • 2024年5月:创始人据报道从软禁中逃脱,去向不明。

Anna’s Archive

“安娜的档案”是一个免费电子书下载网站,可用于获取中英文书籍、期刊和书评等各种文献资源。该网站的名字来源于一个网友Anna,她爬取了Z-library上的资源,并将这些资源分享给广大用户,它基于去中心化的 IPFS 网络,因此在一定程度上避免了常见的下载限制和封锁。

anans-archive

同时,也可以通过数字知识产权交易场所购买部分机构公开出售的数据集,这些数据集一般可以直接使用,而无需再进行额外处理。

公开渠道

Huggingface

HuggingFace 是一个专注于自然语言处理和机器学习的社区平台,提供了大量高质量的数据集和预训练模型,也是目前 AI 领域最活跃的社区型平台。其数据集涵盖多种语言和任务,如文本分类、情感分析、机器翻译等。

  • 专注NLP/语音/多模态领域数据集
  • 提供Python库直接加载(datasets库)
  • 支持数据集版本控制与增量更新
  • 附带数据预处理脚本和评估指标

HuggingFace 的 datasets 库是一个非常方便的工具,可以轻松加载和处理数据集,也提供了可以在不同场景下使用数据集的代码示例。

ds-huggingface

Kaggle

Kaggle 是一个数据科学平台,不仅提供大量的公开数据集,还举办各种数据科学竞赛。其数据集涵盖了计算机视觉、自然语言处理、数据可视化等多个领域。

  • 全球最大的数据科学社区驱动平台
  • 包含竞赛数据集、教程和工具
  • 支持在线内核(Kaggle Kernels)进行数据分析
  • 支持通过 API 批量下载

ds-kaggle

在数据集详情页,直接提供了下载 zip 包的方式,也可以通过 Python进行下载。

kaggle datasets download -d <dataset-name>

Google DataSet Search

Google Dataset Search 是一个专门用于搜索数据集的搜索引擎,能够帮助用户找到互联网上公开的数据集。它支持跨多个存储库的搜索,包括 Kaggle、GitHub、HuggingFace 等。

ds-Google DataSet Search

Awesome-public-datasets

Awesome-public-datasets 是托管于 GitHub 上的一个开源项目,汇集了各种主题的高质量公共数据集(不过更新不频繁)。这些数据集按照主题分类,如农业、生物、气候、计算机网络、教育、金融等。

Awesome-public-datasets

OpenDataLab

OpenDataLab 是一个专注于中文数据集的平台,也是中国本土最大的开源数据集平台,提供了丰富的中文数据集资源。OpenDataLab 支持通过 CLI 和 Python SDK 下载,打开数据集详情后可以显示出具体代码示例。

OpenDataLab

ModelScope

ModelScope 是阿里巴巴推出的 AI 模型与数据集中心,除了提供预训练模型外,还包含与模型相关的数据集,同样也提供了用于拉取数据集的 SDK。

ds-ModelScope

注意点:在使用开源数据集的时候,有一点需要注意,就是数据集的协议。数据使用协议(License),直接影响数据能否合法使用,特别是关注是否可以商用。

本作品采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 进行许可
标签: aigc 人工智能
最后更新:2025年3月21日

老E

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

站内搜索
归档
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2024 年 1 月
  • 2023 年 12 月
  • 2023 年 11 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 6 月

Copyright ©2023-2025 Appscross. All Rights Reserved.