DeepSeek 火爆以来,很多企业/机构甚至商户想要微调适配自身特色的模型,往往会面临自身专有数据量不足、不知道如何获取额外公开数据集的难题。很多情况下,如果只是需要通过微调来提升模型某一方面的能力,在没有特殊的内部数据要求的情况下,并不需要构造专有数据集。目前,互联网上存在着大量的公开且免费使用的数据集,本文就带大家了解一些提供公开数据集的平台和使用方法。 传统方式 人类的很多知识通过图书、报刊等载体得以承载、延续。作者介绍过若干匿名数字图书馆,如 Z-library、Anna’s Archive 等,这是获得…