- 常见大模型训练
- English CommonCrawl
- github.com/karust/gogetcrawl
- Wikipedia
- huggingface.co/datasets/wikipedia
- C4
- huggingface.co/datasets/c4
- Github
- github.com/EleutherAI/github-downloader
- 中文(数量少,噪声多)
- 文本分类ThUCNews
- thuctc.thunlp.org
- 清华大学NLP实验室
- theocl.thunlp.org
- wiki百科中文
- zh.wikipedia.org
- WuDaoCorpora
- openi.pcl.ac.cn/BAAI/WuDao-Data
- Chines book
- link.zhihu.com/?target=https%3A//github.com/JiangYanting/Chinese_book_dataset
- 千言
- luge.ai
- 文本分类ThUCNews
- English CommonCrawl
- 公共数据集
- MNIST
- COCO
- ImageNet
- CIFAR-10
- Kaggle
- zenodo
- humbi
- 难与真实世界匹配
- 未知领域
- 分布差异,统计误差
- 私域数据
- 公共数据集好处
- 提高泛化能力
- 方便模型比较