• 常见大模型训练
    • English CommonCrawl
      • github.com/karust/gogetcrawl
    • Wikipedia
      • huggingface.co/datasets/wikipedia
    • C4
      • huggingface.co/datasets/c4
    • Github
      • github.com/EleutherAI/github-downloader
    • 中文(数量少,噪声多)
      • 文本分类ThUCNews
        • thuctc.thunlp.org
      • 清华大学NLP实验室
        • theocl.thunlp.org
      • wiki百科中文
        • zh.wikipedia.org
      • WuDaoCorpora
        • openi.pcl.ac.cn/BAAI/WuDao-Data
      • Chines book
        • link.zhihu.com/?target=https%3A//github.com/JiangYanting/Chinese_book_dataset
      • 千言
        • luge.ai
  • 公共数据集
    • MNIST
    • COCO
    • ImageNet
    • CIFAR-10
    • Kaggle
    • zenodo
    • humbi
  • 难与真实世界匹配
    • 未知领域
    • 分布差异,统计误差
    • 私域数据
  • 公共数据集好处
    • 提高泛化能力
    • 方便模型比较