Datasets

发布时间: 更新时间: 总字数:870 阅读时间:2m 作者: IP上海 分享 网址

机器学习数据集,数据集是被标记标签(manual labeling)的数据,数据的类型是多样的,包括:图片、音频、文本等

分类

数据集从功能上分类:

  • Training set
  • Test set
  • Dev set

类别

  • MNIST: 经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。
  • CIFAR10: 10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。
  • CIFAR100: 100 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。
  • IMDB REVIEWS: 电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。
  • TF FLOWERS: 数据集为五种花朵数据集,分别为雏菊(daisy),郁金香(tulips),向日葵(sunflowers),玫瑰(roses),蒲公英(dandelion)。
  • FASHION MNIST: 训练集 60000 张,大小 28*28,共 10 类(0-9),测试集 10000 张图像。
  • CATS VS DOGS: Kaggle 大数据竞赛的猫狗大战数据集,有 1738 张图片可供训练。

下载地址

说明

  • 数据通常是混乱(messy)的
    • limitations of ML
    • Insufficient data
    • Mislabeled data
    • Ambiguous labels
  • Garbage in, Garbage out
  • Data 的问题包括:
    • 错误的 labels
    • 错误的 value
  • having more data almost never hurts
  • small datasets, already can make progress

大模型对比使用的数据集

以下为 deepseek-r1 和其他模型能力对比数据集

  • AIME 2024 包含 2024 年美国数学邀请赛(AIME)中的问题
    • AIME 是一项著名的高中数学竞赛,以其具有挑战性的数学问题而闻名
  • Codeforces 是最受竞技程序员欢迎的网站之一,定期举办竞赛,参赛者必须解决具有挑战性的算法优化问题
  • GPQA Diamond 是一个由生物学、物理学和化学专家编写和验证的多选题、问答题数据集,其中包含难度极高的问题
  • MATH-500 该数据集包含 OpenAI 在 “逐步验证”(Let’s Verify Step by Step)论文中创建的 MATH 基准中 500 个问题的子集
  • MMLU
  • SWE-bench Verified 是 SWE-bench 测试集中 500 个样本的子集,这些样本的质量已经过人工验证
Home Archives Categories Tags Statistics
本文总阅读量 次 本站总访问量 次 本站总访客数