Datasets

发布时间：2021-12-11 更新时间：2026-05-05 总字数：870 阅读时间：2m 作者：谢先斌IP：上海网址

机器学习数据集，数据集是被标记标签（manual labeling）的数据，数据的类型是多样的，包括：图片、音频、文本等

类别

MNIST: 经典的小型（28x28 像素）灰度手写数字数据集，共 10 类，用于灰度数据图像识别。训练集 60000 张，测试集 10000 张。
CIFAR10: 10 个类别，32x32 像素彩色图像，用于图像分类。训练集 50000 张，测试集 10000 张。
CIFAR100: 100 个类别，32x32 像素彩色图像，用于图像分类。训练集 50000 张，测试集 10000 张。
IMDB REVIEWS: 电影影评情感分类，训练集 25000 条评论，正面评价标为 1，负面评价标为 0。测试集 25000 条评论。
TF FLOWERS: 数据集为五种花朵数据集，分别为雏菊（daisy），郁金香（tulips），向日葵（sunflowers），玫瑰（roses），蒲公英（dandelion）。
FASHION MNIST: 训练集 60000 张，大小 28*28，共 10 类（0-9），测试集 10000 张图像。
CATS VS DOGS: Kaggle 大数据竞赛的猫狗大战数据集，有 1738 张图片可供训练。

Open Datasets https://www.kaggle.com/datasets
MOT17 Challenge https://motchallenge.net/data/MOT17/
城市街景实例/语义分割 https://www.cityscapes-dataset.com/
ImageNet 1000 类分类识别数据集
- ImageNet是一个根据 WordNet 层次结构组织的图像数据库（目前只有名词），其中层次结构的每个节点都由成百上千的图像来描述
大型目标跟踪数据集 https://got-10k.aitestunion.com
RoBERTa 预训练模型 https://docs.qq.com/sheet/DVnpkTnF6VW9UeXdh?tab=BB08J2
视网膜病变研究的数据集 http://drive.grand-challenge.org/
密集人群中行人跟踪数据集（多目标跟踪） https://motchallenge.net/data/MOT20/
自动驾驶场景数据集 https://www.cvlibs.net/datasets/kitti/
航拍图像物体检测数据集 https://captain-whu.github.io/DOTA
ADE20K 场景语义分割数据集 https://sceneparsing.csail.mit.edu

数据通常是混乱（messy）的
- limitations of ML
- Insufficient data
- Mislabeled data
- Ambiguous labels
Garbage in, Garbage out
Data 的问题包括：
- 错误的 labels
- 错误的 value
having more data almost never hurts
small datasets, already can make progress

以下为 deepseek-r1 和其他模型能力对比数据集

AIME 2024 包含 2024 年美国数学邀请赛（AIME）中的问题
- AIME 是一项著名的高中数学竞赛，以其具有挑战性的数学问题而闻名
Codeforces 是最受竞技程序员欢迎的网站之一，定期举办竞赛，参赛者必须解决具有挑战性的算法优化问题
GPQA Diamond 是一个由生物学、物理学和化学专家编写和验证的多选题、问答题数据集，其中包含难度极高的问题
MATH-500 该数据集包含 OpenAI 在 “逐步验证”（Let’s Verify Step by Step）论文中创建的 MATH 基准中 500 个问题的子集
MMLU
SWE-bench Verified 是 SWE-bench 测试集中 500 个样本的子集，这些样本的质量已经过人工验证