机器学习数据集,数据集是被标记标签(manual labeling)的数据,数据的类型是多样的,包括:图片、音频、文本等
分类
数据集从功能上分类:
- Training set
- Test set
- Dev set
- 等
类别
- MNIST: 经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。
- CIFAR10: 10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。
- CIFAR100: 100 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。
- IMDB REVIEWS: 电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。
- TF FLOWERS: 数据集为五种花朵数据集,分别为雏菊(daisy),郁金香(tulips),向日葵(sunflowers),玫瑰(roses),蒲公英(dandelion)。
- FASHION MNIST: 训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。
- CATS VS DOGS: Kaggle大数据竞赛的猫狗大战数据集,有1738张图片可供训练。
下载地址
说明
- 数据通常是混乱(messy)的
- limitations of ML
- Insufficient data
- Mislabeled data
- Ambiguous labels
- Garbage in, Garbage out
- Data 的问题包括:
- having more data almost never hurts
- small datasets, already can make progress