论文阅读
EMNIST: an extension of MNIST to handwritten letters
/ 2020-01 Howard wonanut
最近遇到一个问题,需要识别手写字母,这个问题本身没啥难度,难在如何找到训练数据集,因为之前做过手写数字的识别,知道有个MNIST手写数字数据集,可这手写字母数据集还真没注意过。第一个映入眼帘的手写字母数据集是Chars74k数据集,里面的EnglishHnd
即为手写数字数据集,不过数据量比较少,每个字母只有55个图片数据。
直到今天,在kaggle上看到了EMNIST数据集,真的是发现了一个宝藏,所以整理一下这个论文:
论文下载地址:EMNIST: an extension of MNIST to handwritten letters
产生背景
众所周知,MNIST是一个权威的手写数字数据集,而且一直有一个手写数字+大小写字母数据集NIST,只不过由于NIST数据集使用起来不太方便,而且没有像EMNIST将训练集和测试集划分,因此在使用以及对比结果的时候很不方便,从而有了ENMIST(extension of MNIST)。
数据集划分
该数据集基于NIST Special Database 19产生。论文作者已经将数据按照不同的划分方法进行了划分,而且都已经划分了训练集和测试集:
- By_page:里面含有未经处理的整页的字符黑白扫描
- By_Author: 里面根据不同的书写者,将属于同一个人的所有字符都归成一类
- By_Field: 分成字母,数字,可以用于字母或者数字分割
- By_Class: 按类别,即 数字 10 类[0-9],26 类 [a-z],26 类 [A-Z],共 62 类
- By_Merge: 因为有的因为字母,大小写手写体基本很难分辨,所有这里将这些字母大小写合并,又构成一个新的分类,被合并的字母有 15 类 [C,I,J,K,L,M,O,P,S,U,V,W,X,Y,Z],所以最后最剩下 47 类
EMNIST数据集的部分划分结果如下图:
banchmark结果
不太重要,略
(完)