[论文阅读]EMNIST: an extension of MNIST to handwritten letters

论文阅读

EMNIST: an extension of MNIST to handwritten letters

/ 2020-01 Howard wonanut

最近遇到一个问题,需要识别手写字母,这个问题本身没啥难度,难在如何找到训练数据集,因为之前做过手写数字的识别,知道有个MNIST手写数字数据集,可这手写字母数据集还真没注意过。第一个映入眼帘的手写字母数据集是Chars74k数据集,里面的EnglishHnd即为手写数字数据集,不过数据量比较少,每个字母只有55个图片数据。
在这里插入图片描述

直到今天,在kaggle上看到了EMNIST数据集,真的是发现了一个宝藏,所以整理一下这个论文:
论文下载地址:EMNIST: an extension of MNIST to handwritten letters

产生背景

众所周知,MNIST是一个权威的手写数字数据集,而且一直有一个手写数字+大小写字母数据集NIST,只不过由于NIST数据集使用起来不太方便,而且没有像EMNIST将训练集和测试集划分,因此在使用以及对比结果的时候很不方便,从而有了ENMIST(extension of MNIST)。

数据集划分

该数据集基于NIST Special Database 19产生。论文作者已经将数据按照不同的划分方法进行了划分,而且都已经划分了训练集和测试集:

  • By_page:里面含有未经处理的整页的字符黑白扫描
  • By_Author: 里面根据不同的书写者,将属于同一个人的所有字符都归成一类
  • By_Field: 分成字母,数字,可以用于字母或者数字分割
  • By_Class: 按类别,即 数字 10 类[0-9],26 类 [a-z],26 类 [A-Z],共 62 类
  • By_Merge: 因为有的因为字母,大小写手写体基本很难分辨,所有这里将这些字母大小写合并,又构成一个新的分类,被合并的字母有 15 类 [C,I,J,K,L,M,O,P,S,U,V,W,X,Y,Z],所以最后最剩下 47 类
    在这里插入图片描述

EMNIST数据集的部分划分结果如下图:

在这里插入图片描述

banchmark结果

不太重要,略

(完)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值