基于TensorFlow和Keras的狗猫数据集的分类实验_tensorflow猫狗图像分类数据集-CSDN博客

本文链接：https://blog.csdn.net/qq_52215423/article/details/131480695

文章目录

前言
一、环境配置
二、数据集分类
- 1、分类源码
- 2、训练流程
三、模型调整
- 1.图像增强
- 2、网络模型添加dropout层
四、使用VGG19优化提高猫狗图像分类
五、总结
六、参考资料

前言

解释什么是overfit（过拟合）?

简单理解就是训练样本得到的输出和期望输出过于一致，而测试样本输出与期望输出相差却很大。为了得到一致假设而使假设变得过度复杂称为过拟合。想像某种学习算法产生了一个过拟合的分类器，这个分类器能够百分之百的正确分类样本数据（即再拿样本中的文档来给它，它绝对不会分错），但也就为了能够对样本完全正确的分类，使得它的构造如此精细复杂，规则如此严格，以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别！

什么是数据增强？

数据集增强主要是为了减少网络的过拟合现象，通过对训练图片进行变换可以得到泛化能力更强的网络，更好的适应应用场景。数据增强也叫数据扩增，意思是在不实质性的增加数据的情况下，让有限的数据产生等价于更多数据的价值。

如果单独只做数据增强，精确率提高了多少？

大约提高了0.07

然后再添加的dropout层，是什么实际效果？。

只进行图像增强获得的模型和进行图像增强与添加dropout层获得的模型，可以发现前者在训练过程中波动会更大，后者在准确上小于前者。两者虽然在准确率有所变小，但是都避免了过拟合。

一、环境配置

1、anaconda安装

下载链接：anaconda

一路next，选择路径即可。

2、修改jupyter notebook工作目录

在这里插入图片描述

这里提一个使用事项，在打开jupyter notebook时，最好使用管理员身份打开，否则可能因为权限无法打开文件。

3、配置TensorFlow、Keras

新建一个命令行界面：
键入下面的命令：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow==1.14.0
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple keras==2.2.5

二、数据集分类

链接：猫狗数据集
提取码：6688

解压前的数据结构

分类后数据集分为测试、训练、验证集。猫狗训练图片各1000张，验证图片各500张，测试图片各500张。

1、分类源码

import os, shutil
# The path to the directory where the original
# dataset was uncompressed
original_dataset_dir = 'D:/dogcat/train/train'

# The directory where we will
# store our smaller dataset
base_dir = 'D:/dogcat/find_cats_and_dogs'
os.mkdir(base_dir)

# Directories for our training,
# validation and test splits
train_dir = os.path.join(base_dir, 'train')
os.mkdir(train_dir)
validation_dir = os.path.join(base_dir, 'validation')
os.mkdir(validation_dir)
test_dir = os.path.join(base_dir, 'test')
os.mkdir(test_dir)

# Directory with our training cat pictures
train_cats_dir = os.path.join(train_dir, 'cats')
os.mkdir(train_cats_dir)

# Directory with our training dog pictures
train_dogs_dir = os.path.join(train_dir, 'dogs')
os.mkdir(train_dogs_dir)

# Directory with our validation cat pictures
validation_cats_dir = os.path.join(validation_dir, 'cats')
os.mkdir(validation_cats_dir)

# Directory with our validation dog pictures
validation_dogs_dir = os.path.join(validation_dir, 'dogs')
os.mkdir(validation_dogs_dir)

# Directory with our validation cat pictures
test_cats_dir = os.path.join(test_dir, 'cats')
os.mkdir(test_cats_dir)

# Directory with our validation dog pictures
test_dogs_dir = os.path.join(test_dir, 'dogs')
os.mkdir(test_dogs_dir)

# Copy first 1000 cat images to train_cats_dir
fnames = ['cat.{}.jpg'.format(i) for i in range(1000)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(train_cats_dir, fname)
    shutil.copyfile(src, dst)

# Copy next 500 cat images to validation_cats_dir
fnames = ['cat.{}.jpg'.format(i) for i in range(1000, 1500)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(validation_cats_dir, fname)
    shutil.copyfile(src, dst)
    
# Copy next 500 cat images to test_cats_dir
fnames = ['cat.{}.jpg'.format(i) for i in range(1500, 2000)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(test_cats_dir, fname)
    shutil.copyfile(src, dst)
    
# Copy first 1000 dog images to train_dogs_dir
fnames = ['dog.{}.jpg'.format(i) for i in range(1000)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(train_dogs_dir, fname)
    shutil.copyfile(src, dst)
    
# Copy next 500 dog images to validation_dogs_dir
fnames = ['dog.{}.jpg'.format(i) for i in range(1000, 1500)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(validation_dogs_dir, fname)
    shutil.copyfile(src, dst)
    
# Copy next 500 dog images to test_dogs_dir
fnames = ['dog.{}.jpg'.format(i) for i in range(1500, 2000)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os