Python读取xml数据,cv2裁剪图片实例资源-CSDN下载

50 浏览量 2020-12-20 14:11:06 上传评论收藏 39KB PDF 举报

下载的数据是pascal voc2012的数据，已经有annotation了，不过是xml格式的，训练的模型是在Google模型的基础上加了两层网络，因此要在原始图像中裁剪出用于训练的部分图像。另外，在原来给的标注框的基础上，做了点框的移动。最后同类目标存储在同一文件夹中。 from __future__ import division import os from PIL import Image import xml.dom.minidom import numpy as np ImgPath = 'C:/Users/Desktop/XML_try/img/' AnnoPath = ' 在Python编程中，处理XML数据是一项常见的任务，特别是在数据处理、机器学习以及计算机视觉等领域。在本示例中，我们看到一个用Python读取PASCAL VOC2012数据集XML注解，并使用OpenCV（cv2）裁剪图像的实例。PASCAL VOC是一个广泛使用的图像识别和分割数据集，它的注解信息通常以XML格式存储，包括对象的名称、边界框坐标等。导入所需的库，如`os`用于文件操作，`Image`来自PIL库，用于处理图像，`xml.dom.minidom`用于解析XML文档，`numpy`进行数学计算。定义了图像路径（ImgPath）、注解路径（AnnoPath）和处理后的图像保存路径（ProcessedPath）。接着，列出ImgPath目录下的所有图像文件，并对每个文件执行以下操作： 1. 解析对应的XML文件，获取`<filename>`标签的值，即图像文件名。 2. 遍历XML文件中的`<object>`标签，获取每个对象的名称（objectname）。 3. 创建一个保存路径，根据对象名称创建对应的文件夹，如果不存在则创建。 4. 获取每个对象的边界框信息，即`<bndbox>`标签内的`<xmin>`, `<ymin>`, `<xmax>`, `<ymax>`。 5. 进行边界框的调整，这里应用了一组平移矩阵（shift），用于微调边界框的位置，可能用于增加数据集的多样性或模拟真实世界中的位置变化。 6. 使用`np.array`将边界框坐标转换为NumPy数组，并与平移矩阵相乘，得到裁剪区域的坐标。 7. 打开图像文件，使用`Image.open()`，然后使用`crop()`方法根据裁剪坐标截取图像子区域。 8. 保存裁剪后的图像到指定文件夹，文件名包含原图文件名和序号。这段代码展示了如何从XML注解中提取信息，并结合图像处理库进行图像操作，这对于训练深度学习模型，特别是目标检测模型非常有用。在深度学习中，通常需要从原始图像中裁剪出包含目标的区域，以便模型可以专注于学习特定的目标特征。值得注意的是，这里还提到了一个额外的知识点，即使用Python截取XML文件画框的图片并保存。这通常是为可视化目的，帮助我们直观地查看哪些部分被裁剪出来。虽然代码没有提供这部分的具体实现，但我们可以使用类似的方法，结合`PIL`库中的`draw`模块，将边界框绘制到图像上，然后保存结果。这个实例涵盖了Python处理XML数据、图像处理和深度学习预处理的关键步骤，对于理解如何准备计算机视觉任务的数据集非常有帮助。

资源详情

资源评论

资源推荐