实战揭秘:OpenCV + 机器学习,开启计算机视觉识别超强之旅(含完整代码)

摘要:本文围绕OpenCV与机器学习算法在计算机视觉识别中的应用展开。先介绍环境搭建与数据集准备,接着深入行人检测和花卉分类两大实战。在行人检测中,利用OpenCV进行图像预处理和HOG特征提取,训练SVM模型实现检测并评估。花卉分类则通过OpenCV提取颜色、纹理等特征,训练决策树和随机森林模型进行分类及性能评估。完整代码展示各步骤实现,旨在助力读者掌握两者融合技术,提升计算机视觉识别任务处理能力,推动相关领域技术应用与发展。


实战揭秘:OpenCV + 机器学习,开启计算机视觉识别超强之旅(含完整代码)

一、引言

在当今数字化时代,计算机视觉识别技术已成为众多领域的核心驱动力。从安防监控中对异常行为的精准识别,到自动驾驶里对道路环境的实时感知,再到医疗影像分析中对疾病的辅助诊断,计算机视觉识别技术无处不在。OpenCV作为计算机视觉领域的开源瑰宝,提供了丰富且高效的图像处理功能。而机器学习算法凭借其强大的模式识别和数据分析能力,为计算机视觉识别注入了智能的灵魂。两者的深度融合,为实现各类复杂的计算机视觉识别任务开辟了广阔的前景。本文将深入探讨OpenCV与机器学习算法在目标检测和图像分类任务中的实际应用,通过详细的实操流程和完整的代码实现,带您领略这一技术组合的魅力与力量。

二、环境搭建与准备

2.1 安装Python

确保您的系统中安装了Python。推荐使用Python 3.7及以上版本,您可以从Python官方网站(https://www.python.org/downloads/)下载并按照安装向导进行安装。在安装过程中,建议勾选“Add Python to PATH”选项,以便在命令行中能够直接调用Python。

2.2 安装OpenCV

安装OpenCV库可以通过pip命令轻松完成。在命令行中输入以下命令:

pip install opencv - python

如果您还需要安装OpenCV的扩展模块,可以使用以下命令:

pip install opencv - contrib - python

2.3 安装机器学习库

对于机器学习部分,我们将使用scikit - learn库。同样在命令行中使用pip安装:

pip install - U scikit - learn

此外,为了进行数据处理和分析,还需要安装numpy和pandas库:

pip install numpy pandas

2.4 数据集准备

  1. 目标检测数据集(以行人检测为例)
    • 可以使用公开的数据集,如Caltech Pedestrian Dataset。您可以从官方网站(http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/)下载数据集。该数据集包含了大量在不同场景下拍摄的行人图像,以及对应的标注信息(行人的位置和轮廓)。
    • 下载完成后,解压数据集,并将其整理成合适的目录结构。例如,可以创建一个名为“caltech_pedestrian”的文件夹,在该文件夹下分别创建“images”子文件夹用于存放图像文件,“annotations”子文件夹用于存放标注文件(通常为XML格式,包含行人的边界框信息)。
  2. 图像分类数据集(以花卉分类为例)
    • 常用的花卉分类数据集有Oxford Flowers 17或Oxford Flowers 102。以Oxford Flowers 17为例,您可以从官方网站(https://www.robots.ox.ac.uk/~vgg/data/flowers/17/)下载。
    • 解压下载的文件后,将图像文件按照花卉类别分别存放在不同的子文件夹中。例如,在“flowers_17”文件夹下创建17个子文件夹,每个子文件夹以花卉类别命名,如“daisy”“tulip”等,并将对应的花卉图像放入相应的子文件夹中。

三、目标检测实战:行人检测

3.1 数据预处理

  1. 图像读取与灰度化
    • 使用OpenCV的cv2.imread函数读取图像,并使用cv2.cvtColor函数将彩色图像转换为灰度图像。
import cv2

def read_and_grayscale(image_path):
    image = cv2.imread(image_path)
    gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    return gray_image
  1. 图像降噪
    • 为了减少图像中的噪声干扰,使用高斯模糊进行降噪处理。通过cv2.GaussianBlur函数实现。
def denoise_image(image, kernel_size=(5, 5)):
    denoised_image = cv2.GaussianBlur(image, kernel_size, 0)
    return denoised_image
  1. HOG特征提取
    • 利用OpenCV的cv2.HOGDescriptor类进行HOG特征提取。首先初始化HOG描述符,设置相关参数,如窗口大小、块大小、细胞单元大小等。
import numpy as np

def extract_hog_features(image):
    win_size = (64, 128)
    block_size = (16, 16)
    block_stride = (8, 8)
    cell_size = (8, 8)
    nbins = 9

    hog = cv2.HOGDescriptor(win_size, block_size, block_stride, cell_size, nbins)
    features = hog.compute(image)
    features = np.array(features).reshape(-1)
    return features

3.2 数据集加载与预处理

  1. 加载Caltech Pedestrian Dataset
    • 编写函数读取图像文件路径和对应的标注文件,并提取标注信息(行人的边界框)。
import xml.etree.ElementTree as ET
import os

def load_caltech_pedestrian_dataset(dataset_path):
    image_paths = []
    labels = []

    image_dir = os.path.join(dataset_path, 'images')
    annotation_dir = os.path.join(dataset_path, 'annotations')

    for filename in os.listdir(image_dir):
        if filename.endswith('.jpg'):
            image_path = os.path.join(image_dir, filename)
            annotation_path = os.path.join(annotation_dir, filename.replace('.jpg', '.xml'))

            if os.path.exists(annotation_path):
                image_paths.append(image_path)
                tree = ET.parse(annotation_path)
                root = tree.getroot()
                bboxes = []
                for obj in root.findall('object'):
                    bbox = obj.find('bndbox')
                    xmin = int(bbox.find('xmin').text)
                    ymin = int(bbox.find('ymin').text)
                    xmax = int(bbox.find('xmax').text)
                    ymax = int(bbox.find('ymax').text)
                    bboxes.append([xmin, ymin, xmax, ymax])
                labels.append(bboxes)

    return image_paths, labels
  1. 数据集预处理
    • 对加载的数据集进行预处理,包括图像读取、灰度化、降噪和HOG特征提取。
def preprocess_dataset(image_paths, labels):
    features = []
    for image_path in image_paths:
        gray_image = read_and_grayscale(image_path)
        denoised_image = denoise_image(gray_image)
        hog_features = extract_hog_features(denoised_image)
        features.append(hog_features)

    return np.array(features), labels

3.3 训练SVM模型

  1. 数据划分
    • 将预处理后的数据集划分为训练集和测试集,通常按照70% - 30%或80% - 20%的比例划分。这里使用scikit - learn的train_test_split函数进行划分。
from sklearn.model_selection import train_test_split

def split_dataset(features, labels, test_size=0.2, random_state=42):
    X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=test_size, random_state=random_state)
    return X_train, X_test, y_train, y_test
  1. 训练SVM模型
    • 使用scikit - learn的SVC类(支持向量分类器)进行模型训练。设置相关参数,如核函数类型(这里使用线性核函数'linear')、惩罚参数C等。
from sklearn.svm import SVC

def train_svm_model(X_train, y_train, C=1.0):
    model = SVC(kernel='linear', C=C)
    model.fit(X_train, y_train)
    return model

3.4 行人检测与结果评估

  1. 行人检测
    • 使用训练好的SVM模型对测试图像进行行人检测。在检测过程中,对图像进行滑动窗口遍历,提取每个窗口的HOG特征并输入到模型中进行预测。
def detect_pedestrians(image, model, win_size=(64, 128), step_size=(8, 8)):
    height, width = image.shape[:2]
    detected_bboxes = []

    for y in range(0, height - win_size[1], step_size[1]):
        for x in range(0, width - win_size[0], step_size[0]):
            window = image[y:y + win_size[1], x:x + win_size[0]]
            window = cv2.resize(window, win_size)
            gray_window = cv2.cvtColor(window, cv2.COLOR_BGR2GRAY)
            denoised_window = denoise_image(gray_window)
            hog_features = extract_hog_features(denoised_window)
            hog_features = np.array(hog_features).reshape(1, -1)

            prediction = model.predict(hog_features)
            if prediction[0] == 1:
                detected_bboxes.append([x, y, x + win_size[0], y + win_size[1]])

    return detected_bboxes
  1. 结果评估
    • 使用一些评估指标,如准确率(Precision)、召回率(Recall)和平均准确率(Average Precision)对检测结果进行评估。这里通过计算预测的边界框与真实边界框的重叠程度(交并比,IoU)来判断检测的准确性。
def calculate_iou(bbox1, bbox2):
    x1, y1, x2, y2 = bbox1
    x3, y3, x4, y4 = bbox2

    x_overlap = max(0, min(x2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI_DL_CODE

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值