计算机视觉与深度学习:从基础到应用
1. 人工智能与机器学习概述
人工智能(AI)旨在将人类思维融入计算机,创造模拟生物大脑功能的人造大脑。第一代 AI 专注于人类能够形式化描述的问题,机器遵循人类编写的指令,缺乏自主智能,这类似于主从关系,人类是主人,机器是奴隶。
然而,人类只能完全描述像井字棋或国际象棋这样的简单问题,对于更复杂的任务,如语音转文本、图像识别和情感分析等,无法用静态代码解决。因为这些任务没有单一的分类规则,即使为某个环境创建了规则,在其他环境中也可能失效。
为了让机器能够识别对象,机器学习(ML)应运而生。在 ML 中,机器通过学习规则来完成任务。人类负责收集和标记数据、提取合适的特征并选择最佳的 ML 算法,然后机器学习人类提供的信息,找到输入和输出之间的映射规则。
但传统的 ML 算法存在局限性,在不同环境下表现不佳,且随着数据量的增加,传统 ML 技术难以处理。当类别数量增加时,人类寻找有效特征的能力会下降,因此出现了深度学习(DL)。DL 专注于从原始数据中直接得出结论,无需人工进行特征工程,卷积神经网络(CNN)是处理大量图像的主流 DL 模型。
2. 计算机视觉中的特征提取与选择
2.1 特征提取方法
在计算机视觉中,有多种常用的特征描述符,用于提取图像的特征。以下是一些常见的特征提取方法:
- 颜色直方图(Color Histogram) :颜色直方图是一种简单而有效的特征描述符,它描述了图像中颜色的分布情况。通过统计图像中每个颜色通道的像素值分布,可以得到一个颜色直方图。颜色直方图可以用于图像分类、图像检索等任