图形相似度比较(图形检索)学习笔记——pHash算法(图像感知算法)

本文介绍了pHash算法用于图像相似度比较的原理和步骤,包括灰度化、尺寸压缩、离散余弦变换及汉明距计算。通过这种方式,可以快速实现尺度不变性的图像检索。虽然存在不能排除不需要比较部分、旋转不变性和颜色精确比较的缺点,但在简单图像比较和索引中表现出实用性。此外,文章讨论了不同插值方法对图像压缩效果的影响,并指出pHash适用于快速初步比较,而深度学习和特征描述方法更适合高精度需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题来源

        有一活动,临摹油画,然后拍照上传。判断与原画的相似度,相似度越高,分数就越高。

        作为技术男,看到这个,第一反应当然是思考怎么实现这一功能啦。由于玩过opencv,所以第一反应是利用opencv的sift获取特征点集合,然后比较特征点集合,但是如何比较特征点集合一致就成了问题,一致找不到比较好的方法,后来在网上查了一下,发现比较图案的方法还不少。

        了解一下,发现最简单易实现的就是pHash算法了,所以决定写一下,作为图像相似度比较的入门学习。

 

算法思路

基本思路就是灰度化->压缩至同一尺寸(32*32)->离散变换->计算相似hash(指纹)->计算汉明距,具体逻辑如下:

获取图形矩阵(每个rgb图片的像素由三个维度指明:横坐标、纵坐标、rgb值,因此该矩阵实际是三维矩阵)

压缩至统一尺寸(减少计算量、忽略尺度变换带来的影响,插值方法使用邻域再取样方法)

计算灰度均值

遍历矩阵,大于等于灰度均值为1,小于灰度均值为0

转为对应字符串,获得hash值

计算汉明距

 

问题与思考

问:为什么要转灰度图?

忽略轻微色差带来的影响,也便于计算指纹和降低计算量。

 

问:这里的图形矩阵是什么?

对于rgb图像,每个像素由三个维度指明:横坐标、纵坐标、色值(有三个元素,分别表示rgb值),因此矩阵实际是三维矩阵,如img[0][0][]=[0xFF, 0xFF, 0xFF]表示的就是第一行第一个像素的rgb值(这里是白色),当然你也可以把rgb值直接组合成一个3字节整型数,这样他就是一个二维矩阵了。同时,灰度矩阵则是一张图的每个像素点的灰度值,对应的是一个二

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值