SalGaze:使用视觉显著性的个性化注视估计

SalGaze: Personalizing Gaze Estimation using Visual Saliency

 

摘要

传统的视线估计方法通常需要显式用户校准以实现高精度。这个过程很麻烦,当照明和姿势等因素发生变化时,通常需要重新校准。为了应对这一挑战,我们引入了SalGaze,该框架利用视觉内容中的显著性信息透明地使视线估计算法适应用户而无需显式用户校准。我们设计了一种算法,将显著性映射转换为可微损失映射,可用于优化基于CNN的模型。SalGaze还能够使用统一的框架使用隐式视频显著性校准数据极大地增强标准点校准数据。我们表明,使用我们的技术对现有方法的准确性提高了24%以上。

transparently adapt

透明地适应

greatly augment

大大增加

【1.Introduction】

凝视估计是估计一个人的视线的问题。这一点很重要,因为眼睛注视反映了一个人潜在的认知过程[11],该过程可用于广泛的应用,包括数字内容营销[50]、诊断自闭症等精神疾病[23]和自动驾驶[2]。

由于眼睛的结构和外观不同,通常需要校准来学习用户固有的参数,以便视线估计算法实现高精度。该校准过程通常是让用户查看目标屏幕上的某些点。该过程的一个主要问题是,一次性校准通常仅在相同的环境设置下工作。照明、头部位置和面部外观等因素的变化可能会严重影响估计精度,并且不可能对每个场景进行重新校准。在某些情况下,主动凝视校准也可能过于严格。例如,凝视是幼儿孤独症风险评估的一个重要生物标志物[38],然而,要求幼儿进行主动校准以及获得校准性能的反馈是非常具有挑战性的。

toddler 蹒跚学步的


 同样的挑战也出现在患有神经退行性疾病的老年人群中[3]。由于这些原因,拥有一种为用户进行被动校准的方法对于使视线估计成为一种更普遍的技术至关重要,尤其是在使用现成设备(例如嵌入移动设备上的摄像头)以及在野外场景中部署时。

elderly populations

老年人口

having a way to passively calibrate for the user is critical for making gaze estimation a more pervasive technology,

拥有一种为用户进行被动校准的方法对于使视线估计成为一种更普及的技术至关重要,

随着机器学习的最新进展,基于外观的注视估计和深度学习的结合已成为远程估计注视的流行方法[53、7、54、48、13、55]。基于外观的算法的优点是只使用人脸或眼睛的图像作为输入,因此不需要常规摄像机以外的任何专用硬件。深度学习算法已被证明是凝视估计的强大工具,因为它能够使用端到端学习将照明、头部姿势、外观等因素结合起来。这种方法最大的挑战是需要大量带有地面实况注视标签的数据来训练网络。最近的工作[1,44,14,18,56,24,51]在创建如此大的数据集方面做出了巨大的努力,显示出了有希望的结果。然而,收集标记的注视数据的过程仍然是一项繁琐的任务,并且没有强大的域转移技术(尚未证明用于注视估计),此类数据仅限于收集的设备和场景。缺乏数据以及有效的数据收集过程是视线估计深度学习方法的主要瓶颈之一应对这一挑战是本文的目标。

Deep learning algorithms have been shown to be powerful tools for gaze estimation due to its ability to incorporate factors including illumination, head pose, appearance, etc., using end-to-end learning.

深度学习算法已被证明是凝视估计的强大工具,因为它能够使用端到端学习将照明、头部姿势、外观等因素结合起来。

one of the major bottlenecks of

主要瓶颈之一 

 

 认知科学表明,人类视觉系统有一种强烈的倾向,即关注视野中高度显著的区域。为了模拟这种行为,在计算显著性领域进行了大量的工作。虽然该领域的传统研究利用地面真实注视数据进行视觉显著性估计,但在这项工作中,我们提出反转该过程,并利用视觉显著性信息进行注视估计。我们论证并证明,场景中的显著性信息可以用于校准目的,而无需用户的积极参与。

There has been extensive work in the area of computational saliency to emulate this behavior.

为了模拟这种行为,计算显著性领域进行了大量的工作。

 在本文中,我们提出了SalGaze,一种利用视觉显著性信息的新框架,如本文所介绍的那样进行适当处理,用于使用深度学习模型进行个性化注视估计。用户观看几个短视频剪辑时,校准是透明的。通过使用本文提出的可微损耗图,SalGaze还能够在统一的框架下将基于标准点的校准数据与自由观看的视频数据相结合,如果需要更高的精度,则进一步提高性能。我们使用从眼睛跟踪器收集的经验显著性数据和从两种最先进的显著性算法生成的显著性数据进行了实验。我们表明,使用我们的技术,准确率提高了24%以上。

properly processed as here introduced

按此处介绍的方式正确处理

By using a here proposed differentiable loss map, SalGaze is also able to combine standard point-based calibration data with free-viewing video data under a unified framework, further improving performance if more accuracy is desired.

通过使用本文提出的可微损耗图,SalGaze还能够在统一的框架下将基于标准点的校准数据与自由观看的视频数据相结合,如果需要更高的精度,则进一步提高性能。

We experiment with both empirical saliency data collected from eye trackers, and saliency data generated from two state-of-the-art saliency algorithms.

我们使用从眼睛跟踪器收集经验显著性数据和从两种最先进的显著性算法生成的显著性数据进行了实验。

2. Related work

2、相关工作】

Gaze Estimation.

凝视估计。

 Tan等人在基于外观的注视估计方面做了一项开创性的工作。[45]. 他们使用了200多个校准样本,在固定头位姿和照明设置下实现了非常高的精度。Lu等人[30]对此进行了改进,在保持高精度的同时,大幅减少了所需的校准样本量。然而,他们的方法仍然要求人的头部完全静止。Sugano等人[44]和Chang等人[5]分别使用多摄像机设置和深度摄像机来获取3D信息并合成

<think>好的,用户想了解注视估计的技术和实现方法。首先,我需要整理已知的信息。根据提供的引用内容,特别是引用[2]提到的SalGaze框架,这是一个结合显著性映射和深度学习的方法,能够提高准确性。用户的问题涉及技术细节和实现方法,所以需要覆盖传统方法和现代深度学习方法,以及两者的结合。 首先,注视估计的传统方法通常基于几何模型或统计模型。几何模型可能涉及摄像头校准和眼球特征提取,比如瞳孔位置和角膜反射。统计模型可能使用回归分析,根据眼部特征预测注视点。这部分需要简要说明,并指出其局限性,比如依赖校准和环境变化的影响。 然后,现代深度学习方法,特别是CNN的应用。引用[2]提到使用显著性映射作为输入,结合CNN进行端到端的学习。这里需要解释如何将显著性图转换为损失函数,以及如何利用视频数据或点校准数据。SalGaze的例子可以具体说明,比如可微损失映射的设计和数据融合的方法。 还需要提到数据收集的挑战,比如引用[2]中提到的异常值问题,以及迭代去除异常值的策略。同时,强调显著性模型的重要性,引用[1]指出显著性图质量对估计精度的影响,所以可能需要讨论如何选择或改进显著性模型。 此外,实现步骤可能需要分点说明:数据采集、特征提取、模型训练、优化策略等。每个步骤需要简要描述,例如数据采集使用眼动仪,特征提取包括眼部关键点或原始图像,模型训练涉及CNN结构,优化策略如多任务学习或数据增强。 用户可能还想知道不同方法的优缺点,比如传统方法计算量小但精度低,深度学习方法精度高但需要大量数据。同时,结合显著性信息可以提升性能,如SalGaze的24%提升。需要确保技术术语解释清楚,比如显著性映射、CNN架构、损失函数设计等。 最后,生成相关问题需要考虑用户可能的后续疑问,比如具体算法细节、评估指标、实际应用中的挑战,或者比较不同技术的优劣。确保问题覆盖技术实现的不同方面,帮助用户深入探索。</think>### 注视估计技术及实现方法 注视估计(Gaze Estimation)旨在通过分析眼部运动或视觉特征,预测用户的视线落点。以下是主要技术及实现方法: --- #### 一、**传统方法** 1. **基于几何模型的方法** - 通过摄像头捕捉眼球特征(如瞳孔中心、角膜反射点),建立3D眼球模型与屏幕坐标的映射关系。 - 公式示例:$$ \theta = \arctan\left(\frac{y_{\text{pupil}} - y_{\text{cr}}}{f}\right) $$,其中$\theta$为视线角度,$f$为焦距[^1]。 - **局限性**:依赖高精度设备标定,易受环境光干扰。 2. **基于统计学习的方法** - 使用回归模型(如支持向量机、随机森林)从眼部图像特征直接预测注视点坐标。 - 输入特征包括:瞳孔位置、虹膜纹理、头部姿态等。 --- #### 二、**深度学习方法** 1. **端到端CNN框架** - 直接输入眼部图像或面部图像,通过卷积神经网络(CNN)输出注视点坐标。 - **典型架构**: ```python model = Sequential([ Conv2D(32, (3,3), activation='relu', input_shape=(64,64,3)), MaxPooling2D(2,2), Flatten(), Dense(128, activation='relu'), Dense(2) # 输出(x,y)坐标 ]) ``` - **优势**:自动学习复杂特征,减少手工特征设计的依赖[^2]。 2. **显著性信息融合** - **SalGaze框架**:将视觉显著性映射(Saliency Map)转换为可微损失函数,指导CNN优化。 - 显著性映射标识图像中吸引注意力的区域,通过加权损失强化注视点与显著性区域的一致性。 - 实现多模态数据融合,支持隐式视频数据与显式点校准数据联合训练。 --- #### 三、**关键技术挑战与解决方案** 1. **数据不足问题** - **解决方案**: - 使用显著性模型生成合成数据(如引用[1]提到的显著性图增强)。 - 迭代异常值去除(如SalGaze的异常值过滤策略)。 2. **实时性优化** - 轻量化模型设计(如MobileNet骨干网络)、硬件加速(GPU/TPU推理)。 --- #### 四、**实现步骤示例** 1. **数据采集**:使用眼动仪(如Tobii)收集眼部图像与对应注视点坐标。 2. **特征提取**: - 传统方法:提取瞳孔中心、角膜反射点等几何特征。 - 深度方法:直接输入原始图像或显著性图。 3. **模型训练**: - 损失函数:均方误差(MSE)或显著性加权损失(如SalGaze)。 4. **部署优化**:模型量化、剪枝提升推理速度。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值