SalGaze：使用视觉显著性的个性化注视估计

最新推荐文章于 2025-04-17 15:08:17 发布

俺想发SCI

最新推荐文章于 2025-04-17 15:08:17 发布

阅读量1.3k

点赞数 2

CC 4.0 BY-SA版权

文章标签：计算机视觉目标跟踪

本文链接：https://blog.csdn.net/Yoyo211399/article/details/125634407

SalGaze: Personalizing Gaze Estimation using Visual Saliency

摘要

传统的视线估计方法通常需要显式用户校准以实现高精度。这个过程很麻烦，当照明和姿势等因素发生变化时，通常需要重新校准。为了应对这一挑战，我们引入了SalGaze，该框架利用视觉内容中的显著性信息来透明地使视线估计算法适应用户，而无需显式用户校准。我们设计了一种算法，将显著性映射转换为可微损失映射，可用于优化基于CNN的模型。SalGaze还能够使用统一的框架使用隐式视频显著性校准数据极大地增强标准点校准数据。我们表明，使用我们的技术对现有方法的准确性提高了24%以上。

transparently adapt

透明地适应

greatly augment

大大增加

【1.Introduction】

凝视估计是估计一个人的视线的问题。这一点很重要，因为眼睛注视反映了一个人潜在的认知过程[11]，该过程可用于广泛的应用，包括数字内容营销[50]、诊断自闭症等精神疾病[23]和自动驾驶[2]。

由于眼睛的结构和外观不同，通常需要校准来学习用户固有的参数，以便视线估计算法实现高精度。该校准过程通常是让用户查看目标屏幕上的某些点。该过程的一个主要问题是，一次性校准通常仅在相同的环境设置下工作。照明、头部位置和面部外观等因素的变化可能会严重影响估计精度，并且不可能对每个场景进行重新校准。在某些情况下，主动凝视校准也可能过于严格。例如，凝视是幼儿孤独症风险评估的一个重要生物标志物[38]，然而，要求幼儿进行主动校准以及获得校准性能的反馈是非常具有挑战性的。

toddler 蹒跚学步的

同样的挑战也出现在患有神经退行性疾病的老年人群中[3]。由于这些原因，拥有一种为用户进行被动校准的方法对于使视线估计成为一种更普遍的技术至关重要，尤其是在使用现成设备（例如嵌入移动设备上的摄像头）以及在野外场景中部署时。

elderly populations

老年人口

having a way to passively calibrate for the user is critical for making gaze estimation a more pervasive technology,

拥有一种为用户进行被动校准的方法对于使视线估计成为一种更普及的技术至关重要，

随着机器学习的最新进展，基于外观的注视估计和深度学习的结合已成为远程估计注视的流行方法[53、7、54、48、13、55]。基于外观的算法的优点是只使用人脸或眼睛的图像作为输入，因此不需要常规摄像机以外的任何专用硬件。深度学习算法已被证明是凝视估计的强大工具，因为它能够使用端到端学习将照明、头部姿势、外观等因素结合起来。这种方法最大的挑战是需要大量带有地面实况注视标签的数据来训练网络。最近的工作[1，44，14，18，56，24，51]在创建如此大的数据集方面做出了巨大的努力，显示出了有希望的结果。然而，收集标记的注视数据的过程仍然是一项繁琐的任务，并且没有强大的域转移技术（尚未证明用于注视估计），此类数据仅限于收集的设备和场景。缺乏数据以及有效的数据收集过程是视线估计深度学习方法的主要瓶颈之一。应对这一挑战是本文的目标。

Deep learning algorithms have been shown to be powerful tools for gaze estimation due to its ability to incorporate factors including illumination, head pose, appearance, etc., using end-to-end learning.

深度学习算法已被证明是凝视估计的强大工具，因为它能够使用端到端学习将照明、头部姿势、外观等因素结合起来。

one of the major bottlenecks of

主要瓶颈之一

认知科学表明，人类视觉系统有一种强烈的倾向，即关注视野中高度显著的区域。为了模拟这种行为，在计算显著性领域进行了大量的工作。虽然该领域的传统研究利用地面真实注视数据进行视觉显著性估计，但在这项工作中，我们提出反转该过程，并利用视觉显著性信息进行注视估计。我们论证并证明，场景中的显著性信息可以用于校准目的，而无需用户的积极参与。

There has been extensive work in the area of computational saliency to emulate this behavior.

为了模拟这种行为，在计算显著性领域进行了大量的工作。

在本文中，我们提出了SalGaze，一种利用视觉显著性信息的新框架，如本文所介绍的那样进行适当处理，用于使用深度学习模型进行个性化注视估计。当用户观看几个短视频剪辑时，校准是透明的。通过使用本文提出的可微损耗图，SalGaze还能够在统一的框架下将基于标准点的校准数据与自由观看的视频数据相结合，如果需要更高的精度，则进一步提高性能。我们使用从眼睛跟踪器收集的经验显著性数据和从两种最先进的显著性算法生成的显著性数据进行了实验。我们表明，使用我们的技术，准确率提高了24%以上。

properly processed as here introduced

按此处介绍的方式正确处理

By using a here proposed differentiable loss map, SalGaze is also able to combine standard point-based calibration data with free-viewing video data under a unified framework, further improving performance if more accuracy is desired.

通过使用本文提出的可微损耗图，SalGaze还能够在统一的框架下将基于标准点的校准数据与自由观看的视频数据相结合，如果需要更高的精度，则进一步提高性能。

We experiment with both empirical saliency data collected from eye trackers, and saliency data generated from two state-of-the-art saliency algorithms.

我们使用从眼睛跟踪器收集的经验显著性数据和从两种最先进的显著性算法生成的显著性数据进行了实验。

【

2. Related work

2、相关工作】

Gaze Estimation.

凝视估计。

Tan等人在基于外观的注视估计方面做了一项开创性的工作。[45]. 他们使用了200多个校准样本，在固定头位姿和照明设置下实现了非常高的精度。Lu等人[30]对此进行了改进，在保持高精度的同时，大幅减少了所需的校准样本量。然而，他们的方法仍然要求人的头部完全静止。Sugano等人[44]和Chang等人[5]分别使用多摄像机设置和深度摄像机来获取3D信息并合成

最低0.47元/天解锁文章