AI视野·今日CS.CV 计算机视觉论文速览
Mon, 14 Feb 2022
Totally 44 papers
👉上期速览✈更多精彩请移步主页
Daily Computer Vision Papers
Borrowing from yourself: Faster future video segmentation with partial channel update Authors Evann Courdier, Fran ois Fleuret 语义分割是计算机视觉文献中一个很好解决的话题,但快速准确的视频处理网络的设计仍然具有挑战性。此外,为了在嵌入式硬件上运行,计算机视觉模型通常必须在精度上做出妥协才能以所需的速度运行,因此延迟精度权衡通常是这些实时系统设计的核心。 |
Patch-NetVLAD+: Learned patch descriptor and weighted matching strategy for place recognition Authors Yingfeng Cai, Junqiao Zhao, Jiafeng Cui, Fenglin Zhang, Chen Ye, Tiantian Feng 在城市或室内场景等具有相似场景的区域中的视觉位置识别 VPR 是一项重大挑战。使用全局描述符的现有 VPR 方法难以捕获场景中的局部特定区域 LSR,因此在这种情况下容易出现定位混乱。因此,找到对位置识别至关重要的 LSR 成为关键。为了应对这一挑战,我们引入了 Patch NetVLAD,其灵感来自基于补丁的 VPR 研究。我们的方法提出了一种带有三元组损失的微调策略,以使 NetVLAD 适用于提取补丁级描述符。此外,与现有方法平等对待图像中的所有补丁不同,我们的方法提取 LSR 的补丁,这些补丁在整个数据集中出现的频率较低,并通过为它们分配适当的权重使它们在 VPR 中发挥重要作用。 |
Deep soccer captioning with transformer: dataset, semantics-related losses, and multi-level evaluation Authors Ahmad Hammoudeh, Bastein Vanderplaetse, St phane Dupont 这项工作旨在使用深度学习为足球视频生成字幕。在此背景下,本文介绍了数据集、模型和三级评估。该数据集由 22k 个字幕剪辑对和三个视觉特征图像、光流、修复 500 小时 emph SoccerNet 视频组成。该模型分为三个部分,Transformer 学习语言,ConvNets 学习视觉,语言和视觉特征的融合生成字幕。该论文建议在三个级别上评估生成的字幕,使用常用的评估指标,例如 BLEU 分数和 CIDEr,这意味着领域专家的描述质量,以及语料库生成的字幕的多样性。该论文表明,生成的字幕的多样性已经从 0.07 提高到 0.18,其中语义相关的损失会优先考虑选定的单词。语义相关损失和更多视觉特征光流的利用,修复将归一化字幕得分提高了 28 分。 |
SuperCon: Supervised Contrastive Learning for Imbalanced Skin Lesion Classification Authors Keyu Chen, Di Zhuang, J. Morris Chang 卷积神经网络 CNN 在皮肤病变分类方面取得了巨大成功。需要一个平衡的数据集来训练一个好的模型。然而,由于在实践中会出现不同的皮肤损伤,严重甚至最致命的皮肤损伤类型(例如黑色素瘤)在数据集中自然具有相当少的数量。在那方面,分类性能下降广泛发生,让 CNN 在类别不平衡的皮肤病变图像数据集上运行良好非常重要。在本文中,我们提出了 SuperCon,这是一种两阶段的训练策略,用于克服皮肤病变分类中的类不平衡问题。它包含两个阶段:i 表示训练,尝试学习在类内紧密对齐且远离类间的特征表示,以及 ii 分类器微调,旨在学习基于学习的表示正确预测标签的分类器。在实验评估中,我们的方法和其他现有方法对皮肤病变基准数据集进行了广泛的比较。 |
Tiny Object Tracking: A Large-scale Dataset and A Baseline Authors Yabin Zhu, Chenglong Li, Yao Liu, Xiao Wang, Jin Tang, Bin Luo, Zhixiang Huang 在实际应用中经常出现的微小物体外观和特征较弱,并且在物体检测和分割等普通视觉任务中越来越受到关注。为了促进微小目标跟踪的研究和发展,我们创建了一个大规模的视频数据集,其中包含 434 个序列,总共超过 217K 帧。每个帧都用高质量的边界框仔细注释。在数据创建中,我们考虑了 12 个挑战属性以涵盖广泛的视点和场景复杂性,并对这些属性进行注释以促进基于属性的性能分析。为了在微小对象跟踪中提供强大的基线,我们提出了一种新颖的多级知识蒸馏网络 MKDNet,它在一个统一的框架中进行三级知识蒸馏,以有效增强跟踪微小对象的特征表示、辨别和定位能力。在所提出的数据集上进行了广泛的实验,结果证明了 MKDNet 与最先进的方法相比的优越性和有效性。 |
Video-driven Neural Physically-based Facial Asset for Production Authors Longwen Zhang, Chuxiao Zeng, Qixuan Zhang, Hongyang Lin, Ruixiang Cao, Wei Yang, Lan Xu, Jingyi Yu 用于制作令人信服的 3D 动态人脸的生产级工作流程长期以来一直依赖于用于几何和纹理生成、动作捕捉和绑定以及表情合成的各种劳动密集型工具。最近的神经方法使单个组件自动化,但相应的潜在表示不能像传统工具那样为艺术家提供明确的控制。在本文中,我们提出了一种新的基于学习的视频驱动方法,用于生成具有高质量物理资产的动态面部几何图形。由于来自视频的密集时间采样和用于调节潜在空间的显式面部表情控制,两个关键组件是结构良好的潜在空间。对于数据收集,我们构建了一个混合多视图光度捕获阶段,与超快速摄像机相结合以获得原始 3D 面部资产。然后,我们使用单独的 VAE 对面部表情、几何和基于物理的纹理进行建模,该 VAE 具有基于全局 MLP 的跨潜在空间的表情映射,以保留各个属性的特征,同时保持对几何和纹理的显式控制。我们还引入将增量信息建模为物理基础纹理的皱纹贴图,实现动态纹理的高质量渲染。我们展示了我们在高保真表演者特定面部捕捉和跨身份面部运动重定向方面的方法。此外,还可以部署我们的神经资产以及快速适应方案来处理野外视频。此外,我们通过提供有希望的基于物理的编辑结果(如几何和材料编辑或具有高度真实感的皱纹转移)来激发我们显式面部解开策略的效用。 |
Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer Authors Yair Kittenplon, Inbal Lavi, Sharon Fogel, Yarin Bar, R. Manmatha, Pietro Perona 由于联合优化文本检测和识别组件的好处,文本检测端到端方法最近在文献中引起了关注。现有方法通常在检测和识别分支之间有明显的分离,需要对这两个任务进行准确的注释。我们介绍了 TextTranSpotter TTS,这是一种基于转换器的文本定位方法和第一个可以在完全监督和弱监督设置下进行训练的文本定位框架。通过学习每个单词检测的单个潜在表示,并使用基于匈牙利损失的新颖损失函数,我们的方法减轻了对昂贵的定位注释的需求。仅使用真实数据上的文本转录注释进行训练,我们的弱监督方法与以前最先进的完全监督方法相比具有竞争力的性能。 |
Multi-Modal Fusion for Sensorimotor Coordination in Steering Angle Prediction Authors Farzeen Munir, Shoaib Azam, Byung Geun Lee, Moongu Jeon 模仿学习用于学习感觉运动协调,以端到端方式进行转向角预测,需要专家演示。这些专家演示与环境感知和车辆控制数据相结合。传统的基于帧的 RGB 相机是用于获取环境感知数据的最常见的外部感知传感器模式。当用作学习端到端横向控制的单一模式时,基于帧的 RGB 相机已经产生了可喜的结果。然而,传统的基于帧的RGB相机在光照变化条件下的可操作性有限,并且受到运动模糊的影响。事件相机为基于帧的 RGB 相机提供补充信息。这项工作探索了基于帧的 RGB 和事件数据的融合,通过预测转向角来学习端到端横向控制。此外,来自事件数据的表示如何与基于帧的 RGB 数据融合有助于预测自动驾驶车辆的横向控制。为此,我们提出了 DRFuser,一种用于学习端到端横向控制的新型卷积编码器解码器架构。编码器模块在基于帧的 RGB 数据和事件数据以及自注意力层之间分支。此外,这项研究还为我们自己收集的数据集做出了贡献,该数据集由事件、基于帧的 RGB 和车辆控制数据组成。在我们收 |