优酷端侧弹幕穿人技术实战之:PixelAI移动端实时人像分割

一. 业务背景

随着各大视频平台相继推出弹幕穿人功能,广受好评。在大众消费视频的同时,大大增加了观看的娱乐互动性。接着,其他视频、动漫、阅读等内容平台也都增加了弹幕功能。弹幕已经成为一种重要的内容互动的手段。
优酷作为视频消费为主的业务平台,也针对相关爆款视频,推出了服务端分割技术主导的弹幕穿人功能。服务端分割功能稳定,识别精度高,但存在一定的存储和带宽成本,且无法满足实时的特效,特别是爆款视频,时效性要求特别高。因此,优酷视频弹幕穿人业务对移动端的人像分割技术有强烈的需求。
请添加图片描述

针对优酷弹幕穿人业务,设计了实时性和精度都较高的移动端人像分割模型,加上淘系PixelAI SDK的加持,将人像分割技术上线到优酷移动端弹幕穿人业务。本文将从算法和工程两个方面,详细阐述解决方案。

二. 显著人像分割

优酷弹幕穿人,主要用于视频中显著人像的分割,对于非聚焦区域的人物和背景都无需分割。移动端和服务端模型的设计有很大区别,服务端精度要求高于实时性,因此模型的设计可以更大,对于输入的尺寸要求也可以更大。而对于移动端而言,模型的设计需要精准到每个模块的设计和耗时需求,因此首先需要和业务明确显著人像的定义。显著人像除了指镜头下聚焦的区域外,还需要明确人物的尺寸比例。在明确算法需求的前提下,进行数据采集,打标,模型设计以及训练优化。
1.构建数据集
团队经过了几年的分割沉淀,已经拥有了百万级的人像分割数据,且服务了集团的钉钉和淘系相关业务。
针对优酷特殊的场景需求,将视频场景划分为了:现代都市剧,古代剧,军事题材。在不同的题材中,有针对显著人像的特征,分为了:半身、全身、单人、多人,以及人体不同的姿态。由于影视作品中有很多特殊效果镜头,会影响算法的分割效果,所以针对这些特效,我们还专门收集了一些长尾的数据,比如逆光、暗光、伸手等场景,可以提高模型的鲁棒性。最终,我们使用了百万级的训练数据。
在这里插入图片描述

2.模型设计
2.1 轻量化网络研究

目前常用的轻量化网络模型有mobilenet系列、shufflenet系列,ghostnet系列等,但是这些学术界的移动端模型离实际的移动端应用还相差甚远,特别是运行时效上完全不能达到业务需求。针对这一问题,我们在集团的MNN移动端推理框架下,从算子执行时间,不同模块执行效率,不同网络效率三个维度在CPU和GPU模式下进行了对比实验,结果如下图所示:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

通过网络参数控制变量实

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值