超级剧透季四: 强监管时代,音视频内容安全审核系统需要具备哪些能力?

发表时间:2021-12-03

  返回列表

几年前,思科曾经预测,音视频资源将在2022年占据所有互联网流量的82%。时至今日,预测逐渐成真。

《2021中国网络视听发展研究报告》显示,截至2020年12月,我国网络视听用户规模达9.44亿,泛网络视听产业规模达6009.1亿。各类互联网音视频每天以超过100亿小时/天的增量在增长。

没人能否认,直播短视频行业的兴起带火了音视频内容的大发展。站在时代的大风口上,各类UP主、KOL、创作达人们,不论是PGC还是UGC,但凡有点内容输出能力的,没谁不是争先恐后、挖空心思要抢占流量制高点。谁都明白,在这个流量为王的时代,有它就代表一切。

对于网络音视频内容创作的空前繁荣,就像魔镜的两面,让人喜忧参半。一方面优秀的作品为用户带来大波内容丰富、形式新颖的音视频佳作,另一方面,那些扮丑作妖、内容恶俗、暴力血腥甚至触碰法律底线的网络垃圾,也大量充斥在网络空间,成为危害人民、甚至动摇国家安全的毒瘤。


净网行动,势在必行

对各大平台而言,图文音视频内容创作野蛮生长的时代早已结束,监管政策趋严是大势所趋,内容安全审核风控的成败已成为卡住平台生死命门的达摩克里斯之剑,稍有不慎,就会陷入万劫不复的境地。

举个最典型的例子,内涵段子,这个曾拥有2.5亿高粘性用户的热门APP,曾经风光无限,但因导向不正、格调低俗等突出问题,被勒令永久下架,彻底凉凉。实际上,抖音、快手、西瓜视频......,几乎所有的网络直播和短视频平台,都曾因为内容安全问题被约谈整改。

这样的形式下,就不难解释,为什么头部平台全都不遗余力,强力推行内容安全审核制度,不断完善运营审核队伍了。

目前,不论是采用先审后发还是先发后审机制,各大平台都离不开机器审核+人工审核这两个关键要素。其中,机器审核作为初筛,对海量数据进行快速审核,划定可疑范围。其特点优势在于覆盖广、标准统一、速度快、迭代更新能力强,结合人工复审,双管齐下,可以做到真正意义上的实时在线审核。

强监管环境下,内容安全机器审核系统需要具备哪些能力?

从产业趋势上看,不同媒体形式的交叉融合正在加快,越来越多的垂直行业也开始参与视听内容的输出,泛媒体化泛娱乐化正在成为共识。更多样化的媒体形式,更快速实时的互动方式和更错综复杂的海量内容,给音视频内容安全监管带来了前所未有的压力。作为内容安全审核的绝对主力,这些变化要求机器审核系统必须走向智能化、高效化、可扩展和自主可控化。

- 算法智能化
传统的内容识别技术以关键字和特征库为代表,以图像处理为例,传统识别方式通过人工设计图像处理算法,完成图像的分析处理。比较具有代表性算法包括均值滤波、图像金字塔、sobel边缘检测算子、LBP算子、sift算法,图像线性插值算法等。这些算法常用于图像的缩放、增强、边缘检测、图像匹配等方向。主要优点是可解析,稳定性好。但缺点也很明显,传统方法无法提取图片中丰富的视觉特征,实现更高层次的语义识别,并且泛化能力差,无法适应丰富多变的应用场景,因此会带来比较大的安全风险和后续人力投入。

要想改善这一结果,必须采用基于自然语言处理、深度学习技术的智能识别技术,通过大量的训练数据积累,规则的不间断更替迭代,持续的工程化开发支持,提升识别率,保证对图片、语音、视频风险监测识别的全覆盖。

- 处理高效化
在直播短视频领域,为取得更好的实时互动效果,平台不仅要尽可能的保障风险和安全,效率和速度也很重要。通常,直播领域会要求画面播出前完成机器审核,直播一般会有数秒的延迟。由于每天新产生的内容量巨大,缩短延迟时间,提升机器审核的处理效率,是对机器审核系统提出的巨大性能挑战。

- 系统可扩展和自主可控化
对数据无法开放,只能在本地存储内容的平台而言,随着数据量的提升,对系统可扩展性和自主可控性的要求势必会提上日程。强大的平台升级和系统弹性伸缩能力可以大量减少重复成本支出,提升ROI投资回报率。

AVA(audio video analyst)音视频内容安全审核一体化解决方案
恒扬数据结合自身在芯片设计及应用,硬件系统开发和软件算法工程化上的能力,为自建内容安全审核系统的客户提供了高效智能审核方案AVA(audio video analyst),对互联网音视频图像进行内容合规性审核和关键目标识别,以图像、视频音频为目标进行检索,实现场景审核检测,提升平台抗风险能力,保障高质量内容输出。目前,AVA已经开发出人脸识别、视频检索、鉴黄、台标识别四大功能模块。

- 神经网络算法,提升系统智能化
AVA音视频智能内容安全审核方案采用软硬协同的一体化方案,软件方面,AVA采用卷积神经网络算法,通过大量的数据训练拟合出最理想的神经网络,利用计算损失函数反向传播不断优化卷积核,最终损失函数收敛,其原理是卷积核对图像数据进行特征提取,不同的卷积核提取不同的特征,如边缘、纹理、颜色空间等特征信息,卷积层越深,提取的特征越抽象,最终实现的推理结果越精准。

经过神经网络算法的图像处理,数据的特征汇聚形成多维信息向量,多维信息构建出索引后可以按照向量对目标进行搜索。对同一目标的搜索匹配出多个结果,按照序列进行匹配,并在多个结果中选择最优解。

目前,AVA智能内容安全审核方案识别准确率可达到99%,召回率大于95%,系统具备鲁棒性强,能识别遮挡、光照变化、表情变化、侧脸等各种复杂情况下的人脸,细粒度对色情和性感内容进行分类识别。同时,系统自带抗干扰功能,可抵抗视频分辨率变化、画面裁剪、片段拼接、灰度变换、加水印、加黑边、加文字、重编码、色彩饱和度变换等变形攻击。 

硬件加速引擎推升处理性能
硬件方面,AVA通过服务器配置硬件加速卡的方式,实现图像处理加速和神经网络加速。当视频被解析成图像后,图像的缩放、裁剪等处理,都由硬件加速卡完成。处理后的数据采用神经网络算法进行识别处理,形成数据的关联图谱。

AVA系统单台整机可同时分析300-400路1080P视频,单机支持上万长视频底库,同时并发480路 1080P视频的实时分析,可并发处理2Gbps的音视频流量。

- 模块化设计+国产化硬件,助力系统可伸缩弹性和自主可控化
根据不同客户需要,AVA提供模块化设计,系统可依据性能、识别要求等进行个性化配置。在关键算法上,AVA兼容自研加速卡、国产寒武纪MLU加速卡、华为昇腾Atlas加速卡等多种方式,通过国产自主硬件加速卡快速实现视频高速解码和神经网络加速,对图像、视频片段、图/帧内关键目标进行搜索分析及合规性检测。