互联网传播的绝大部分内容都是视频数据。这些视频都是什么内容?是否包含危害公共安全的内容或者不良信息?能否设计一个系统,对实时传输中的视频流与事先收集的样本库进行实时比对,把完全一致的和近似的视频内容挑选出来?实现这个目的的技术即为视频检索。视频检索是一项基础技术,是机器视觉的一个分支。很多应用依赖于视频检索,如视频拷贝检测、视频内容分类、舆情监测和公共安全等。
高性能检索的难度
视频传播和存储的形式是经过编码压缩的数据,即码流。当前普遍使用的压缩编解码标准有H.264和 H.265,具有很好的压缩效果和较快的解码速率。视频码流只要经过一次解码再编码,就会有很大变化,这是因为编码过程有信号失真。如果对视频进行剪辑、编辑、渲染、加字幕、改变分辨率等处理,处理后的视频,即使内容基本相同,其码流也会有很大区别。因此无法根据码流判断视频内容。
对视频的任何改变就会引起再编码,比如改变分辨率、加字幕、加LOGO等。视频可以分解为图像帧。视频检索的问题转化为图像帧比对。
一个高清视频(1080P)用H.264编码后的码流约为6 Mbps,解码后的数据量为720 Mbps。一台高配置的服务器,用解码软件可以同时解码8路1080P视频。提取图像帧特征的常用算法是SIFT和SURF。提取的速度一般为2~4路视频的实时计算。特征检索的性能与样本库的容量有关。传统的K-D树进行大规模高维数据的比对,速度非常慢,可能达不到2路视频的实时比对。如果要对超过8路高清视频进行大规模样本库的检索,视频解码、特征提取和特征检索都有很大挑战。
恒扬数据研发的高性能视频检索(HVR,High-performance Video Retrieval)系统根据性能不同有两种规格(HVR-384和HVR-192)。HVR采用恒扬数据开发的专用硬件,具有业界领先水平。本产品集成了专用SOC硬件芯片实现视频解码,采用最新卷积神经网络CNN技术实现了图像特征计算,运用基于图论的大规模高维度数据搜索算法实现了亿级图像毫秒级搜索的功能,是一个软件和专用硬件结合的高性能解决方案,引领高性能视频和图片检索的最新技术方向。