解决方案

广播电视广告智能监测系统的设计与实现

发布日期:2014-04-24 14:52:57  来源:  作者:admin  浏览次数:0

    1 引言
    系统以软件硬件为基础,实现对设定的广播电视节目内的广告自动识别监测,并将监测到的数据送到数据处理系统,对监测到的信息进行分析、处理、统计,存储、打印、报表、查询。
    2 设计原则
    考虑到广播电视广告智能监测系统具有监测任务数据传输量大,实时性强,对数据安全性、可靠性、一致性要求高的特点,依据《全国广播电视监测网“十五”计划和2010年远景规划》(讨论稿)、广电总局《广播电视监测台建设标准》、广电总局第61号令《广播电视广告播出管理》,本系统在总体规划的基础上,总体设计将采取以下原则:
    1、可靠性:系统能够长时间稳定运行,设备监测指标准确,信息上报处理迅速。
    2、安全性:建立在一个专用网络中,可保证广播电视监测网系统的安全,具有完善、可靠的系统访问权限机制。
    3、先进性:采用先进的视音频智能处理技术,不仅满足现在应用的需要,而且要充分考虑到未来技术发展的需要,能够使网络在尽可能长的时期内保证应用的需要。
    4、前瞻性:系统硬件、软件结构的模块化依据监测业务功能、技术现状与发展趋势进行细致划分,保证系统构建的灵活性,能满足不同信号源监测、增加监测任务等新业务时,可以比较简单与可靠地加入原有系统。
    5、高效性:系统结合监测实际操作业务流程,在同一界面上完成所有实时监测业务,保证系统操作具有较短的响应时间,从而保证监测实时性、高效性。
    6、实用性:系统设计充分考虑多监测站点、实时性强、中心数据处理的数据量大、查询用户多、高效性强等特点,软件界面的设计按照省级监测中心实际业务操作流程设计,提高系统软件的专业实用性和界面操作的方便性。
    7、开放性: 采用开放式操作系统、开放式网络结构及其协议、和开放式的客户/服务器模式,从而实现充分的资源共享,使系统具有良好的互操作性和可移植性。
    8、扩展性:系统的建设能满足当前广播电视安全监测工作需要,随着广播电视新技术、新业务的发展,应具有一定的扩充性。系统采用模块化结构,当监测任务增加、监测网点增加和网络规模扩大时,通过增加相应的系统模块,就能方便地扩大监测网络规模,灵活配置各监测点的功能,满足系统功能、网络带宽和通信容量等方面的需求。
    3 系统设计的重点和难点
    1、多路节目数据实时采集:使用海康录像机,对7路电视节目数据实时采集存储,努力保证数据的信号质量和数据的完整性。
    2、满足多种业务需求:系统不仅对已知模板的广告进行检索,而且对新广告有自动发现功能,而且可自动检测游动字幕、挂角和短信互动等多种非硬性广告形式。
    3、高度自动化:系统提供结果置信度信息,高置信度结果的准确率高达99%以上,少量人工辅助即可完成对低置信度结果的确认和审核。
    4、性能要求:在小于500个广告模板规模下,单频道实时处理速度高于100倍实时,广告模板检索准确率高于99%;不使用模板,非硬性广告检出准确率高于85%;不使用模板,新广告发现准确率高于90%。
    4 物理架构设计
    广播电视广告智能监测系统的物理架构如图1所示。整个物理架构主要包括两大部分,一部分为图中左下虚线所覆盖的区域,该部分是广播电视数据采集与存储系统,另一部分为图中右上虚线所覆盖的区域,该部分是广告智能监测系统的核心计算服务器组。
    4.1 数据采集与存储
    使用卫星接收机把广播电视信号接收进入机顶盒转成模拟信号,然后通过海康录像机对多路模拟广播电视节目进行实时采集转码后,存储到存储服务器所托管的磁盘阵列中。数据压缩成mp4格式,每小时数据约350M,同时把每个文件所对应的频道、采集起止时间等信息写入数据库中。
    4.2 核心计算服务器
    系统主要包括3个视音频处理与计算服务器,用于处理计算海量视音频数据:
    (1)视音频数据预处理服务器: 用于部署视音频数据预处理计算节点,对视音频数据进行解码、特征提取等操作。
    (2)模板广告检索服务器:用于部署广告检索的计算节点,基于广告模板进行广告检索,并对新广告进行自动发现。
    (3)非硬性广告检测服务器:用于部署非硬性广告检测计算节点,对游字、挂角等非硬性广告进行检测。
    4.3 应用服务器
   系统应用服务器主要包括WEB及后台工具服务器和数据库服务器,主要用于:
    (1)集群调度:用于部署计算节点的调度器,分别对以上3个计算服务器的计算节点进行管理与任务调度。
    (2)工具服务:用于后台服务程序,如任务下发、广告下载、模板下载训练、系统监控、数据同步、历史文件清理等。
    (3)Web应用:用于部署客户端的Web服务程序,为客户端浏览器提供Web服务,提供各个处理业务的界面功能,以及运行业务流程的相关服务与组件。
    (4)数据库:用于部署系统的数据库服务,存放系统的管理数据以及视频处理的结果信息,另外,数据库服务器同时也是计算节点、调度器与Web服务应用层的交互接口。



 图1  广播电视广告智能监测系统物理架构图

 

    5 计算平台及其关键技术
    在广播电视广告智能监测系统中,视音频计算平台是核心,平台具有统一的引擎接口,可根据业务需要扩展封装具有不同功能的计算节点,而这些计算节点则集成采用了固定模版匹配、重复性片段检测、固定区域检测等多项业界领先的视音频智能处理技术。
    5.1 计算平台架构【1,2】
    视音频计算平台是一个成熟的产品,已经成功应用于多个海量数据处理产品中。该平台针对海量数据的处理,使用了业界标准的网格计算框架Globus,如下图2所示。
Globus可以将各种计算任务封装成为插件,然后做成标准的网格服务,配置在框架之中,成为网格平台的一部分。应用层可以通过框架提供的标准接口,将计算任务传递给调度器。调度器能够自动地提交计算任务到合适的服务,调用计算引擎,最后返回结果。该网格计算框架能够很好地利用硬件的计算能力,保证系统的高效率,同时具有各种优秀的特点,具体包括:
    (1)强大的动态负载均衡能力
把系统整个大任务分解成多个单一小任务,由调度器根据优先级分发给不同的计算节点进行处理,分发时,调度器会自动衡量每个计算节点服务器当前的工作状况和负载压力,做到集群负载动态均衡,使得整个平台计算压力达到平衡。


 
图2 计算平台网格计算架构

   (2)良好的可扩展性
    由于本系统的处理任务具有独立性强的特点,使得该系统特别适合于运行在网格计算平台之上。由此,带来了网格计算的良好可扩展性。该性能保证了该系统的以下特点:对于处理海量数据的大规模应用,在数据量增长,需要增强计算能力的场合,该系统可以简单的通过添加硬件处理设备(计算机),使得其数据处理能力得到近似于线性的增长。实际上,该系统的计算能力可以通过重复配置多个容器组,多个调度器组,从而得到近似于无限制的扩张(实际上还受限于网络带宽)。
    (3)可信赖的稳定性
    网格计算平台的核心代码是使用业界标准的Globus,采用Java实现。Java平台具有很高的稳定性,在国际上被广泛应用,因此,本系统也同样具有可信赖的稳定性,完全有能力在长时间、大负荷的多媒体计算任务上保证系统的可用性。
    (4)成熟的业务扩充能力
    该系统实现了针对标准网格平台计算引擎插件体系。该体系使得各种不同业务的计算要求(语音文本标注、说话人标注等)可以在不影响系统正常运行的情况下方便地添加和卸载;对于新的业务计算要求,只需要针对该体系开发相应的插件就可以方便地配置入系统。此特征可以使得该系统的业务能力能够得到方便的增减。
    (5)LAN / WAN自适应性
由于采用了标准的WSRF网格容器,使得该网格平台不仅可以像传统的集群计算一样运行在LAN上,还可以运行在WAN上,从而使得该系统的可扩展性在网络拓扑上得到进一步的保证。
    (6)优秀的安全性
    为了保证该平台的安全性,尤其是在WAN上运行的时候,该平台可以通过PKI的认证机制,方便有效地保证有效合法的通信请求,从而使得该系统也具有优秀的安全性能。
    (7)方便的升级能力
    由于该系统使用的是标准的网格容器,因此,只需要通过升级网格容器就可以方便地升级网格平台,从而可以方便地获得更好的容器性能、更多优秀的网格计算特性。对于计算引擎,由于是采用插件形式,所以只需要更换插件就可以获得升级后的计算引擎所提供的服务。
    5.2 广告模板检索技术【3,4】
    广告本身是一小段固定视音频数据,视音频指纹可看作是这一小段视音频数据本身的一个短小的总结。通过某种数学函数的映射,可将数据冗余较大的视音频波形空间映射到指纹空间,从而训练得到广告模板,这不仅大大减少了数据存储量,而且使得广告模板的检索速度更快。
当广告模板的视音频指纹模板建立后,就可在海量的广播电视节目中快速检索定位相似或相同的广告。基于视音频指纹模板的广告模板检索技术流程如下图3所示。
 



 

图3 基于视音频指纹的广告模板检索技术流程图

    该技术的鲁棒性很强,主要体现在同一个广告模板可适用于不同频道的广告监测中,而不降低性能。
    5.3 新广告发现技术【5】
    通常广告一天会重复播放很多次,为此首先利用视音频指纹固定模板在广播电视节目数据中搜索一遍已知的广告,并将搜索出来的结果片段从节目数据中去除,然后基于音频向量空间模型的重复性计算,得到重复性片断候选,在此基础上,利用这些候选重复段中的视频信息,如视频图像帧序列相似度、视频图像帧的变化率进行二次确认,从而快速定位搜索到重复片段的候选位置。
该技术的流程如下图4所示。


 
图4 视音频快速重复性检测技术流程图


     5.4 非硬性广告检测技术【6,7】
    在电视节目中,挂角广告和游字广告各有不同的特点,为此使用不同的方法可进行检测,检测方法流程图如图5所示。
    挂角广告具有处于特定区域、图像内容基本不变或有限变动、持续时间固定等特点,为此首先设定感兴趣的区域,并计算图像的运动向量,当图像象素点不变时,运动向量值为0,当象素点为变化点时,其运动向量值为非0;然后对运动向量进行长时中值平滑,以过滤运动向量监测噪点;最后,根据运动向量信号序列,判断挂角广告的位置和出现时间段。
    游字广告具有处于特定区域、文字区域带边框,动态文本,持续滚动显示等特点,为此首先监测视频图像中的文字,包括静态文字和动态文字;然后,计算该视频对应的运动向量信号,该信号也可视为一个视频,在该运动向量视频上再次检测文字,检测出的文字对应于原视频图像中的动态文字;对两个视频的检测结果进行交集检测和确认,并得到视频图像的滚动文字区域面积;对滚动文字区域面积信号进行平滑,然后判断滚动字幕出现的时段。
 




图5 挂角和游字广告检测技术流程图


    6 系统功能设计
    广告智能监测系统主要包括广告监测和系统管理两个子系统,功能详细设计如下:
    6.1 广告监测子系统
     广告监测子系统主要有4个功能模块,分别是监测任务管理、广告模板管理、结果编辑与审核和统计分析。
    (1)监测任务管理
    对某个频道,系统自动创建例行监测任务,然后由下发程序自动创建每天的广告模板监测子任务,用户可以进行任务的查询、重启或停止。
    (2)广告模板管理
    用户可根据过滤条件浏览查询广告模板,并对广告模板进行回放、修改、删除、分配频道等操作。用户可以添加、修改、删除某个广告类别,对广告类别进行管理。
    (3)结果编辑与审核
    用户可选择媒体,对某一天某个频道所监测到的广告结果进行编辑和审核,以确认某个结果是否是正确的广告或新广告。不同类型的广告以不同的颜色标记显示,编辑过程中可修改某个广告的标记位置,审核过程中则可删除某个广告的标记,此外还可以重新标记新广告位置,并重新训练再检索。
    (4)统计分析
    用户可以浏览查看一段时间内某个频道的广告明细和广告的投放次数、时长,以及不同行业的投放次数分布等统计信息。此外,系统可统计61号令的相关统计。这些统计都可自动生成报表,并打印出来。
    6.2 系统管理子系统
    系统管理子系统主要包括5个功能模块,分别为用户管理、频道管理、设备管理、日志管理和异常管理,只有管理员才能访问该子系统。
    (1)用户管理
对用户进行增加、删除、修改、查询,并由管理员分配给用户不同的操作权限。
    (2)频道管理
对频道进行增加、删除、修改,查询。
    (3)设备管理
对系统后台所有设备进行配置管理,设备统一纳入现有运行监测系统的安全机制,每台服务器均安装网络防病毒软件。
    (4)日志管理
    对一段时期的用户操作日志进行查询,用户操作日志主要针对用户编辑审核的相关操作,包括用户名称、操作内容、操作时间等。操作日志统一保存在数据库中,自动添加,用户只可查询,不可删除和修改。
    (5)异常管理
    对一段时期的异常记录进行查询,这些异常主要包括系统后台服务程序和服务器网络状态的监控信息等。
    7 结束语
    广告智能监测系统应用了多项视音频智能处理技术,自动化程度很高,值班人员仅仅需要对低置信度结果进行审核即可,大大减轻了人工工作量,应用以来,取得了良好的经济和社会效益。未来随着监测中心数字化改造完成后,系统将在监测频道规模方面大大提高,此外,非硬性广告的形式较多,系统需要在提高非硬性广告检出方面做进一步研究。