解决方案

广播电视内容智能监管系统方案设计

发布日期:2014-04-25 16:58:36  来源:  作者:admin  浏览次数:0

 

0 需求概述
 随着我国广播电视事业的蓬勃发展,尤其是数字广播电视的整体平移推进,广播电视监测业务类型已经从传统信号层异态监测延伸到对节目内容的综合监测。准确及时收听收看广播电视的播出内容,已经成为宣传主管部门、广播电视行政管理部门客观全面的掌握播出情况和社会舆情以及了解和改进广播电视播出效果的重要手段。构建全面、自动、智能的广播电视内容综合监管系统对于确保节目的合法、合规播出和掌握广播电视内容舆情动态具有重大意义。
为了积极贯彻落实国家广电总局61号令、71号文件等精神,切实提高广播电视节目内容的监测分析能力,维护广播电视用户收听收看权益,进一步提升广播电视内容监测水平,有效地做好各种突发事件预警信息发布及其防范应对处置工作,最大限度地降低突发事件造成的负面影响,辽宁省广播电视监测中心拟利用专项资金,建设辽宁省广播电视内容智能监管系统,为省局加强对省内各个播出机构的广播电视节目内容的监管提供更有力的技术支撑和保障。
 
 
1 设计原则
考虑到广播电视智能监管系统具有监测任务数据传输量大,实时性强,对数据安全性、可靠性、一致性要求高的特点,要求采用B/S架构,值班员可在客户端界面上通过IE浏览器进行信息查询、信息处理等工作,各个子系统应当基于统一系统,具体要求如下:
1、可靠性:系统能够长时间稳定运行,信息上报处理迅速。能够对网络故障等问题具有容错性,在故障恢复之后系统能够自动恢复运行,不影响正常使用,平均无故障时间3个月以上。
2、安全性:建立在一个专用网络中,,注重信息和数据的保护与隔离,可保证广播电视监测网系统的安全,具有完善、可靠的系统访问权限机制。
3、先进性:采用先进的视音频智能处理技术和体系结构,不仅满足现在应用的需要,而且要充分考虑到未来技术发展的需要,能够使网络在尽可能长的时期内保证应用的需要。
4、扩展性:系统的建设能满足当前广播电视内容监管工作需要,随着广播电视新技术、新业务的发展,应具有一定的扩充性。系统采用模块化结构,当监测任务增加、监测网点增加和网络规模扩大时,通过增加相应的系统模块,就能方便地扩大监测网络规模,灵活配置各监测点的功能,满足系统功能、网络带宽和通信容量等方面的需求。
5、实用性:系统设计充分考虑多监测站点、实时性强、中心数据处理的数据量大、查询用户多、高效性强等特点,软件界面的设计按照省级监测中心实际业务操作流程设计,提高系统软件的专业实用性和界面操作的方便性。
6、开放性: 采用开放式操作系统、开放式网络结构及其协议、和开放式的客户/服务器模式,从而实现资源的充分共享,使系统具有良好的互操作性和可移植性。
7、多用户并发及高效数据处理:并发操作用户个数最多100人,对于用户的操作,软件应具有较快的响应速度,在服务端有一万个会话时,其响应速度不得超过5秒。在查询数据的等待过程中有提示信息及进度指示。实时上载节目的自动处理结果输出时间小于20分钟,离线集中上载节目的自动处理结果时间小于数据上载到系统后的3小时,系统必须能够高效快速地处理多个频道的节目数据。
8、兼容性:与中心已有的应用系统软硬件无缝互联,至少能够支持WMV、MP3、H.264、mp4、TS等常见音视频文件格式,提供的输入接口包括存放在磁盘阵列中的音视频数据源以及存放在数据库中的相关音视频信息。
 
2 系统设计
2.1架构设计
广播电视内容智能监管系统的软件架构采用模块化设计原则,每个模块保持一定的功能独立性,在协同工作时,通过相互之间的接口完成实际的任务。模块化设计将功能模块有机地结合起来,在保证正确性和健壮性的基础上,提高了软件的可扩展性和可复用性。系统软件模块架构图1如下:
 
1 广播电视内容智能监管系统软件架构图
系统的软件架构采用分层逻辑结构,整个系统自下到上分为3层:数据采集存储层、数据分析处理层、表示层。
1、数据采集存储层
数据采集存储层主要由两部分组成:
1)数据库以及数据库访问的持久层服务,提供面向对象的,更稳定,更好的数据库访问服务。
2)已有的音视频数据所存放的磁盘阵列,以及文件同步系统,文件同步系统把前端的数据文件拷贝并同步到中心的磁盘阵列上。
2、数据分析处理层
数据分析处理层基于Pattek数字内容计算平台,该平台集成了固定模板检索、语音比对等多项先进的智能处理技术,通过ESB企业级服务总线,为上层“表示层”的系统业务应用提供中间层的服务支撑。
在本系统中,ESB企业级服务总线封装了各服务的差异性,使得所有在总线上通信的服务能够适应于不同的服务使用者,消除了提供中间服务支撑的软件间的差异性,在很大程度上也为系统将来的功能扩展奠定很好的一个基础服务平台,能够很方便地加入新的音视频智能处理服务。
另外,“表示层”可通过服务总线调度分布式集群并行计算环境,在分布式集群并行计算环境中进行音视频内容的智能分析,并将结果输出给“表示层”进行显示,用户可对置信度较低的智能识别结果进行人工编辑审核。
3、功能模块表示层
功能模块表示层负责向数据分析处理层提交任务,通过动态网页与数据分析处理层进行交互以及数据通信,其中包括提交增加,删除,查询,修改,管理等操作,并提供时间轴控件显示音频波形数据,以达到辅助人工快速审核计算机智能处理结果的目的。
功能模块表示层包含的功能子系统主要有:广播电视节目监管、广播电视广告监管和系统管理。
功能模块表示层采用B/S架构,以页面形式将各个功能进行展示,用户可打开客户端界面对系统进行登录和访问。
2.2功能设计
本项目系统主要包括节目监管、广告监管和系统管理三大子系统。
1、总体模块设计
广播电视内容智能监管系统总体功能模块设计如图4所示。
图4  广播电视内容智能监管系统功能模块图
由图中可以看出,系统包含节目监管、广告监管和系统管理三大子系统,而节目监管子系统又包含节目串播单监测、新闻内容监测和节目比对监测三个子系统,整个系统共包含20个功能模块。
2、节目监管系统
节目监管系统的功能流程如下图5所示:
在节目串播单监测子系统中,基于节目片花模板,回收生成节目单,从而实现覆盖监管范围内各频道广播和电视节目按照新闻、涉法涉案、谈话故事、综艺娱乐、青少儿、科教文化、生活服务、广告等类型进行自动分类。
在节目串播单监测子系统中,对回收得到的新闻类、访谈类等节目,自动生成临时监测任务,下发到新闻内容监测子系统中进行语音识别。
在新闻内容监测子系统中,对某些播出时段常年不变的节目,可定义并下发例行监测任务进行语音识别。
人工对语音识别结果进行编辑审核,由于播放器带有图片墙和时间轴,根据镜头切分结果对广告节目进行视频摘要,显示在图片墙上,广播音频生成波形,则显示在时间轴上,融合播放器快进、快退、倍速播放等功能,所以审核时值班员可快速定位审查结果。
对审核后的识别结果进行浏览检索,一方面可基于文本或关键词快速定位检索用户所关心的节目单元,另一方面可基于频道、日期等查询条件进行节目检索。
 
图5  节目智能监管系统功能流程图
3、广告监管
采用视音频模板检索技术、视音频重复性检测技术和游字与挂角字幕检测技术,并基于J2EE技术和DirectShow播放器技术,针对广播和电视节目中播放的广告内容,实现广告的在线自动识别以及广告识别相关的拆分、分类、存储、管理、统计的综合性监管,及时发现有害和违规广告。
广告监管系统主要实现如下功能目标:
(1) 实现覆盖监管范围内各频道广播和电视广告的在线自动识别,并将其自动拆分提取和采集,统计得到各广告的播出时间、次数等,以及各个行业投放广告量。系统还具有游字和挂角广告监测功能。
(2) 对用户审核后的识别正确广告或新广告,可自动添加广告模板,并对模板二次识别,以提高广告识别的查全率和准确率。此外考虑不同值班员建立广告模板可能重复,模板具有自动去重功能,对训练失败的模板可重新训练。
(3) 检索到的广告,经用户审核确认正确后,都可批量下载存储并导出在本地服务器,审核时,提供一键快速审核功能。广告可分类别进行管理和存储,根据违规关键词检索和违规图像视频检索,同时根据61号令所规定播放时间和比例,判断广告在播放时间和频率是否违规,如果用户确认违规,则持续跟踪监测其播出情况,对广告违规播放的最新情况进行告警,并对违规广告视音频后台下载,提取图片进行取证,并提供违规广告的统计分析。
(4) 播放器带有图片墙和时间轴,根据镜头切分结果对广告节目进行视频摘要,显示在图片墙上,广播音频生成波形,则显示在时间轴上,融合播放器快进、快退、倍速播放等功能,便于值班员快速定位浏览或审查广告结果。
(5) 对违规广告进行取证、管理,初步建立广播电视节目广告信息数据库,对违规信息等进行统计分析,为广播电视节目广告的监管工作提供较为全面、准确的监管数据资料。广告统计丰富全面,基于广告播出时间、广告播出次数、广告类别进行统计,实现61号令违规统计和游字与挂角广告统计。
定制了四个用户界面,分别是监测任务管理、广告模板管理、结果编辑审核和广告综合统计界面,实现了对广告监测所需求的全部功能,该子系统的功能流程如下图6所示。
图6 广告监管系统功能流程图
3 关键技术
该系统研究并利用固定音视频模板匹配、音视频指纹比对、视频镜头识别、视频字幕识别、连续语音识别、新闻节目拆条、节目分类、语音检索、游字和挂角广告检测等智能处理技术,这些技术的主要作用如下:
1)固定音视频模板匹配:从一段固定的视音频中提取特征序列,训练成模板,使用该模板,从24小时节目中可快速搜索到广告。
2)视音频特征比对:从视音频节目中提取出视频和音频特征,通过进行特征比对,可以确定不同的视音频在内容上是否一致,有助于实现直播或转播节目的播出质量监测。
3)视频字幕识别:识别节目中出现的标题栏文字,有助于确定新闻条目的名称和节目的主题。
4)连续语音识别:借助于声学和语言模型,把新闻语音识别成文本,有助于从文本中快速搜索出用户所关心的内容。
5)新闻节目拆条:利用镜头识别、字幕识别的结果,综合视频底层音视频特征和高层语义特征,实现新闻节目的拆分。
6)节目分类:利用机器学习的方法学习预先分类好的节目样本,完成分类器设计,然后综合利用节目片段所对应的音视频特征,将新节目自动划分到预先设定的若干个节目类型中,实现新节目的自动分类。
7)语音内容检索:从视音频中搜索用户所关心的关键词,快速找到包含有该关键词的音视频片段,并定位出关键词出现的时间点,给出相应的置信度。
主流单台服务器。系统可达到的技术指标如下:
1)视音频解码同时处理不少于20路节目。
2)基于文本的多关键词检索准确率达到100%,检索速度为秒级;基于音频的关键词检索,准确率达到80%以上;其中对于置信度高于90的结果,准确率大于90%。
3)视音频索引速度大于3倍实时,索引速度不低于10MB/秒,支持索引的动态增量更新。
4)模板检索准确率超过99%,可同时处理40路节目。
5)游字和挂角广告检测的准确率大于80%,处理速度大于10倍。
6)对广告和节目模板,可于后台实时监测,并进行自动去重;对长期未使用的模板,可自动进行删除。
7)视频特征抽取和静态图象摘要自动生成准确率不低于98%。
 
4 系统特点
1、项目系统融合节目单拆分、新闻语音识别、新闻拆条、语音检索、节目内容比对等技术,对电视节目数据进行分类、拆分、识别、检索、比对处理,创建了一种新的节目内容监管工作流程。
2、项目系统应用了多项高水平的视音频智能处理技术,主要包括语音识别、语音检索、新闻节目拆条、模板匹配等,这些技术在实际应用过程中,经过反复优化和不断改进,性能指标显著提高。
3、项目系统应用的数字内容计算平台封装了视频、音频、文本、图像等多种分析引擎插件,对节目和广告进行24小时不间断处理。该平台在安全性、可靠性、可靠性、先进性、兼容性、开放性、可扩展性、高效性等方面都做了完善的设计,成熟度很高。
4、项目系统业务界面友好,贴合业务处理流程,播放器集成波形图和图片墙显示,在数据下载、回放、截取、取证、起止点定位功能易用性好,此外系统在模板、任务、统计等方面管理功能全面,实用性强。