解决方案

中短波广播语音综合处理方案设计与系统实现

发布日期:2014-04-25 16:56:03  来源:  作者:admin  浏览次数:0

 

1 前言

随着我国对外多语种、中短波广播节目的日益丰富和发展,如何自动地监测和评估这些节目的播出信号质量,以及及时地判断这些节目是否存在空播、漏播、或错播等异态事件,已经成为我们必须解决的一个现实问题。

目前,我国广播监测的手段已经由传统依靠人工操作过渡到计算机辅助监测,基本达到了设备控制的自动化和广播信号采集的数字化、信息化和网络化,并实现了部分简单异态事件监测的自动化,但这种主要依靠人工的监测方法,当站点很多、异态较多时,人工很难在短时间内完成监测。

最近几年,随着我国在境内外广播监测站点和网络的大力建设,监测业务规模开始向深度和广度不断发展,建设一套智能化的广播语音综合处理系统,提高对各类异态应急处理的实效性和准确性,对于提高广播服务技术质量和维护空中电波秩序具有非常重要的意义。

2 功能需求

中短波广播语音综合处理系统的核心功能是监测国际台广播落地后,大众听到的节目是否与对外播出时节目和语言一致,如果不一致,确认信号的可听度、干扰强度、及语言等,为此需要完成基于录音文件的自动评估、实时语音语种识别、台名与呼号辅助识别三个主要功能,具体任务是:

1、基于录音文件的自动评估

对站点采集的各频次语音数据进行自动评估,输出判断结果及其置信度。其中:

1)质量评估结果:停播、错播和空播;

2)效果评估结果:评分结果为5分制,其中3分以上直接打分3/4/53分以下给出s1/s2形式评分(s1:广播台可听度0~5渐强,s2:干扰情况0~5渐弱),并判断噪声种类(背景噪声或同邻频语音干扰)和干扰强度;

3)语种评估结果:在错播异态条件下,且s23分以下时,自动给出错播语种的候选结果及其置信度;

2、实时语音语种识别

针对实时采集的数据文件,应能够判断是否按照预定的语言进行播出。如果没有按照预定语言播出,则进行报警,并显示应当播出的语种、实际播出的语种等信息。

3、台名与呼号辅助识别

可以对站点采集到的含有外台台名及呼号的录音文件进行台名与呼号识别。

3 方案设计

3.1 设计原则

考虑到综合处理系统具有监测数据处理量大,实时性强,对数据安全性、可靠性、准确性要求高的特点,并结合海外机房现有网络传输条件,确定以下设计原则:

1、可靠性:系统能够长时间稳定运行,设备监测指标准确,信息上报处理迅速,达到系统的最大平均无故障时间;

2、先进性:采用先进的音频智能处理技术,提高处理的准确性和实时性,而且充分考虑到未来技术发展的需要,力争超前设计。

3、安全性:建立在一个专用网络中,注重信息和数据的保护与隔离,可保证广播监测网系统的安全,具有完善、可靠的系统访问权限机制;

4、模块化:系统采用模块化设计和面向服务的构架,当监测任务增加、监测站点增加和网络规模扩大时,通过增加相应的功能模块,就能方便地扩大监测规模。

5、开放性: 采用开放式操作系统、开放式网络结构及其协议、和开放式的客户/服务器模式,从而实现充分的资源共享,使平台具有良好的可移植性。

3.2 系统物理架构

中短波广播语音综合处理系统的物理架构如图1所示,整个物理架构主要包括四部分。

1  中短波广播语音综合处理系统物理架构图

1、数据回传存储

对远端各站点实时采集或历史采集的中短波广播数据,根据任务设置要求和定时回传机制,把数据回传存储到机房的磁盘阵列中进行保存。

2、参考源节目采集存储

使用卫星接收机把广播信号流接收并接入组播设备,然后通过存储服务器对广播节目组播流进行实时采集和存储,以便与回传回来的数据进行比对。

3、核心计算

系统主要包括4类音频处理与计算服务器,用于处理计算回传回来的音频数据文件:

1)音频数据预处理服务器: 用于部署音频数据预处理计算节点,对音频数据进行解码、特征提取、音频分类等处理。

2)台名识别服务器:用于部署台名识别的计算节点,基于台名模板进行台名检索。

3语种识别服务器:用于部署语种识别计算节点,对45种语言进行自动辨识。

 4)信号评估服务器:用于部署信号评估计算节点,对信号质量和效果进行自动评估。

4、系统应用

系统应用服务器主要包括WEB、集群调度、运行图同步、数据库等服务器,其中:

1)集群调度:用于部署计算节点的调度器,分别对以上4类计算服务器的计算节点进行管理与任务调度。

2)其他应用:模板训练、系统监控、历史文件清理等。

3Web应用:用于部署客户端的Web服务程序,为客户端浏览器提供Web服务,提供各个处理业务的界面功能,以及运行业务流程的相关服务与组件。

4)数据库服务器:用于部署系统的数据库服务,存放系统的管理数据以及视频处理的结果信息,另外,数据库服务器同时也是计算节点、调度器与Web服务应用层的交互接口。

5)运行图同步:同步广播频率的语言运行图。

以上各类服务器均可为主流机架式计算机物理部署,服务器之间通过千兆局域网互连。用户业务系统在基于J2EEWeb服务器管理下,实现多用户并发数据访问。

3.3 技术处理流程

为了实现系统所有功能,系统采用了音频分类、语种识别、台名识别、音频比对等多项音频智能处理技术,整个系统技术处理流程如下图所示:

1)从盘阵上读取中短波广播录音文件(mp3格式),根据信噪比等指标,判断语音的可听度得分,得分为5分制,得分越高,信号可听度越好。

2)对语音进行音频分类,判断其中音乐、语音、静音和噪声的比例。如果噪声高于一定门限,则认为信号是空播,如果静音超出一定门限,则可认为信号是停播;否则,

3)基于台名模板对语音进行台名识别,如果识别到台名,则根据台名自动关联其语言、节目;否则

4)与参考源节目进行比对,给出效果评估得分,如果是某个参考源节目,则自动关联语言、节目;否则

5)判断其中语音比例,如果比例低于门限,则无法进行语种识别,直接给出“话少”结果;否则

6)基于语种模型进行语种确认,如果确认是该语言,则给出其置信度,否则进行语种识别,给出前5名的识别候选结果和置信度。

2 系统技术处理流程图

5 系统测试效果

系统训练了45种语言的模型,总训练数据量为2304小时,平均每种语言的训练数据约51小时,最多的是汉语和英语,约100小时,最少的是客家话,约30小时。

测试集与训练集没有重叠数据,包含了全部45种语言的测试数据,共25107个文件,每个文件分别读取前20秒、30秒、45秒、60秒、80秒、110秒和120秒进行识别,测试结果如下图所示,由图中可以看出:话音时长在30秒以下鲁棒性不够,性能较差,20秒的性能仅达到88.87%110秒以上性能基本稳定,平均正确率达到98.41%

从测试结果可以认为,该系统完全有能力满足实际监测的需要。

3 不同有效数据时长的语种识别正确率