解决方案

语音搜索技术在网络视听监测中的应用

发布日期:2014-04-24 13:35:16  来源:  作者:admin  浏览次数:0

    1.前言
    当前,互联网用户规模和技术都在进入快速发展的时期,根据中国互联网络信息中心(CNNIC)发布的《第31次中国互联网络发展状况统计报告》,截至2012年12月,中国网民规模达到5.64亿,较2011年底增加5090万人,我国域名总数为1341万,网站数量为268万。
    随着网络技术的发展和新技术运用的日趋成熟,视听节目在网络文化内容中占据的比重越来越大,传播技术也不断更新。从传统的浏览器/服务器模型(B/S)发展到现在热门的对等网络模型;内容来源从原来的专业制作机构主导发展到用户产生内容(UGC);内容类别从开始的单纯影视类发展到体育、娱乐、新闻等各种类型;平台从单向平台发展到WEB2.0互动分享。
    互联网上除了传播思想健康、内容丰富的视音频节目外,境内部分网站片面追求经济效益,无视政府法规、特别是一些非法网站在互联网上播放、转播、链接含有危害国家安全、淫秽色情、暴力低俗的节目内容,污染了社会环境,毒害了受众,特别是青少年的身心健康。损害了互联网视听节目服务业的长远发展。
    在这些违规节目中,以危害国家安全、违反国家宪法、破坏社会稳定、反动宣传等为主要内容的政治有害类节目,由于链接地址较为隐蔽,节目名称等信息具有很大的欺骗性,给人工监管带来极大的困难和挑战,为此必须寻找一种可行的智能技术解决这一难题。
    2. 技术原理
    语音搜索包含两个重要步骤,分别是语音内容索引和语音检索。在索引阶段,引擎读取爬虫下载的各种格式的视听节目文件,从中抽取特征信息,建立音频内容索引,为后续用户检索提供服务。在检索阶段,根据用户的检索条件,在语音内容索引中查找匹配内容,并返回查找结果。
    语音搜索的技术框图如下图1所示:

    图1基于词图和音素混合网格的语音搜索技术框图
    该技术首先用连续语音识别器生成词图,然后根据识别过程的时间边界信息把词图拆分成音素网格,最终得到一个可检索的词图与音素的混合网络,对网络进行索引,达到快速检索的目的。由于音素网格是由节点和边组成的有向图,包含识别搜索时的主要路径,比识别结果包含更丰富的信息,所以这种方法既有效克服了集外词问题,又保持了检索的高效性。
    为了显著提高内容索引的时效性、降低索引的存储量,同时提高语音检索速度,重点在以下几个方面进行了优化:
    1、静态识别网络的编译和优化:以往在生成音素网格时,其识别网络采用基于词树的动态组织方法,识别过程中无法区分重复路径,因此有大量的重复计算,影响索引的效率。静态识别网络的编译和优化技术针对这一问题进行了改进,用统一的WFST(Weighted Finite State Transducer)结构表示识别中的多层知识源,包括HMM模型、声学决策树、发音词典、语言模型等;编译识别网络时,根据一定的顺序,把多层的WFST结构进行组合,得到一个带权重的从HMM模型到词的映射网络;优化识别网络时,在保持网络中总体路径不变的基础上,对其进行确定化和最小化运算,去除其中的重复路径,并使路径权重前移,以提高识别时的路径裁剪效率。采用优化后的静态识别网络,不但提高了对搜索空间的路径组织效率,而且降低了声学模型的计算数量,该技术使总体的索引速度提高约2.5倍。
    2、基于状态的高斯选择:首先对高斯模型进行量化聚类,保存成高斯码本;识别时,根据输入特征选择合适的高斯码本,只需计算码本中保存的高斯,而不对所有的高斯进行计算,从而降低计算的时间复杂度。该方法在保持系统性能变化不大的条件下,使高斯计算量降低为原来的1/4-1/5。
    3、缓存优化:根据语言模型的回退方式和特点,预先计算出语言模型的预测概率,并保存的缓存文件中;在识别过程中直接对该缓存文件的数据进行查询,可以大大减少语言模型的查询次数。另外,针对目前计算机架构中存在的CPU二级缓存较小,造成内存读写滞后的问题,实现了多帧高斯批量计算技术。
    4、模糊匹配:模糊匹配是指在检索时关键词和索引之间不需要完全精确匹配,而是允许有一定的误差。模糊匹配主要针对的是实际应用中的两个问题:一是实际语音往往带有口音,发音并不标准,比如“zhi”可能发成“zi”;二是识别系统生成的音素网格带有错误的结果。这种不标准的发音或错误的识别结果,往往导致因一个音节不能匹配而导致整个关键词不能检出。为此,一方面加入了声学混淆度矩阵,允许不标准发音和识别结果有替换错误的匹配;另一方面使用动态规整,允许识别结果有插入和删除错误的匹配。该方法大幅提高了长词的检出率。
   5、索引裁剪和压缩:一方面,通过对音素网格进行节点合并、时间点量化、低概率边裁剪等,在保持原有检索精度的情况下,有效的减小了索引条目数;另一方面,将文本检索中的压缩技术应用到语音检索系统中。该方法有效地降低了索引的大小,索引存储减小约1/2。
    经过算法实际验证测试,使用1台HP服务器(Intel Xeon CPU E5620 2.40GHz 16Core 8G RAM),该技术可达到的性能指标为:索引速度约0.13倍实时;索引容量约0.2MB/小时;置信度大于90的新闻类语音关键词,准确率达到96.4%;在索引数据1500小时规模下,单关键词检索时间平均1.4秒,多关键词检索时间平均3.5秒。
    3. 技术应用分析
    一个典型的网络视听节目监测系统在业务流程上至少要包含数据采集、数据分析和结果处理三个组成部分,如下图2所示。

    图2 网络视听节目监测系统业务流程
    其中数据分析是核心部分,数据分析的目地是综合使用文本、视频、音频、图像等智能处理技术,从海量数据中快速准确的发现疑似违规视听节目,提供给监管人员进行审核和取证。只有经过数据分析后,大量违规节目才能被自动发现,否则只把节目数据采集爬取下来,仅靠人工进行排查处理,将消耗大量的人力和物力。
    在大量网络违规视听节目中,政治有害类违规节目通常比较敏感,所以为了逃避监管,用户通常在上传或传播此类节目时,一般不会使用敏感的节目名称或内容介绍,而这大大增加了人工通过网页进行搜索的难度。
    政治有害类违规节目通常以新闻、访谈或讲话类节目居多,使用语音搜索技术可很好地对这类节目进行音频数据分析,尤其是通过定义违规关键词进行语音检索,对危害国家安全、违反国家宪法、破坏社会稳定等政治有害类违规节目的判别非常有效。
    在网络视听节目监测系统中使用语音搜索系统,在对爬虫下载的大量视听节目建立内容索引后,用户输入关键词,系统可快速显示关键词的检索结果,检索结果包含关键词的出现时间、所在节目、置信度等信息。
    系统支持用户一次输入多个关键词,并支持关键词之间的与、或逻辑关系查询,还支持在结果中查询。检索结果可按置信度由大到小排序,置信度越高的结果,通常准确率越高。
下图3为语音搜索系统的搜索结果显示页面,该系统的特点是:
1)最大支持数十万小时量级的语音内容索引和快速检索;
2)强大的集群计算底层支撑,良好的扩展性和稳定性;
3)支持各种常见的网络节目视音频格式(flv、mp4、mp3、wmv、wma、rm、avi等);
4)支持内容索引的动态增量更新,检索结果可以及时反映索引的变化;
5)多种检索输入、多种输出结果排序形式,可根据用户的查询条件自由设定;
6)支持多语种可定制的检索(中文、英文等);
7)灵活的API开发接口,满足多种开发和应用集成环境的要求;

图3 语音搜索系统结果显示
4. 结论
本文针对网络政治有害类违规视听节目的监测,分析了使用语音搜索技术的可行性,根据可行性方案所建设的语音搜索系统已在我台新媒体机房得到实际应用。系统投入使用后,一直稳定运行,检索准确率超过95%,大大减少了违规节目搜索的工作量,提高了工作效率,完全满足互联网监测实际业务的需要。