技术中心

技术中心

您的当前位置: 首页 > 技术中心 > 核心技术 > 字幕检测识别技术 > 返回

字幕检测识别技术

发布日期:2014-04-24 17:20:40  来源:  作者:admin  浏览次数:0
字幕检测识别技术由图像字幕区域定位、字幕区域增强和文字识别三个部分组成。
多尺度字幕区域定位是利用图像金字塔的概念来达到检测不同大小文字的目的,以解决过大的文字容易检不完整以及过小的文字容易被漏检的问题。
字幕区域增强对于改善一些低质量的视频很有效,利用文字在时序上的冗余来提高待处理文字区域的画面质量,提高其对比度,增加文字和背景的可区分度,从而达到提高字幕提取的准确率的目的。
文字识别采用了一种基于混淆网络的视频OCR语言后处理方法,主要是为了降低文字识别系统输出的错误率。具体来说通过提供OCR识别的若干候选,构建字符转移网格,字符转移网络包括来自具有相同文字信息的连续帧融合结果的OCR输出结果。将字符的后验概率以及由字典训练的统计语言模型结合参与最优结果的搜索,搜索采用Viterbi解码方法融合字识别概率、字N元模型给出最优结果。