音频容噪断句处理方法及系统技术方案

技术编号:14534768 阅读:93 留言:0更新日期:2017-02-02 19:58
进行音频容噪断句处理方法及系统,包括:根据音频获取多个分帧段;根据各分帧段的能量值获取能量阈值,根据所述能量阈值,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句,之后对每个独立句进行谱熵分析,获取最后的分析句子。从而解决了现有字幕对应过程中,无法进行自动断句的问题。从而,本发明专利技术既可以处理已经录制好的音视频,也可以处理正在直播的音视频。对于网络直播流,能够自动的将网络直播语音切割,方便后续环节如听写环节并行处理,加快处理时间。

Audio content and system noise segmentation processing method

Audio noise tolerant sentence processing method and system includes obtaining a plurality of frames according to the audio segment; according to the sub frame section of the energy value for energy threshold, according to the energy threshold, to obtain the energy value exceeds the energy threshold Et from the sub frame period; the frame section, with the frame section for the middle frame to the frame in the sentence order before or after sequence frame frame scan, if the pre order and post order frame frame energy threshold is less than the set threshold energy Et, the frame and the middle frame by frame sentence initial sequence into independent sentences, each sentence of independent spectrum entropy analysis, acquisition and analysis of the last sentence. In order to solve the existing subtitle correspondence process, unable to carry out automatic sentence segmentation problem. Therefore, the invention can process the recorded audio and video, and can also process the live audio and video. For the network live streaming, can automatically cut the voice of the webcast, easy to follow the link, such as dictation parallel processing, speed up the processing time.

【技术实现步骤摘要】

本专利技术涉及语音、字幕处理
,尤其涉及进行音频容噪断句处理方法及系统
技术介绍
目前字幕制作领域,主要通过人工进行语音断句,人工语音断句的前提是将语音全部听一遍,在听写的同时通过拍打快捷键来标注一句话的开始点和结束点。由于拍打的延时,所得到的开始点和结束点存在错位,需要手动调整。整个流程需要消耗大量时间。比如,30分钟的音频需要耗时40分钟至1小时的断句时间,生产力极其低下。而在网络直播领域,如果不进行断句,由人工进行听写,很难进行并行化,而人听写的速度会比直播速度慢,无法进行并行化就不能进行实时图文直播。依靠人工断句,由于人工断句的速度也比播放速度慢,也导致难以进行实时直播。
技术实现思路
针对上述现有技术中的缺陷,本专利技术的目的是提供音频容噪断句处理方法及系统。从而解决了现有字幕对应过程中,无法进行自动断句并且噪声高的问题。本专利技术针对课堂录播和网络直播,提出一种智能语音断句的方法,这种方法通过语音分析技术,能够自动快速的分析录制或采集的音频数据,检测得到符合字幕规范的语音片段,节约视音频字幕制作的时间。为了达到上述目的,本专利技术提供如下技术方案:音频容噪断句处理方法,包括:步骤S101,根据音频获取多个分帧段;步骤S102,根据各分帧段的能量值获取能量阈值Ek;步骤S103,根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;步骤S104,从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0-4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率:Pi的计算公式为:则,该帧的谱熵为:H=-Σi=1zPilogPi]]>每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中,如果扫描到语音流的开始或结束,扫描中止;步骤S105,判断所述独立句的帧长是否为设定的短句帧长范围,若是,则将历史存储的短独立句标本与当前独立句进行对比,若匹配度低于设定值,则将独立句标识为噪音句;步骤S106,将所述音频的各分帧段获得的未标识为噪音句的独立句作为音频的断句。在一种优选的实施方式中,所述步骤S101中包括:步骤S1011:接收音频文件;步骤S1012:根据设定的分割时间对所述音频文件进行分割,获取多个分帧段。在一种优选的实施方式中,所述步骤S102中包括:根据各分帧段的能量值的平均值获取能量阈值Ek。在一种优选的实施方式中,所述步骤S103中“若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句单元”的步骤包括:若前序帧或后序帧的能量阀值小于设定能量Et,则判断当前帧与下一帧的间隔时间是否小于设定间隔时间,若是,则将所述句中间帧按帧起始顺序合并成为独立句。在一种优选的实施方式中,步骤S103后还包括:步骤S1031:若所述独立句的帧长超出设定独立帧长,则计算该独立局每帧的谱熵比,以最低谱熵比所对应的帧作为分割点,将上述独立局风格为两个独立句。同时本专利技术还提供了一种进行音频断句的自动拆分系统,包括:分帧单元、能量阀值获取单元、独立句获取单元;谱熵分析单元;所述分帧单元,配置为根据音频获取多个分帧段;所述能量阀值获取单元,配置为根据各分帧段的能量值获取能量阈值Ek;所述独立句获取单元,配置为根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;所述谱熵分析单元,配置为从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0-4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率,Pi的计算公式为:Pi=ViVsum]]>则,该帧的谱熵为:H=-Σi=1zPilogPi]]>每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中,如果扫描到语音流的开始或结束,扫描中止;所述噪音句判断单元,配置为判断所述独立句的帧长是否为设定的短句帧长范围,若是,则将历史存储的短独立句标本与当前独立句进行对比,若匹配度低于设定值,则将独立句标识为噪音句;断句获取单元,配置为将所述音频的各分帧段获得的未标识为噪音句的独立句作为音频的断句。在一种优选的实施方式中,所述分帧单元还配置为:接收音频文件;根据设定的分割时间对所述音频文件进行分割,获取多个分帧段。在一种优选的实施方式中,所述能量阀值获取单元还配置为,根据各分帧段的能量值的平均值获取能量阈值Ek。在一种优选的实施方式中,所述独立句获取单元还配置为,若前序帧或后序帧的能量阀值小于设定能量Et,则判断当前帧与下一帧的间隔时间是否小于设定间隔时间,若是,则将所述句中间帧按帧起始顺序合并成为独立句。在一种优选的实施方式中,还包括:长句判断单元;所述长句判断单元,配置为若所述独立句的帧长超出设定独立帧长,则计算该独立局每帧的谱熵比,以最低谱熵比所对应的帧作为分割点,将上述独立局风格为两个独立句。本专利技术的有益效果为:本方法主要的计算是在时域进行的,计算速度快。针对可能是辅音也可能是噪音的有限局部区域,结合时域与频域进行分析,增加切割的准确度。只需要对少数帧进行耗时的频谱分析,切割速度即快、又准确,同时又有较强的抗噪音特性。用于自动生成语音切割的时间点,可以节约音视频字幕编辑的工作量。设计了一套直接利用现有计算结果,不再进行二次特征计算的切分方法,能够快速进行长句切分,保障不会出现过长的句子,满足制作字幕的需求。使用机器学习方法,对短句子进行判定检测,判定它是否是人音还是噪音,抛弃噪音,进一步提升准确度。本方法既可以处理已经录制好的音视频,也可以处理正在直播的音视频。对于网络直播流,能够自动的将网络直播语音切割,方便后续环节如听写环节并行处理,加快处理时间。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种实施方式中,音频容噪断句处理方法的流程示意图;图2为本专利技术一种实施方式中,音频容噪断句处理系统的逻辑连接示意图。具体实施方式下面将结合本专利技术的附图,对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领本文档来自技高网...

【技术保护点】
音频容噪断句处理方法,包括:步骤S101,根据音频获取多个分帧段;步骤S102,根据各分帧段的能量值获取能量阈值Ek;步骤S103,根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;步骤S104,从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0‑4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率:Pi的计算公式为:Pi=ViVsum]]>则,该帧的谱熵为:H=-Σi=1zPilogPi]]>每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中,如果扫描到语音流的开始或结束,扫描中止;步骤S105,判断所述独立句的帧长是否为设定的短句帧长范围,若是,则将历史存储的短独立句标本与当前独立句进行对比,若匹配度低于设定值,则将独立句标识为噪音句;步骤S106,将所述音频的各分帧段获得的未标识为噪音句的独立句作为音频的断句。...

【技术特征摘要】
1.音频容噪断句处理方法,包括:步骤S101,根据音频获取多个分帧段;步骤S102,根据各分帧段的能量值获取能量阈值Ek;步骤S103,根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;步骤S104,从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0-4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率:Pi的计算公式为:Pi=ViVsum]]>则,该帧的谱熵为:H=-Σi=1zPilogPi]]>每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中,如果扫描到语音流的开始或结束,扫描中止;步骤S105,判断所述独立句的帧长是否为设定的短句帧长范围,若是,则将历史存储的短独立句标本与当前独立句进行对比,若匹配度低于设定值,则将独立句标识为噪音句;步骤S106,将所述音频的各分帧段获得的未标识为噪音句的独立句作为音频的断句。2.根据权利要求1所述的音频容噪断句处理方法,其特征在于,所述步骤S101中包括:步骤S1011:接收音频文件;步骤S1012:根据设定的分割时间对所述音频文件进行分割,获取多个分帧段。3.根据权利要求1或2所述的音频容噪断句处理方法,其特征在于,所述步骤S102中包括:根据各分帧段的能量值的平均值获取能量阈值Ek。4.根据权利要求1所述的音频容噪断句处理方法,其特征在于,所述步骤S103中“若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句单元”的步骤包括:若前序帧或后序帧的能量阀值小于设定能量Et,则判断当前帧与下一帧的间隔时间是否小于设定间隔时间,若是,则将所述句中间帧按帧起始顺序合并成为独立句。5.根据权利要求1或4所述的音频容噪断句处理方法,其特征在于,步骤S103后还包括:步骤S1031:若所述独立句的帧长超出设定独立帧长,则计算该独立局每帧的谱熵比,以最低谱熵比所对应的帧作为分割点,将上述独立局风格为两个独立句。6.进行音频断句的自动拆分...

【专利技术属性】
技术研发人员:胡飞
申请(专利权)人:北京华科飞扬科技股份公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1