音频容噪断句处理方法及系统技术方案

技术编号：14534768 阅读：102 留言：0更新日期：2017-02-02 19:58

进行音频容噪断句处理方法及系统，包括：根据音频获取多个分帧段；根据各分帧段的能量值获取能量阈值，根据所述能量阈值，从所述各分帧段中获取其能量值超过能量阈值Et；的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值Et，则将该帧与所述句中间帧按帧起始顺序合并成为独立句，之后对每个独立句进行谱熵分析，获取最后的分析句子。从而解决了现有字幕对应过程中，无法进行自动断句的问题。从而，本发明专利技术既可以处理已经录制好的音视频，也可以处理正在直播的音视频。对于网络直播流，能够自动的将网络直播语音切割，方便后续环节如听写环节并行处理，加快处理时间。

Audio content and system noise segmentation processing method

Audio noise tolerant sentence processing method and system includes obtaining a plurality of frames according to the audio segment; according to the sub frame section of the energy value for energy threshold, according to the energy threshold, to obtain the energy value exceeds the energy threshold Et from the sub frame period; the frame section, with the frame section for the middle frame to the frame in the sentence order before or after sequence frame frame scan, if the pre order and post order frame frame energy threshold is less than the set threshold energy Et, the frame and the middle frame by frame sentence initial sequence into independent sentences, each sentence of independent spectrum entropy analysis, acquisition and analysis of the last sentence. In order to solve the existing subtitle correspondence process, unable to carry out automatic sentence segmentation problem. Therefore, the invention can process the recorded audio and video, and can also process the live audio and video. For the network live streaming, can automatically cut the voice of the webcast, easy to follow the link, such as dictation parallel processing, speed up the processing time.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音、字幕处理
，尤其涉及进行音频容噪断句处理方法及系统。
技术介绍
目前字幕制作领域，主要通过人工进行语音断句，人工语音断句的前提是将语音全部听一遍，在听写的同时通过拍打快捷键来标注一句话的开始点和结束点。由于拍打的延时，所得到的开始点和结束点存在错位，需要手动调整。整个流程需要消耗大量时间。比如，30分钟的音频需要耗时40分钟至1小时的断句时间，生产力极其低下。而在网络直播领域，如果不进行断句，由人工进行听写，很难进行并行化，而人听写的速度会比直播速度慢，无法进行并行化就不能进行实时图文直播。依靠人工断句，由于人工断句的速度也比播放速度慢，也导致难以进行实时直播。
技术实现思路
针对上述现有技术中的缺陷，本专利技术的目的是提供音频容噪断句处理方法及系统。从而解决了现有字幕对应过程中，无法进行自动断句并且噪声高的问题。本专利技术针对课堂录播和网络直播，提出一种智能语音断句的方法，这种方法通过语音分析技术，能够自动快速的分析录制或采集的音频数据，检测得到符合字幕规范的语音片段，节约视音频字幕制作的时间。为了达到上述目的，本专利技术提供如下技术方案：音频容噪断句处理方法，包括：步骤S101，根据音频获取多个分帧段；步骤S102，根据各分帧段的能量值获取能量阈值Ek；步骤S103，根据所述能量阈值Ek，从所述各分帧段中获取其能量值超过能量阈值Et；的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值Et，则将该帧与所述句中间帧按帧起始顺序合并成为独立句；步骤S104，从每个句子的前后两帧分...

【技术保护点】
音频容噪断句处理方法，包括：步骤S101，根据音频获取多个分帧段；步骤S102，根据各分帧段的能量值获取能量阈值Ek；步骤S103，根据所述能量阈值Ek，从所述各分帧段中获取其能量值超过能量阈值Et；的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值Et，则将该帧与所述句中间帧按帧起始顺序合并成为独立句；步骤S104，从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子，则对两个句子进行合并；如果下一帧的能量小于Et，且不属于其他句子，则对该帧进行傅立叶变换，取0‑4000HZ的幅值，按照固定宽度分成z条谱带，每条谱带的强度为Vi,i＝1,2,…z。总强度为Vsum，Pi为每条谱带的概率：Pi的计算公式为：Pi=ViVsum]]>则，该帧的谱熵为：H=-Σi=1zPilogPi]]>每一帧的能量与谱熵的比值为能熵比，记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt，则将该帧归到句子中，如果扫描到语音流的开始或结束，扫描中止；步骤S105，判断所述独立句的帧长是否为设定的短句帧长范围，若是，则将历...

【技术特征摘要】
1.音频容噪断句处理方法，包括：步骤S101，根据音频获取多个分帧段；步骤S102，根据各分帧段的能量值获取能量阈值Ek；步骤S103，根据所述能量阈值Ek，从所述各分帧段中获取其能量值超过能量阈值Et；的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值Et，则将该帧与所述句中间帧按帧起始顺序合并成为独立句；步骤S104，从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子，则对两个句子进行合并；如果下一帧的能量小于Et，且不属于其他句子，则对该帧进行傅立叶变换，取0-4000HZ的幅值，按照固定宽度分成z条谱带，每条谱带的强度为Vi,i＝1,2,…z。总强度为Vsum，Pi为每条谱带的概率：Pi的计算公式为：Pi=ViVsum]]>则，该帧的谱熵为：H=-Σi=1zPilogPi]]>每一帧的能量与谱熵的比值为能熵比，记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt，则将该帧归到句子中，如果扫描到语音流的开始或结束，扫描中止；步骤S105，判断所述独立句的帧长是否为设定的短句帧长范围，若是，则将历史存储的短独立句标本与当前独立句进行对比，若匹配度低于设定值，则将独立句标识为噪音句；步骤S106，将所述音频的各分帧段获得的未标识为噪音句的独立句作为音频的断句。2.根据权利要求1所述的音频容噪断句处理方法，其特征在于，所述步骤S101中包括：步骤S1011：接收音频文件；步骤S1012：根据设定的分割时间对所述音频文件进行分割，获取多个分帧段。3.根据权利要求1或2所述的音频容噪断句处理方法，其特征在于，所述步骤S102中包括：根据各分帧段的能量值的平均值获取能量阈值Ek。4.根据权利要求1所述的音频容噪断句处理方法，其特征在于，所述步骤S103中“若前序帧或后序帧的能量阀值小于设定能量阈值Et，则将该帧与所述句中间帧按帧起始顺序合并成为独立句单元”的步骤包括：若前序帧或后序帧的能量阀值小于设定能量Et，则判断当前帧与下一帧的间隔时间是否小于设定间隔时间，若是，则将所述句中间帧按帧起始顺序合并成为独立句。5.根据权利要求1或4所述的音频容噪断句处理方法，其特征在于，步骤S103后还包括：步骤S1031：若所述独立句的帧长超出设定独立帧长，则计算该独立局每帧的谱熵比，以最低谱熵比所对应的帧作为分割点，将上述独立局风格为两个独立句。6.进行音频断句的自动拆分...

【专利技术属性】
技术研发人员：胡飞，
申请(专利权)人：北京华科飞扬科技股份公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人