语音端点检测方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29936104 阅读:18 留言:0更新日期:2021-09-04 19:12
本发明专利技术提供一种语音端点检测方法、装置、电子设备和存储介质,其中方法包括:获取语音数据流的实时转写文本,以及语音数据流的语音段;基于实时转写文本的语义特征,以及语音段的语音特征,对语音段进行静音检测,得到语音段的静音检测序列;基于语音段的静音检测序列,对语音数据流进行语音端点检测。本发明专利技术提供的方法、装置、电子设备和存储介质,为静音检测提供语义特征作为参考的同时,兼顾了语音端点检测的运行效率,有助于实时的、低功耗的语音端点检测的实现。静音检测结合了语音特征和语义特征,能够大大提高语音端点检测的抗干扰能力,过滤无具体语义或者语义无关的语音片段,避免误触发导致人机交互过程提前中断的问题。题。题。

【技术实现步骤摘要】
语音端点检测方法、装置、电子设备和存储介质


[0001]本专利技术涉及语音交互
,尤其涉及一种语音端点检测方法、装置、电子设备和存储介质。

技术介绍

[0002]为了实现基于语音的人机交互功能,通常会通过语音端点检测(Voice Activity Detection,VAD)技术识别一段语音中的语音端点,由此得到有效语音段以执行后续操作。
[0003]相较于传统VAD技术,人机对话场景下的VAD难点在于不仅需要更准确地过滤掉人声无关的噪声,还需要根据用户回答的语义内容过滤掉没有明确语义信息或者和当前场景内容无关的回答内容,对其不做响应。
[0004]目前的VAD技术仅能够对于人声/非人声进行检测,并不能分析语音中包含的语义信息,在复杂场景下可能会将环境噪声或者认为噪声错误判断为正常人声,由此得到的有效语音段中包含大量无意义的内容,导致人机交互过程提前中断。此外,在后续语音处理中引入大量无意义的内容,会增加系统运行延时和不必要的功耗,影响交互体验。

技术实现思路

[0005]本专利技术提供一种语音端点检测方法、装置、电子设备和存储介质,用以解决现有技术中语音端点检测仅能够对于人声/非人声进行检测,导致运行延时、功耗增加和交互提前中断的问题。
[0006]本专利技术提供一种语音端点检测方法,包括:
[0007]获取语音数据流的实时转写文本,以及所述语音数据流的语音段;
[0008]基于所述实时转写文本的语义特征,以及所述语音段的语音特征,对所述语音段进行静音检测,得到所述语音段的静音检测序列,所述静音检测序列表示所述语音段中若干个连续片段为活动语音或静音;
[0009]基于所述语音段的静音检测序列,对所述语音数据流进行语音端点检测。
[0010]根据本专利技术提供的一种语音端点检测方法,所述基于所述实时转写文本的语义特征,以及所述语音段的语音特征,对所述语音段进行静音检测,得到所述语音段的静音检测序列,包括:
[0011]对所述语音段的内容特征进行字符解码,将字符解码结果确定为所述静音检测序列;
[0012]所述内容特征是融合所述实时转写文本的语义特征和所述语音段的语音特征得到的。
[0013]根据本专利技术提供的一种语音端点检测方法,所述对所述语音段的内容特征进行字符解码,包括:
[0014]基于所述语义特征和当前解码时刻的解码状态,对所述语音特征进行注意力转换,得到所述当前解码时刻的语音上下文特征;
[0015]基于所述当前解码时刻的语音上下文特征,确定所述当前解码时刻的内容特征;
[0016]基于所述当前解码时刻的内容特征进行字符解码,得到所述当前解码时刻的解码结果;
[0017]其中,所述当前解码时刻的解码状态是基于上一解码时刻的解码状态和解码结果确定的,所述字符解码结果为最终解码时刻的解码结果。
[0018]根据本专利技术提供的一种语音端点检测方法,所述基于所述语义特征和当前解码时刻的解码状态,对所述语音特征进行注意力转换,得到所述当前解码时刻的语音上下文特征,包括:
[0019]基于所述语义特征和当前解码时刻的解码状态,确定所述语音特征中每一帧特征的注意力权重;
[0020]基于每一帧特征的注意力权重,对每一帧特征进行加权融合,得到所述当前解码时刻的语音上下文特征。
[0021]根据本专利技术提供的一种语音端点检测方法,所述基于所述语音段的静音检测序列,对所述语音数据流进行语音端点检测,包括:
[0022]基于所述语音段的时长和所述静音检测序列的长度,确定所述语音段中各片段的时间边界;
[0023]基于所述语音数据流中各语音段的静音检测序列和各片段的时间边界,对所述语音数据流进行语音端点检测。
[0024]根据本专利技术提供的一种语音端点检测方法,所述获取语音数据流的实时转写文本,包括:
[0025]基于所述语音数据流中各语音帧的音频能量,对所述语音数据流进行静音片段过滤;
[0026]对静音片段过滤后的语音数据流进行实时转写,得到所述实时转写文本。
[0027]根据本专利技术提供的一种语音端点检测方法,所述语音数据流的起始点为上一有效语音片段的尾端点。
[0028]本专利技术还提供一种语音端点检测装置,包括:
[0029]数据获取单元,用于获取语音数据流的实时转写文本,以及所述语音数据流的语音段;
[0030]静音检测单元,用于基于所述实时转写文本的语义特征,以及所述语音段的语音特征,对所述语音段进行静音检测,得到所述语音段的静音检测序列,所述静音检测序列表示所述语音段中若干个连续片段为活动语音或静音;
[0031]端点检测单元,用于基于所述语音段的静音检测序列,对所述语音数据流进行语音端点检测。
[0032]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述语音端点检测方法的步骤。
[0033]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音端点检测方法的步骤。
[0034]本专利技术提供的语音端点检测方法、装置、电子设备和存储介质,通过实时语音识别
获取语音数据流的实时转写文本,在为静音检测提供语义特征作为参考的同时,兼顾了语音端点检测的运行效率,有助于实时的、低功耗的语音端点检测的实现。静音检测结合了语音特征和语义特征,能够大大提高语音端点检测的抗干扰能力,过滤无具体语义或者语义无关的语音片段,避免误触发导致人机交互过程提前中断的问题。以静音检测序列整体表示语音段中各片段的静音检测结果,相较于语音帧级别的静音检测,能够进一步应对噪音干扰,保证语音端点检测的可靠性。
附图说明
[0035]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1是本专利技术提供的语音端点检测方法的流程示意图;
[0037]图2是本专利技术提供的语音端点检测方法中步骤120的流程示意图;
[0038]图3是本专利技术提供的语音端点检测方法中步骤130的流程示意图;
[0039]图4是本专利技术提供的语音端点检测方法中步骤110实时语音识别的流程示意图;
[0040]图5是本专利技术提供的语音端点检测方法的流程示意图;
[0041]图6是本专利技术提供的语音端点检测装置的结构示意图;
[0042]图7是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0043]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音端点检测方法,其特征在于,包括:获取语音数据流的实时转写文本,以及所述语音数据流的语音段;基于所述实时转写文本的语义特征,以及所述语音段的语音特征,对所述语音段进行静音检测,得到所述语音段的静音检测序列,所述静音检测序列表示所述语音段中若干个连续片段为活动语音或静音;基于所述语音段的静音检测序列,对所述语音数据流进行语音端点检测。2.根据权利要求1所述的语音端点检测方法,其特征在于,所述基于所述实时转写文本的语义特征,以及所述语音段的语音特征,对所述语音段进行静音检测,得到所述语音段的静音检测序列,包括:对所述语音段的内容特征进行字符解码,将字符解码结果确定为所述静音检测序列;所述内容特征是融合所述实时转写文本的语义特征和所述语音段的语音特征得到的。3.根据权利要求2所述的语音端点检测方法,其特征在于,所述对所述语音段的内容特征进行字符解码,包括:基于所述语义特征和当前解码时刻的解码状态,对所述语音特征进行注意力转换,得到所述当前解码时刻的语音上下文特征;基于所述当前解码时刻的语音上下文特征,确定所述当前解码时刻的内容特征;基于所述当前解码时刻的内容特征进行字符解码,得到所述当前解码时刻的解码结果;其中,所述当前解码时刻的解码状态是基于上一解码时刻的解码状态和解码结果确定的,所述字符解码结果为最终解码时刻的解码结果。4.根据权利要求3所述的语音端点检测方法,其特征在于,所述基于所述语义特征和当前解码时刻的解码状态,对所述语音特征进行注意力转换,得到所述当前解码时刻的语音上下文特征,包括:基于所述语义特征和当前解码时刻的解码状态,确定所述语音特征中每一帧特征的注意力权重;基于每一帧特征的注意力权重,对每一帧特征进行加权融...

【专利技术属性】
技术研发人员:王庆然万根顺高建清刘聪王智国胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1