语音处理方法、装置、智能设备及存储介质制造方法及图纸

技术编号:30019442 阅读:18 留言:0更新日期:2021-09-11 06:35
本申请提供了一种语音处理方法、装置、智能设备及存储介质,属于计算机技术领域。该方法包括:对采集到的第一音频数据进行端点检测;在端点检测过程中,若检测到第一语音的起始端点,基于第一语音的起始端点进行语音识别得到第一语音文本信息;基于参考关键词对第一语音文本信息进行检测得到关键词检测结果,参考关键词用于提醒智能设备进行回答;基于关键词检测结果和终止端点检测结果,确定语音结束点。在本申请中,即使采集到的音频数据存在其他用户的语音干扰,也能够结合当前是否存在提醒智能设备进行回答的情况,确定是否到达语音结束点,降低错误确定语音结束点的概率,提高确定语音结束点的准确性。确定语音结束点的准确性。确定语音结束点的准确性。

【技术实现步骤摘要】
语音处理方法、装置、智能设备及存储介质


[0001]本申请涉及计算机
,特别涉及一种语音处理方法、装置、智能设备及存储介质。

技术介绍

[0002]随着语音识别技术、语义理解技术的飞速发展,AI(Artificial Intelligence,人工智能)外呼系统也逐渐成熟,被广泛应用在反诈骗劝阻、回访、营销、客服等场景中,降低了人工成本。
[0003]在AI外呼系统与某一用户进行语音通话时,会通过语音端点检测技术判断该用户的语音是否已经结束,在该用户的语音结束时,进行相应的回答。相关的语音端点检测技术在确定采集到的音频数据中存在语音的情况下,确定该用户的语音未结束;在音频数据中不存在语音的情况下,确定该用户的语音已经结束。
[0004]但是,用户可能在较为嘈杂的环境中进行语音通话,在该用户所处的环境中,还有其他用户在讲话,采集到的音频数据还包括其他用户的语音,其他用户的语音会对语音端点检测造成干扰,在该用户的语音已经结束,但音频数据中一直存在其他用户的语音的情况下,相关技术仍会确定该用户的语音未结束,因此,仅通过判断音频数据中是否存在语音来确定某一用户的语音是否已经结束,不够准确。

技术实现思路

[0005]本申请实施例提供了一种语音处理方法、装置、智能设备及存储介质,能够提高确定语音结束点的准确性。所述技术方案如下:
[0006]一方面,提供了一种语音处理方法,所述方法包括:
[0007]对采集到的第一音频数据进行端点检测;
[0008]在端点检测过程中,若检测到第一语音的起始端点,基于所述第一语音的起始端点进行语音识别,得到第一语音文本信息;
[0009]基于参考关键词对所述第一语音文本信息进行检测,得到关键词检测结果,所述关键词检测结果用于表示所述第一语音文本信息是否包括所述参考关键词,所述参考关键词用于提醒所述智能设备进行回答;
[0010]基于所述关键词检测结果和终止端点检测结果,确定语音结束点,所述终止端点检测结果用于表示所述第一语音的终止端点的检测情况,所述语音结束点用于指示基于所述第一语音文本信息输出回答语句。
[0011]在一种可能的实现方式中,所述终止端点检测结果为第一端点检测结果,所述第一端点检测结果用于表示未检测到所述第一语音的终止端点;
[0012]所述关键词检测结果为第一关键词检测结果,所述第一关键词检测结果用于表示所述第一语音文本信息包括所述参考关键词;
[0013]所述基于所述关键词检测结果和终止端点检测结果,确定语音结束点,包括:
[0014]在所述终止端点检测结果为所述第一端点检测结果,且所述关键词检测结果为所述第一关键词检测结果时,确定到达所述语音结束点。
[0015]在另一种可能的实现方式中,所述终止端点检测结果为第一端点检测结果,所述第一端点检测结果用于表示未检测到所述第一语音的终止端点;
[0016]所述关键词检测结果为第二关键词检测结果,所述第二关键词检测结果用于表示所述第一语音文本信息不包括所述参考关键词;
[0017]所述基于所述关键词检测结果和终止端点检测结果,确定语音结束点,包括:
[0018]若所述终止端点检测结果为所述第一端点检测结果,且所述关键词检测结果为所述第二关键词检测结果,则在所述第一语音文本信息的长度大于长度阈值或者所述第一语音文本信息为语义完整的语句时,确定到达所述语音结束点。
[0019]在另一种可能的实现方式中,所述终止端点检测结果为第二端点检测结果,所述第二端点检测结果用于表示检测到所述第一语音的终止端点;
[0020]所述关键词检测结果为第二关键词检测结果,所述第二关键词检测结果用于表示所述第一语音文本信息不包括所述参考关键词;
[0021]所述基于所述关键词检测结果和终止端点检测结果,确定语音结束点,包括:
[0022]在所述终止端点检测结果为所述第二端点检测结果,且所述关键词检测结果为所述第二关键词检测结果的情况下,若在以所述第一语音的终止端点为起始时间的目标时长内检测到第二语音的起始端点,基于所述第二语音的起始端点进行语音识别,得到第二语音文本信息;
[0023]若从所述第二语音文本信息中检测出所述参考关键词,则确定到达所述语音结束点,所述语音结束点用于指示基于所述第一语音文本信息和所述第二语音文本信息输出回答语句。
[0024]在另一种可能的实现方式中,所述终止端点检测结果为第二端点检测结果,所述第二端点检测结果用于表示检测到所述第一语音的终止端点;
[0025]所述关键词检测结果为第二关键词检测结果,所述第二关键词检测结果用于表示所述第一语音文本信息不包括所述参考关键词;
[0026]所述基于所述关键词检测结果和终止端点检测结果,确定语音结束点,包括:
[0027]在所述终止端点检测结果为所述第二端点检测结果,且所述关键词检测结果为所述第二关键词检测结果的情况下,若在以所述第一语音的终止端点为起始时间的目标时长内未检测到第二语音的起始端点,则在所述目标时长结束时,确定到达所述语音结束点。
[0028]在另一种可能的实现方式中,所述基于所述第一语音的起始端点进行语音识别,得到第一语音文本信息,包括:
[0029]获取当前交互的用户的标识对应的声纹数据;
[0030]基于所述第一语音的起始端点,从所述第一音频数据中获取与所述声纹数据匹配的目标语音数据;
[0031]对所述目标语音数据进行语音识别,得到所述目标语音数据对应的第一语音文本信息。
[0032]在另一种可能的实现方式中,所述基于参考关键词对所述第一语音文本信息进行检测,包括下述任一项:
[0033]从所述第一语音文本信息中检测与所述参考关键词相同的词语;
[0034]从所述第一语音文本信息中检测与所述参考关键词之间的相似度大于相似度阈值的词语。
[0035]一方面,提供了一种语音处理装置,所述装置包括:
[0036]端点检测模块,用于对采集到的第一音频数据进行端点检测;
[0037]语音识别模块,用于在端点检测过程中,若检测到第一语音的起始端点,基于所述第一语音的起始端点进行语音识别,得到第一语音文本信息;
[0038]关键词检测模块,用于基于参考关键词对所述第一语音文本信息进行检测,得到关键词检测结果,所述关键词检测结果用于表示所述第一语音文本信息是否包括所述参考关键词,所述参考关键词用于提醒所述智能设备进行回答;
[0039]语音结束点确定模块,用于基于所述关键词检测结果和终止端点检测结果,确定语音结束点,所述终止端点检测结果用于表示所述第一语音的终止端点的检测情况,所述语音结束点用于指示基于所述第一语音文本信息输出回答语句。
[0040]在一种可能的实现方式中,所述终止端点检测结果为第一端点检测结果,所述第一端点检测结果用于表示未检测到所述第一语音的终止端点;
[0041]所述关键本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,由智能设备执行,所述方法包括:对采集到的第一音频数据进行端点检测;在端点检测过程中,若检测到第一语音的起始端点,基于所述第一语音的起始端点进行语音识别,得到第一语音文本信息;基于参考关键词对所述第一语音文本信息进行检测,得到关键词检测结果,所述关键词检测结果用于表示所述第一语音文本信息是否包括所述参考关键词,所述参考关键词用于提醒所述智能设备进行回答;基于所述关键词检测结果和终止端点检测结果,确定语音结束点,所述终止端点检测结果用于表示所述第一语音的终止端点的检测情况,所述语音结束点用于指示基于所述第一语音文本信息输出回答语句。2.根据权利要求1所述的方法,其特征在于,所述终止端点检测结果为第一端点检测结果,所述第一端点检测结果用于表示未检测到所述第一语音的终止端点;所述关键词检测结果为第一关键词检测结果,所述第一关键词检测结果用于表示所述第一语音文本信息包括所述参考关键词;所述基于所述关键词检测结果和终止端点检测结果,确定语音结束点,包括:在所述终止端点检测结果为所述第一端点检测结果,且所述关键词检测结果为所述第一关键词检测结果时,确定到达所述语音结束点。3.根据权利要求1所述的方法,其特征在于,所述终止端点检测结果为第一端点检测结果,所述第一端点检测结果用于表示未检测到所述第一语音的终止端点;所述关键词检测结果为第二关键词检测结果,所述第二关键词检测结果用于表示所述第一语音文本信息不包括所述参考关键词;所述基于所述关键词检测结果和终止端点检测结果,确定语音结束点,包括:若所述终止端点检测结果为所述第一端点检测结果,且所述关键词检测结果为所述第二关键词检测结果,则在所述第一语音文本信息的长度大于长度阈值或者所述第一语音文本信息为语义完整的语句时,确定到达所述语音结束点。4.根据权利要求1所述的方法,其特征在于,所述终止端点检测结果为第二端点检测结果,所述第二端点检测结果用于表示检测到所述第一语音的终止端点;所述关键词检测结果为第二关键词检测结果,所述第二关键词检测结果用于表示所述第一语音文本信息不包括所述参考关键词;所述基于所述关键词检测结果和终止端点检测结果,确定语音结束点,包括:在所述终止端点检测结果为所述第二端点检测结果,且所述关键词检测结果为所述第二关键词检测结果的情况下,若在以所述第一语音的终止端点为起始时间的目标时长内检测到第二语音的起始端点,基于所述第二语音的起始端点进行语音识别,得到第二语音文本信息;若从所述第二语音文本信息中检测出所述参考关键词,则确定到达所述语音结束点,所述语音结束点用于指示基于所述第一语音文本信息和所述第...

【专利技术属性】
技术研发人员:冯大航陈孝良
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1