语音对话交互方法、系统、电子设备和存储介质技术方案

技术编号:37713555 阅读:12 留言:0更新日期:2023-06-02 00:07
本发明专利技术实施例提供一种语音对话交互方法、系统、电子设备和存储介质。该方法包括:云服务内的接入服务持续接收来自客户端实时上传的对话音频;接入服务实时将对话音频发送至识别服务,识别出中间识别结果,持续地将中间识别结果发送回客户端;对话中控利用语义服务进行对话预测,得到候选文本结果发送至客户端;当接入服务检测到对话音频上传结束时,识别最终识别结果,将最终识别结果发送回客户端以用于展示;对话中控判断最终识别结果符合候选文本结果,则基于候选文本结果确定最终识别结果的语义信息,通过技能对话服务调用与语义信息对应的语音技能进行对话交互反馈。本发明专利技术实施例通过听觉配合视觉整体提升识别效率,提升用户对话交互体验。对话交互体验。对话交互体验。

【技术实现步骤摘要】
语音对话交互方法、系统、电子设备和存储介质


[0001]本专利技术涉及智能语音领域,尤其涉及一种语音对话交互方法、系统、电子设备和存储介质。

技术介绍

[0002]智能语音对话通常由多个模块组成,包括:ASR(Automatic Speech Recognition,自动语音识别)、NLU(Natural Language Understanding,自然语言理解)、DM(Dialog Management,对话管理)等,整个智能语音对话的耗时由各模块单独的耗时确定。
[0003]为了提升用户语音对话的体验,会降低语音对话中各模块的耗时,通常进行识别的末帧延迟优化,语义分类解析时间优化,以及对话处理时间优化。
[0004]其中,末帧延迟是指从有效音频检测模块检测到人说完话,到得出最终识别结果的时间;
[0005]语义分类解析时间是指从语义平台接收到识别结果到语义平台给出语义n

best(多个领域分类解析结果)并完成技能路由,选出最优技能的时间;
[0006]对话处理时间是指从选出最优技能开始,完成调度技能DM、技能DM内状态跟踪、状态决策、NLG(natural language generation,自然语言生成)生成的时间。
[0007]在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:
[0008]各个模块耗时优化,虽然可以降低语音对话的耗时,但不管如何降低,各个模块还是会有一定的耗时,尤其是语义分类解析的时间,产品中领域包含越多,或领域内说法越多,语义分类解析耗时越长,而且以上过程都是串行执行的过程,必须先做完识别,其次做语义分类解析,再去做技能路由,最后调度技能DM,降低语音对话耗时的效果相对较差。

技术实现思路

[0009]为了至少解决现有技术中降低语音对话耗时的效果相对较差的问题。
[0010]第一方面,本专利技术实施例提供一种语音对话交互方法,应用于云服务,包括:
[0011]所述云服务内的接入服务持续接收来自客户端实时上传的对话音频,其中,所述云服务还包括:识别服务、对话中控、语义服务、技能对话服务;
[0012]所述接入服务实时将所述对话音频发送至所述识别服务,所述识别服务持续地识别出中间识别结果,持续地将所述中间识别结果发送回所述客户端以用于展示,并将所述中间识别结果发送至所述对话中控;
[0013]所述对话中控利用所述语义服务对所述中间识别结果进行对话预测,得到候选文本结果,所述对话中控将所述候选文本结果经由所述接入服务发送至所述客户端;
[0014]当所述接入服务检测到所述对话音频上传结束时,所述识别服务识别出所述对话音频的最终识别结果,将所述最终识别结果发送回所述客户端以用于展示,并将所述最终识别结果发送至所述对话中控;
[0015]所述对话中控判断所述最终识别结果是否符合所述候选文本结果,若符合,则基
于候选文本结果确定所述最终识别结果的语义信息,通过所述技能对话服务调用与所述语义信息对应的语音技能进行对话交互反馈。
[0016]第二方面,本专利技术实施例提供一种语音对话交互方法,应用于客户端,包括:
[0017]所述客户端实时将采集到用户的对话音频发送至云服务的接入服务;
[0018]所述客户端持续接收所述接入服务反馈的中间识别结果,以及经由所述接入服务反馈的基于所述中间识别结果预测的候选文本结果;
[0019]将所述中间识别结果确定为第一展示部分,将所述中间识别结果与所述候选文本结果的差异文本确定为第二展示部分,并基于持续接收的中间识别结果对所述第一展示部分以及所述第二展示部分进行实时更新。
[0020]第三方面,本专利技术实施例提供一种应用于云服务的语音对话交互系统,包括:
[0021]音频接收程序模块,用于所述云服务内的接入服务持续接收来自客户端实时上传的对话音频,其中,所述云服务还包括:识别服务、对话中控、语义服务、技能对话服务;
[0022]中间识别程序模块,用于所述接入服务实时将所述对话音频发送至所述识别服务,所述识别服务持续地识别出中间识别结果,持续地将所述中间识别结果发送回所述客户端以用于展示,并将所述中间识别结果发送至所述对话中控;
[0023]对话预测程序模块,用于所述对话中控利用所述语义服务对所述中间识别结果进行对话预测,得到候选文本结果,所述对话中控将所述候选文本结果经由所述接入服务发送至所述客户端;
[0024]最终识别程序模块,用于当所述接入服务检测到所述对话音频上传结束时,所述识别服务识别出所述对话音频的最终识别结果,将所述最终识别结果发送回所述客户端以用于展示,并将所述最终识别结果发送至所述对话中控;
[0025]对话交互程序模块,用于所述对话中控判断所述最终识别结果是否符合所述候选文本结果,若符合,则基于候选文本结果确定所述最终识别结果的语义信息,通过所述技能对话服务调用与所述语义信息对应的语音技能进行对话交互反馈。
[0026]第四方面,本专利技术实施例提供一种应用于客户端的语音对话交互系统,包括:
[0027]音频发送程序模块,用于所述客户端实时将采集到用户的对话音频发送至云服务的接入服务;
[0028]识别结果接收程序模块,用于所述客户端持续接收所述接入服务反馈的中间识别结果,以及经由所述接入服务反馈的基于所述中间识别结果预测的候选文本结果;
[0029]展示交互程序模块,用于将所述中间识别结果确定为第一展示部分,将所述中间识别结果与所述候选文本结果的差异文本确定为第二展示部分,并基于持续接收的中间识别结果对所述第一展示部分以及所述第二展示部分进行实时更新。
[0030]第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的语音对话交互方法的步骤。
[0031]第六方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的语音对话交互方法的步骤。
[0032]本专利技术实施例的有益效果在于:在视听方面,提前语义预测有效节省端到端的耗
时,可以使整体提升对话交互的效率。在视觉方面,可以在客户端上直观看出预测动效,直观看到加速效果,去除用户可能出现的“未知、焦灼”心理,通过听觉配合视觉整体提升用户的对话交互体验。
附图说明
[0033]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1是本专利技术一实施例提供的一种语音对话交互方法的流程图;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音对话交互方法,应用于云服务,包括:所述云服务内的接入服务持续接收来自客户端实时上传的对话音频,其中,所述云服务还包括:识别服务、对话中控、语义服务、技能对话服务;所述接入服务实时将所述对话音频发送至所述识别服务,所述识别服务持续地识别出中间识别结果,持续地将所述中间识别结果发送回所述客户端以用于展示,并将所述中间识别结果发送至所述对话中控;所述对话中控利用所述语义服务对所述中间识别结果进行对话预测,得到候选文本结果,所述对话中控将所述候选文本结果经由所述接入服务发送至所述客户端;当所述接入服务检测到所述对话音频上传结束时,所述识别服务识别出所述对话音频的最终识别结果,将所述最终识别结果发送回所述客户端以用于展示,并将所述最终识别结果发送至所述对话中控;所述对话中控判断所述最终识别结果是否符合所述候选文本结果,若符合,则基于候选文本结果确定所述最终识别结果的语义信息,通过所述技能对话服务调用与所述语义信息对应的语音技能进行对话交互反馈。2.根据权利要求1所述的方法,其中,所述候选文本结果包括多个预测候选;所述对话中控判断所述最终识别结果是否符合所述候选文本结果包括:将所述多个预测候选中对话预测概率最高的预测候选作为优选预测候选;判断所述最终识别结果与所述优选预测候选是否文本相同,若相同,则所述最终识别结果符合所述候选文本结果,将所述优选预测候选确定为所述最终识别结果的语义信息。3.根据权利要求1所述的方法,其中,所述候选文本结果包括多个预测候选;所述对话中控判断所述最终识别结果是否符合所述候选文本结果包括:判断所述多个预测候选是否存在与所述最终识别结果文本相同的预测候选,若存在,则所述最终识别结果符合所述候选文本结果,将与所述最终识别结果文本相同的预测候选确定为所述最终识别结果的语义信息。4.根据权利要求1所述的方法,其中,所述对话中控判断所述最终识别结果是否符合所述候选文本结果包括:若不符合,所述对话中控利用语义服务对所述最终识别结果进行语义解析,得到所述最终识别结果的语义信息。5.一种语音对话交互方法,应用于客户端,包括:所述客户端实时将采集到用户的对话音频发送至云服务的接入服务;所述客户端持续接收所述接入服务反馈的中间识别结果,以及经由所述接入服务反馈的基于所述中间识别结果预测的候选文本结果;将所述中间识别结果确定为第一展示部分,将所述中间识别结果与所述候选文本结果的差异文本确定为第二展示部分,并基于持续接收的中间识别结果对所述第一展示部分以及所述第二展示部分进行实时更新。6.根据权利要求5所述的方法,其中,在所述基于持续接收的中间识别结果对所述第一展示部分以及所述第二展示部分进行实时更新时候,所述方法还包括:当所...

【专利技术属性】
技术研发人员:朱成亚甘津瑞邓建凯樊帅
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1