语音对话交互方法、系统、电子设备和存储介质技术方案

技术编号：37713555 阅读：12 留言：0更新日期：2023-06-02 00:07

本发明专利技术实施例提供一种语音对话交互方法、系统、电子设备和存储介质。该方法包括：云服务内的接入服务持续接收来自客户端实时上传的对话音频；接入服务实时将对话音频发送至识别服务，识别出中间识别结果，持续地将中间识别结果发送回客户端；对话中控利用语义服务进行对话预测，得到候选文本结果发送至客户端；当接入服务检测到对话音频上传结束时，识别最终识别结果，将最终识别结果发送回客户端以用于展示；对话中控判断最终识别结果符合候选文本结果，则基于候选文本结果确定最终识别结果的语义信息，通过技能对话服务调用与语义信息对应的语音技能进行对话交互反馈。本发明专利技术实施例通过听觉配合视觉整体提升识别效率，提升用户对话交互体验。对话交互体验。对话交互体验。

全部详细技术资料下载

【技术实现步骤摘要】
语音对话交互方法、系统、电子设备和存储介质

[0001]本专利技术涉及智能语音领域，尤其涉及一种语音对话交互方法、系统、电子设备和存储介质。

技术介绍

[0002]智能语音对话通常由多个模块组成，包括：ASR(Automatic Speech Recognition，自动语音识别)、NLU(Natural Language Understanding，自然语言理解)、DM(Dialog Management，对话管理)等，整个智能语音对话的耗时由各模块单独的耗时确定。
[0003]为了提升用户语音对话的体验，会降低语音对话中各模块的耗时，通常进行识别的末帧延迟优化，语义分类解析时间优化，以及对话处理时间优化。
[0004]其中，末帧延迟是指从有效音频检测模块检测到人说完话，到得出最终识别结果的时间；
[0005]语义分类解析时间是指从语义平台接收到识别结果到语义平台给出语义n
‑
best(多个领域分类解析结果)并完成技能路由，选出最优技能的时间；
[0006]对话处理时间是指从选出最优技能开始，完成调度技能DM、技能DM内状态跟踪、状态决策、NLG(natural language generation，自然语言生成)生成的时间。
[0007]在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：
[0008]各个模块耗时优化，虽然可以降低语音对话的耗时，但不管如何降低，各个模块还是会有一定的耗时，尤其是语义分类解析的时间，产品中领域包含越...

【技术保护点】

【技术特征摘要】
1.一种语音对话交互方法，应用于云服务，包括：所述云服务内的接入服务持续接收来自客户端实时上传的对话音频，其中，所述云服务还包括：识别服务、对话中控、语义服务、技能对话服务；所述接入服务实时将所述对话音频发送至所述识别服务，所述识别服务持续地识别出中间识别结果，持续地将所述中间识别结果发送回所述客户端以用于展示，并将所述中间识别结果发送至所述对话中控；所述对话中控利用所述语义服务对所述中间识别结果进行对话预测，得到候选文本结果，所述对话中控将所述候选文本结果经由所述接入服务发送至所述客户端；当所述接入服务检测到所述对话音频上传结束时，所述识别服务识别出所述对话音频的最终识别结果，将所述最终识别结果发送回所述客户端以用于展示，并将所述最终识别结果发送至所述对话中控；所述对话中控判断所述最终识别结果是否符合所述候选文本结果，若符合，则基于候选文本结果确定所述最终识别结果的语义信息，通过所述技能对话服务调用与所述语义信息对应的语音技能进行对话交互反馈。2.根据权利要求1所述的方法，其中，所述候选文本结果包括多个预测候选；所述对话中控判断所述最终识别结果是否符合所述候选文本结果包括：将所述多个预测候选中对话预测概率最高的预测候选作为优选预测候选；判断所述最终识别结果与所述优选预测候选是否文本相同，若相同，则所述最终识别结果符合所述候选文本结果，将所述优选预测候选确定为所述最终识别结果的语义信息。3.根据权利要求1所述的方法，其中，所述候选文本结果包括多个预测候选；所述对话中控判断所述最终识别结果是否符合所述候选文本结果包括：判断所述多个预测候选是否存在与所述最终识别结果文本相同的预测候选，若存在，则所述最终识别结果符合所述候选文本结果，将与所述最终识别结果文本相同的预测候选确定为所述最终识别结果的语义信息。4.根据权利要求1所述的方法，其中，所述对话中控判断所述最终识别结果是否符合所述候选文本结果包括：若不符合，所述对话中控利用语义服务对所述最终识别结果进行语义解析，得到所述最终识别结果的语义信息。5.一种语音对话交互方法，应用于客户端，包括：所述客户端实时将采集到用户的对话音频发送至云服务的接入服务；所述客户端持续接收所述接入服务反馈的中间识别结果，以及经由所述接入服务反馈的基于所述中间识别结果预测的候选文本结果；将所述中间识别结果确定为第一展示部分，将所述中间识别结果与所述候选文本结果的差异文本确定为第二展示部分，并基于持续接收的中间识别结果对所述第一展示部分以及所述第二展示部分进行实时更新。6.根据权利要求5所述的方法，其中，在所述基于持续接收的中间识别结果对所述第一展示部分以及所述第二展示部分进行实时更新时候，所述方法还包括：当所...

【专利技术属性】
技术研发人员：朱成亚，甘津瑞，邓建凯，樊帅，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人