一种语音指令处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：44232146 阅读：3 留言：0更新日期：2025-02-11 13:35

本申请提供了一种语音指令处理方法、装置、电子设备及存储介质，该方法包括：响应于用户唤醒语音助手，基于用户的语音指令获取对应的音频片段，基于预设的第一在线识别通道将音频片段转化为第一音频文本，并基于第一音频文本得到音频片段对应的在线对话管理结果，基于预设的第二在线识别通道将第一音频文本发送至第二在线识别通道中的生成式大模型，得到音频片段对应的大模型处理结果，对在线对话管理结果和大模型处理结果进行本地对话管理，得到对应的本地对话管理结果，基于预设的优先级处理策略，根据本地对话管理结果确定待执行的目标结果，并在语音助手上执行目标结果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，具体而言，涉及一种语音指令处理方法、装置、电子设备及存储介质。

技术介绍

1、随着深度学习技术的不断突破，特别是神经网络模型的规模和复杂性的增加，生成式大模型应运而生，这些模型通过大规模的数据训练，能够学习到丰富的语言模式和知识表示。

2、目前，随着生成式大模型的发展，生成式大模型(generative large languagemodels，简称llms)也越来越多的在车载语音助手上开始落地应用。

3、但是，生成式大模型与传统语义之间存在很多冲突和相互限制，例如，生成式大模型与传统语义对用户的语音指令识别出的结果相互冲突，且由于传统语义与大模型往往存在先后处理的线性顺序，生成式大模型回复的时效性一般，语音助手的执行效率和执行准确率较低。

技术实现思路

1、有鉴于此，本申请的目的在于提供一种语音指令处理方法、装置、电子设备及存储介质，通过第一在线识别通道对音频片段进行转换得到第一音频文本，分别得到第一在线识别通道的在线对话管理结果和第二在线识别通道的生成式大模型的大模型处理结果，对在线对话管理结果和大模型处理结果进行本地对话管理，基于优先级处理策略确定待执行的目标结果并执行，实现了生成式大模型与传统语义之间的融合，解决了生成式大模型与传统语义之间的冲突和限制，可以并行处理用户的语音指令，提高了生成式大模型回复的时效性，也提高了语音助手的执行效率和执行准确率。

2、第一方面，本申请实施例提供了一种语音指令处理方法，所述方法包括：

3、响应于用户唤醒语音助手，基于所述用户的语音指令获取对应的音频片段；

4、基于预设的第一在线识别通道将所述音频片段转化为第一音频文本，并基于所述第一音频文本得到所述音频片段对应的在线对话管理结果；

5、基于预设的第二在线识别通道将所述第一音频文本发送至所述第二在线识别通道中的生成式大模型，得到所述音频片段对应的大模型处理结果；

6、对所述在线对话管理结果和所述大模型处理结果进行本地对话管理，得到对应的本地对话管理结果；

7、基于预设的优先级处理策略，根据所述本地对话管理结果确定待执行的目标结果，并在所述语音助手上执行所述目标结果。

8、在一种可能的实施方式中，所述方法在响应于用户唤醒语音助手，基于所述用户的语音指令获取对应的音频片段之后，还包括：

9、基于预设的本地识别通道将所述音频片段转化为第二音频文本，并基于所述第二音频文本得到所述音频片段对应的本地语义理解结果；

10、所述对所述在线对话管理结果和所述大模型处理结果进行本地对话管理，得到对应的本地对话管理结果，包括：

11、对所述本地语义理解结果、所述在线对话管理结果和所述大模型处理结果进行本地对话管理，得到对应的本地对话管理结果。

12、在一种可能的实施方式中，所述基于预设的优先级处理策略，根据所述本地对话管理结果确定待执行的目标结果，并在所述语音助手上执行所述目标结果，包括：

13、基于所述本地对话管理结果判断是否识别出所述本地语义理解结果；

14、若识别出所述本地语义理解结果，则将所述本地语义理解结果确定为目标结果，在所述语音助手上执行所述目标结果，并抛弃且停止等待所述在线对话管理结果和所述大模型处理结果；

15、在一种可能的实施方式中，所述方法还包括：

16、若未识别出所述本地语义理解结果，则基于所述本地对话管理结果判断是否识别出所述在线对话管理结果；

17、响应于基于所述本地对话管理结果识别出所述在线对话管理结果，则将所述在线对话管理结果确定为目标结果执行，在所述语音助手上执行所述目标结果，并抛弃且停止等待所述大模型处理结果。

18、在一种可能的实施方式中，所述方法还包括：

19、响应于基于所述本地对话管理结果未识别出所述在线对话管理结果，则在所述语音助手上执行所述大模型处理结果。

20、在一种可能的实施方式中，所述响应于用户唤醒语音助手，基于所述用户的语音指令获取对应的音频片段；

21、响应于所述用户唤醒所述语音助手，基于预设的语音活动检测算法对所述用户的语音指令进行检测；

22、基于检测结果获取所述语音指令对应的音频片段。

23、在一种可能的实施方式中，所述第一在线识别通道包括在线语音识别算法、在线管理算法；所述在线管理算法包括在线自然语言理解算法和在线对话管理算法；所述基于预设的第一在线识别通道将所述音频片段转化为第一音频文本，并基于所述第一音频文本得到所述音频片段对应的在线对话管理结果，包括：

24、基于所述在线语音识别算法将所述音频片段转化为对应的第一音频文本，并发送至所述在线自然语言理解算法和所述在线对话管理算法；

25、基于所述在线自然语言理解算法和所述在线对话管理算法对所述第一音频文本进行处理，得到对应的在线对话管理结果。

26、在一种可能的实施方式中，所述本地识别通道包括本地语音识别算法和本地自然语言理解算法；所述基于预设的本地识别通道将所述音频片段转化为第二音频文本，并基于所述第二音频文本得到所述音频片段对应的本地语义理解结果，包括：

27、基于所述本地语音识别算法将所述音频片段转化为对应的第二音频文本，并发送至所述本地自然语言理解算法；

28、基于所述本地自然语言理解算法对所述第二音频文本进行处理，得到对应的本地自然语言理解结果。

29、在一种可能的实施方式中，所述基于预设的第二在线识别通道将所述第一音频文本发送至所述第二在线识别通道中的生成式大模型，得到所述音频片段对应的大模型处理结果，包括：

30、响应于将所述第一音频文本发送至车机端，在所述车机端将所述第一音频文本发送至所述生成式大模型；

31、基于所述生成式大模型对所述第一音频文本进行处理，得到对应的大模型处理结果。

32、第二方面，本申请实施例还提供了一种语音指令处理装置，所述装置包括：

33、第一获取模块，用于响应于用户唤醒语音助手，基于所述用户的语音指令获取对应的音频片段；

34、第二获取模块，用于基于预设的第一在线识别通道将所述音频片段转化为第一音频文本，并基于所述第一音频文本得到所述音频片段对应的在线对话管理结果；

35、第三获取模块，用于基于预设的第二在线识别通道将所述第一音频文本发送至所述第二在线识别通道中的生成式大模型，得到所述音频片段对应的大模型处理结果；

36、第四获取模块，用于对所述在线对话管理结果和所述大模型处理结果进行本地对话管理，得到对应的本地对话管理结果；

37、第一确定模块，用于基于预设的优先级处理策略，根据所述本地对话管理结果确定待执行的目标结果，并在所述语音助手上执行所述目标结果。

38、在一种可能的实施方式中，所述装置还包本文档来自技高网...

【技术保护点】

1.一种语音指令处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法在响应于用户唤醒语音助手，基于所述用户的语音指令获取对应的音频片段之后，还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于预设的优先级处理策略，根据所述本地对话管理结果确定待执行的目标结果，并在所述语音助手上执行所述目标结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述响应于用户唤醒语音助手，基于所述用户的语音指令获取对应的音频片段；

7.根据权利要求2所述的方法，其特征在于，所述第一在线识别通道包括在线语音识别算法、在线管理算法；所述在线管理算法包括在线自然语言理解算法和在线对话管理算法；所述基于预设的第一在线识别通道将所述音频片段转化为第一音频文本，并基于所述第一音频文本得到所述音频片段对应的在线对话管理结果，包括：

8.根据权利要求2所述的方法，其特征

9.根据权利要求8所述的方法，其特征在于，所述基于预设的第二在线识别通道将所述第一音频文本发送至所述第二在线识别通道中的生成式大模型，得到所述音频片段对应的大模型处理结果，包括：

10.一种语音指令处理装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至9任意一项所述的语音指令处理方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9任意一项所述的语音指令处理方法的步骤。

...

【技术特征摘要】

1.一种语音指令处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法在响应于用户唤醒语音助手，基于所述用户的语音指令获取对应的音频片段之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述响应于用户唤醒语音助手，基于所述用户的语音指令获取对应的音频片段；

【专利技术属性】
技术研发人员：黄凯，徐鹏，
申请(专利权)人：上海洛轲智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人