基于大语言模型语音交互方法、装置、设备以及存储介质制造方法及图纸

技术编号：41720037 阅读：3 留言：0更新日期：2024-06-19 12:45

本发明专利技术涉及一种基于大语言模型语音交互方法，包括：响应于用户输入的至少一个待处理问题生成至少一个回复任务；根据响应于所述待处理问题的时间越早，生成的回复任务优先级越低的原则，按优先级高低将所述回复任务加入回复队列；通过抢占调度执行所述回复队列中的回复任务并生成回复内容。本发明专利技术的实施例本发明专利技术的实施例结合大语言模型优化了语音交互管理和语音的生成策略。本发明专利技术还涉及装置、设备以及存储介质。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能、大语言模型、自动语音识别，更具体地涉及一种基于大语言模型语音交互方法、装置、设备以及存储介质。

技术介绍

1、针对不同的应用场景，大语言模型的介入越来越收到重视，例如，数字导游应用场景。在数字导游应用场景中，大语言模型对话机器人还无法做到类似于真人导游的主动解说，在遇到诸如打断对话等情况，也无法很好应对。此外，数字导游软件只是存储了各个景点的解说信息，需要用户手动在软件界面点击查看或收听，与真人导游占用听力资源而保留视觉资源不同，用户视觉上的认知负荷将损害游览景点的沉浸感。

技术实现思路

1、为解决上述不足，根据本专利技术的第一方面，提供了一种基于大语言模型语音交互方法，其特征在于，包括：响应于用户输入的至少一个待处理问题生成至少一个回复任务；根据响应于所述待处理问题的时间越早，生成的回复任务优先级越低的原则，按优先级高低将所述回复任务加入回复队列；通过抢占调度执行所述回复队列中的回复任务并生成回复内容。

2、可选地，所述通过抢占调度执行所述回复队列中的回复任务并生成回复内容，还包括：使用多个生成线程来生成回复内容。

3、可选地，所述根据响应于所述待处理问题的时间越早，生成的回复任务优先级越低的原则，按优先级高低将所述回复任务加入回复队列，还包括：当回复任务在一开始生成时，即被加入回复队列。

4、可选地，所述响应于用户输入的至少一个待处理问题生成至少一个回复任务，还包括：响应于用户输入的在后待处理问题生成在后回复任务，同时

5、可选地，响应于用户对于所述固定提示内容的最新待处理问题，回溯至所述在先回复任务至所述第一中止点往前至第一恢复点继续生成在未完成的先回复内容或生成最新回复任务。

6、可选地，所述第一中止点设置为在所述第一时间点开始往后查询到的第一停顿点，所述第一停顿点表征为语句中的逗号、分号、句号、问号或感叹号中的一者；所述第一恢复点设置为在所述第一时间点开始往前查询到的第一结束点，所述第一结束点表征为语句中的开头、句号、问号或感叹号中的一者。

7、可选地，所述根据响应于所述待处理问题的时间越早，生成的回复任务优先级越低的原则，按优先级高低将所述回复任务加入回复队列，还包括：最低优先级的回复任务设置为第一回复任务，通过获取各目标的地址信息和与之对应的固定回复内容，按固定频率查询用户所在地址并与所述目标的地址信息比对，根据比对结果建立新prompt，查询向量知识库，利用大语言模型生成所述第一回复任务。

8、可选地，设置回复内容的长度小于n，其中：若n表征为语句的数量，则n为5、6、7或10；若n表征为语句的字数，则n为100、120、140或200。

9、可选地，所述通过获取各目标的地址信息和与之对应的固定回复内容，按固定频率查询用户所在地址并与所述目标的地址信息比对，还包括：使用get方法请求key和ip参数并获取到返回的矩形坐标，取所述矩形的中心点作为用户所在地址。

10、可选地，所述新prompt，至少包括：系统prompt、历史交互记录，以及目标的对应的固定回复内容。

11、根据本专利技术的第二方面，提供了一种基于大语言模型语音交互装置，其特征在于，包括：生成模块：用于响应于用户输入的至少一个待处理问题生成至少一个回复任务；排序模块：根据响应于所述待处理问题的时间越早，生成的回复任务优先级越低的原则，按优先级高低将所述回复任务加入回复队列；执行模块：通过抢占调度执行所述回复队列中的回复任务并生成回复内容。

12、根据本专利技术的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的方法。

13、根据本专利技术的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述的方法。

14、根据本专利技术的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

15、本专利技术的实施例本专利技术的实施例结合大语言模型优化了语音交互管理和语音的生成策略。本专利技术的示例性实施例提供了一个不同于信息系统模式的数字人导游，制定合理的对话管理机制和回复内容的生成策略，使得该数字人导游融合真人导游的优点，带给用户沉浸式的游览体验，优化了用户使用数字人导游过程中的体验。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型语音交互方法，其特征在于，包括：

2.如权利要求1所述的基于大语言模型语音交互方法，其特征在于，所述通过抢占调度执行所述回复队列中的回复任务并生成回复内容，还包括：使用多个生成线程来生成回复内容。

3.如权利要求2所述的基于大语言模型语音交互方法，其特征在于，所述根据响应于所述待处理问题的时间越早，生成的回复任务优先级越低的原则，按优先级高低将所述回复任务加入回复队列，还包括：当回复任务在一开始生成时，即被加入回复队列。

4.如权利要求3所述的基于大语言模型语音交互方法，其特征在于，所述响应于用户输入的至少一个待处理问题生成至少一个回复任务，还包括：响应于用户输入的在后待处理问题生成在后回复任务，同时在第一时间点继续执行在先回复任务并生成在先回复内容至第一中止点止，接着生成在后回复内容并以固定提示内容结束。

5.如权利要求4所述的基于大语言模型语音交互方法，其特征在于，响应于用户对于所述固定提示内容的最新待处理问题，回溯至所述在先回复任务至所述第一中止点往前至第一恢复点继续生成在未完成的先回复内容或生成最新回复任务。

6.如权利要求5所述的基于大语言模型语音交互方法，其特征在于，所述第一中止点设置为在所述第一时间点开始往后查询到的第一停顿点，所述第一停顿点表征为语句中的逗号、分号、句号、问号或感叹号中的一者；所述第一恢复点设置为在所述第一时间点开始往前查询到的第一结束点，所述第一结束点表征为语句中的开头、句号、问号或感叹号中的一者。

7.如权利要求1所述的基于大语言模型语音交互方法，其特征在于，所述根据响应于所述待处理问题的时间越早，生成的回复任务优先级越低的原则，按优先级高低将所述回复任务加入回复队列，还包括：

8.如权利要求1所述的基于大语言模型语音交互方法，其特征在于，设置回复内容的长度小于n，其中：

9.如权利要求8所述的基于大语言模型语音交互方法，其特征在于，所述通过获取各目标的地址信息和与之对应的固定回复内容，按固定频率查询用户所在地址并与所述目标的地址信息比对，还包括：

10.如权利要求9所述的基于大语言模型语音交互方法，其特征在于，所述新prompt，至少包括：系统prompt、历史交互记录，以及目标的对应的固定回复内容。

11.一种基于大语言模型语音交互装置，其特征在于，包括：

12.一种电子设备，包括：

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求110中任一项所述的方法。

14.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求110中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于大语言模型语音交互方法，其特征在于，包括：

6.如权利要求5所述的基于大语言模型语音交互方法，其特征在于，所述第一中止点设置为在所述第一时间点开始往后查询到的第一停顿点，所述第一停顿点表征为语句中的逗号、分号、句号、问号或感...

【专利技术属性】
技术研发人员：单良，柴春雷，李欣语，葛志超，
申请(专利权)人：良胜数字创意设计杭州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人