语音对话方法、装置、设备、存储介质及产品制造方法及图纸

技术编号：44074180 阅读：19 留言：0更新日期：2025-01-17 16:09

本申请公开了一种语音对话方法、装置、设备、存储介质及产品，涉及云计算技术领域，公开了语音对话方法，包括：获取用户输入的语音信息和所述用户的历史对话信息，并对所述语音信息进行文本识别，得到初始文本信息；基于所述历史对话信息和所述初始文本信息，通过预设的文本匹配模型进行上下文匹配，得到匹配后的目标文本信息；生成相应所述目标文本信息的提示词；将所述提示词输入至预设的大语言模型，接收所述大语言模型所输出的对答语音信息并输出。本申请通过对历史对话信息和初始文本信息进行上下文匹配，得到联系了多轮会话所得到的完整上下文的目标文本信息，能让大语言模型更准确辨别用户的实际意图，以此提高语音对话的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及云计算，尤其涉及语音对话方法、装置、设备、存储介质及产品。

技术介绍

1、目前，随着人工智能的发展，智能手表的功能也随之增多。其中，智能手表的语音对话功能是现代人工智能技术在可穿戴设备领域的具体应用。它通常包括语音识别、自然语言处理、语音合成等技术，允许用户通过语音与设备进行交互，执行各种操作和获取信息。

2、相关技术中通常是通过自然语言处理技术，能够理解用户的自然语言命令，并生成相应答复的文本信息，再利用语音合成技术，将文本信息转化为语音输出，提供语音反馈，增强用户体验。但是相关技术中自然语言处理技术只关注当下用户输入的一条信息，在处理用户多轮会话等复杂场景时，无法辨别用户的实际意图，导致语音对话的效果差。

3、上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

1、本申请的主要目的在于提供一种语音对话方法，旨在解决在处理用户多轮会话等复杂场景时，无法辨别用户的实际意图，导致语音对话的效果差的技术问题。

2、为实现上述目的，本申请提出一种语音对话方法，应用于云服务平台，所述云服务平台中部署大语言模型，所述语音对话方法包括：

3、获取用户输入的语音信息和所述用户的历史对话信息，并对所述语音信息进行文本识别，得到初始文本信息；

4、基于所述历史对话信息和所述初始文本信息，通过预设的文本匹配模型进行上下文匹配，得到匹配后的目标文本信息；

5、生成相应所述目标文本信息的提示词；

6、将所述提示词输入至预设的大语言模型，接收所述大语言模型所输出的对答语音信息并输出，其中，所述对答语音信息是由所述大语言模型基于对答输出指令，对所述提示词进行语句生成的。

7、可选地，所述基于所述历史对话信息和所述初始文本信息，通过预设的文本匹配模型进行上下文匹配，得到匹配后的目标文本信息的步骤，包括：

8、确定所述初始文本信息的会话场景信息；

9、基于所述会话场景信息，对所述历史对话信息进行筛选，得到筛选后的历史对话信息，其中，所述筛选后的历史对话信息与当前的初始文本信息属于相同的会话场景；

10、将所述筛选后的历史对话信息与所述初始文本信息进行相关性匹配，得到各筛选后的历史对话信息的相关值，并将所述筛选后的历史对话信息中所述相关值大于预设的相关值阈值的历史对话信息进行保留，得到二次筛选后的历史对话信息；

11、将所述二次筛选后的历史对话信息与所述初始文本信息组成包含完整的上下文信息的匹配后的目标文本信息。

12、可选地，所述获取用户输入的语音信息和所述用户的历史对话信息，并对所述语音信息进行文本识别，得到初始文本信息的步骤之前，所述方法包括：

13、获取文本信息样本、所述文本信息样本的历史对话文本样本以及所述文本信息样本的匹配文本标签；

14、基于所述文本信息样本、所述历史对话文本样本以及所述匹配文本标签，对预设的待训练模型进行迭代训练，得到文本匹配模型。

15、可选地，所述基于所述文本信息样本、所述历史对话文本样本以及所述匹配文本标签，对预设的待训练模型进行迭代训练，得到文本匹配模型的步骤，包括：

16、获取所述历史对话文本样本的对话时间信息；

17、基于所述对话时间信息，确定时间权重；

18、基于所述文本信息样本、所述时间权重、所述历史对话文本样本以及所述匹配文本标签，对预设的待训练模型进行迭代训练，得到文本匹配模型。

19、可选地，所述基于所述文本信息样本、所述时间权重、所述历史对话文本样本以及所述匹配文本标签，对预设的待训练模型进行迭代训练，得到文本匹配模型的步骤，包括：

20、基于所述文本信息样本、所述时间权重以及所述历史对话文本样本，通过预设的待训练模型进行上下文匹配，得到预测匹配结果；

21、将所述预测匹配结果与所述匹配文本标签进行差异计算，得到误差结果；

22、基于所述误差结果，判断所述误差结果是否满足预设误差阈值范围指示的误差标准；

23、若所述误差结果未满足所述预设误差阈值范围指示的误差标准，则返回基于所述文本信息样本、所述时间权重以及所述历史对话文本样本，通过预设的待训练模型进行上下文匹配，得到预测匹配结果的步骤，直到所述误差结果满足所述预设误差阈值范围指示的误差标准后停止训练，得到文本匹配模型。

24、可选地，所述生成相应所述目标文本信息的提示词的步骤，包括：

25、对所述目标文本信息进行关键词提取，得到关键词信息；

26、基于预设的文本扩充模板集合，对所述关键词信息进行模板匹配，得到目标扩充模板；

27、将所述目标文本信息和所述目标扩充模板进行文本结合，得到提示词。

28、此外，为实现上述目的，本申请还提出一种语音对话装置，所述语音对话装置包括：

29、获取模块，用于获取用户输入的语音信息和所述用户的历史对话信息，并对所述语音信息进行文本识别，得到初始文本信息；

30、匹配模块，用于基于所述历史对话信息和所述初始文本信息，通过预设的文本匹配模型进行上下文匹配，得到匹配后的目标文本信息；

31、生成模块，用于生成相应所述目标文本信息的提示词；

32、输出模块，用于将所述提示词输入至预设的大语言模型，接收所述大语言模型所输出的对答语音信息并输出，其中，所述对答语音信息是由所述大语言模型基于对答输出指令，对所述提示词进行语句生成的。

33、此外，为实现上述目的，本申请还提出一种语音对话设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序配置为实现如上文所述的语音对话方法的步骤。

34、此外，为实现上述目的，本申请还提出一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文所述的语音对话方法的步骤。

35、此外，为实现上述目的，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如上文所述的语音对话方法的步骤。

36、本申请提出的一个或多个技术方案，至少具有以下技术效果：

37、与相关技术中通常是通过自然语言处理技术，能够理解用户的自然语言命令，并生成相应答复的文本信息，再利用语音合成技术，将文本信息转化为语音输出，提供语音反馈，增强用户体验。但是相关技术中自然语言处理技术只关注当下用户输入的一条信息，在处理用户多轮会话等复杂场景时，无法辨别用户的实际意图，导致语音对话的效果差相比，本申请通过云服务平台中文本匹配模型对用户的历史对话信息和用户输入的初始文本信息进行上下文匹配，得到匹配后的目标文本信息，并将所述目标文本信息的提示词输入至预设的大语言模型，得到并向用户输本文档来自技高网...

【技术保护点】

1.一种语音对话方法，其特征在于，应用于云服务平台，所述云服务平台中部署大语言模型，所述语音对话方法包括：

2.如权利要求1所述的语音对话方法，其特征在于，所述基于所述历史对话信息和所述初始文本信息，通过预设的文本匹配模型进行上下文匹配，得到匹配后的目标文本信息的步骤，包括：

3.如权利要求1所述的语音对话方法，其特征在于，所述获取用户输入的语音信息和所述用户的历史对话信息，并对所述语音信息进行文本识别，得到初始文本信息的步骤之前，所述方法包括：

4.如权利要求3所述的语音对话方法，其特征在于，所述基于所述文本信息样本、所述历史对话文本样本以及所述匹配文本标签，对预设的待训练模型进行迭代训练，得到文本匹配模型的步骤，包括：

5.如权利要求4所述的语音对话方法，其特征在于，所述基于所述文本信息样本、所述时间权重、所述历史对话文本样本以及所述匹配文本标签，对预设的待训练模型进行迭代训练，得到文本匹配模型的步骤，包括：

6.如权利要求1所述的语音对话方法，其特征在于，所述生成相应所述目标文本信息的提示词的步骤，包括：

<...

【技术特征摘要】

1.一种语音对话方法，其特征在于，应用于云服务平台，所述云服务平台中部署大语言模型，所述语音对话方法包括：

5.如权利要求4所述的语音对话方法，其特征在于，所述基于所述文本信息样本、所述时间权重、所述历史对话文本样本以及所述匹配文本标...

【专利技术属性】
技术研发人员：杨安，刘刚，
申请(专利权)人：深圳迈拓数码科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人