数字人交互控制方法、装置及计算机设备制造方法及图纸

技术编号：42729289 阅读：2 留言：0更新日期：2024-09-13 12:13

本发明专利技术涉及数字人技术领域，具体涉及数字人交互控制方法、装置及计算机设备，包括以下步骤：获取用于与数字人交互用的交互信息；利用神经网络，对所述交互信息进行语义挖掘，得到交互信息的语义信息；利用预训练的大语言模型LLM，对所述交互信息的语义信息进行语义理解，输出回答交互信息的答复信息；利用多模态信息生成技术，根据所述答复信息生成用于利用数字人回答交互信息的数字人多模态信息。本发明专利技术利用GAN神经网络和CNN神经网络，分别进行深度学习运算挖掘出语义信息，对应构建了具有泛化性能的语义信息挖掘网络和具有精度性能的语义挖掘网络，在泛化性能和精度性能中进行决策，实现保证精度时具有泛化性，保证泛化性又不失精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字人，具体涉及数字人交互控制方法、装置及计算机设备。

技术介绍

1、数字人指存在于非物理世界中，由计算机手段创造及使用，并具有多重人类特征(外貌特征、人类表演能力交互能力等)的综合产物。虚拟数字人可按人格象征和图形维度划分，亦可根据人物图形维度划分。人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块构成虚拟数字人通用系统框架。其中，又以数字人的交互应用最广，能够应用至新媒体的各行各业，且简单高效。

2、目前数字人的交互，通常一味专注于提升人机交互的准确性，从而导致人机交互失去了多样性，惊喜性，最终影响人机交互的用户体验。

技术实现思路

1、本专利技术的目的在于提供数字人交互控制方法、装置及计算机设备，以解决现有技术中一味专注于提升人机交互的准确性，从而导致人机交互失去了多样性，惊喜性，最终影响人机交互的用户体验的技术问题。

2、为解决上述技术问题，本专利技术具体提供下述技术方案：

3、在本专利技术的第一方面，一种数字人交互控制方法，包括以下步骤：

4、获取用于与数字人交互用的交互信息；

5、利用神经网络，对所述交互信息进行语义挖掘，得到交互信息的语义信息；

6、利用预训练的大语言模型llm，对所述交互信息的语义信息进行语义理解，输出回答交互信息的答复信息；

7、利用多模态信息生成技术，根据所述答复信息生成用于利用数字人回答交互信息的数字人多模态信息。

9、作为本专利技术的一种优选方案，所述交互信息的语义信息的挖掘方法包括：

10、将所述交互信息转换为文本形式；

11、利用cnn神经网络，对交互信息进行直接语义挖掘，得到交互信息的直接语义信息；

12、利用gan神经网络，对交互信息进行潜在语义挖掘，得到交互信息的潜在语义信息；

13、利用softmax分类器，对交互信息的直接语义信息和潜在语义信息进行回归判断，筛选出对交互信息语义表达精准度最高的语义信息，并标记为交互信息的最优语义信息。

14、作为本专利技术的一种优选方案，所述交互信息的直接语义信息的挖掘方法包括：

15、预训练用于提取文本直接语义的cnn神经网络，其中，cnn神经网络的输入项为文本信息，cnn神经网络的输出项为直接语义信息；

16、将交互信息输入至cnn神经网络中，由cnn神经网络输出交互信息的直接语义信息；

17、所述cnn神经网络为：

18、s=cnn(f)；式中，s为直接语义信息，f为交互信息，cnn为cnn神经网络结构体。

19、作为本专利技术的一种优选方案，所述交互信息的潜在语义信息的挖掘方法包括：

20、将交互信息作为gan神经网络中生成器的输入项，由gan神经网络中的生成器输出交互信息的相关信息；

21、将交互信息和相关信息作为gan神经网络中判别器的输入项，由gan神经网络的判别器输出生成器的评价结果；

22、基于所述评价结果，训练gan神经网络以达到最优评价结果，并将具有最优评价结果的gan神经网络作为潜在语义挖掘网络；

23、将交互信息输入至潜在语义挖掘网络，由潜在语义挖掘网络输出交互信息的最优相关信息；

24、将交互信息的最优相关信息输入至cnn神经网络，由cnn神经网络输出所述最优相关信息的直接语义信息，并标记为交互信息的潜在语义信息；

25、所述潜在语义挖掘网络为：

26、fn=gan(f)；

27、式中，f为交互信息，fn为最优相关信息构成的数据向量，fｎ＝{f1,f2,f3,…,fn}，f1,f2,f3,fn分别为fn中的第1，2，3，n个最优相关信息，ｎ为最优相关信息的总数量，gan为gan神经网络；

28、所述交互信息的潜在语义信息构成数据向量为sn，sn＝{s1,s2,s3,…,sn}， s1,s2,s3,sn分别为sn中的第1，2，3，n个潜在语义信息。

29、作为本专利技术的一种优选方案，所述交互信息的最优语义信息的筛选方法包括：

30、将交互信息的潜在语义信息和交互信息的直接语义信息，输入至softmax分类器中，由softmax分类器输出交互信息的最优语义信息；

31、所述softmax分类器为：

32、smax＝softmax(s，sn)；

33、式中，smax为最优语义信息，s为直接语义信息，sn为潜在语义信息构成数据向量，softmax为softmax分类器；

34、其中，softmax分类器包含softmax函数，所述softmax函数为：；；式中，y为直接语义信息s的概率分布值，y i为潜在语义信息s i的概率分布值， i为计数变量；smax对应于y和y i中最大概率分布值的语义信息。

35、作为本专利技术的一种优选方案，所述答复信息的获取方法包括：

36、利用预训练的大语言模型llm，对所述最优语义信息smax进行语义理解，输出回答交互信息的答复信息。

37、作为本专利技术的一种优选方案，所述数字人多模态信息的生成包括：

38、通过文本生成图像技术，文本生成语音技术，基于所述答复信息生成答复图像和答复语音；

39、将答复图像和答复语音作为数字人多模态信息。

40、在本专利技术的第二方面，本专利技术提供了一种数字人交互控制装置，应用于所述的一种数字人交互控制方法，装置包括：

41、信息获取单元，用于获取用于与数字人交互用的交互信息；

42、语义挖掘单元，用于利用神经网络，对所述交互信息进行语义挖掘，得到交互信息的语义信息；

43、语义答复单元，用于利用预训练的大语言模型llm，对所述交互信息的语义信息进行语义理解，输出回答交互信息的答复信息；

44、多模态生成单元，用于利用多模态信息生成技术，根据所述答复信息生成用于利用数字人回答交互信息的数字人多模态信息。

45、在本专利技术的第三方面，本专利技术提供了一种计算机设备，包括：至少一个处理器；以及

46、与所述至少一个处理器通信连接的存储器；

47、其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机设备执行数字人交互控制方法。

48、本专利技术与现有技术相比较具有如下有益效果：

49、本专利技术利用gan神经网络和cnn神经网络，分别进行深度学习运算挖掘出语义信息，对应构建了具有泛化性能的语义信息挖掘网络和具有精度性能的语本文档来自技高网...

【技术保护点】

1.一种数字人交互控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数字人交互控制方法，其特征在于：所述交互信息包括文本信息、语音信息以及图像信息中的至少一种。

3.根据权利要求1所述的一种数字人交互控制方法，其特征在于：所述交互信息的语义信息的挖掘方法包括：

4.根据权利要求3所述的一种数字人交互控制方法，其特征在于：所述交互信息的直接语义信息的挖掘方法包括：

5.根据权利要求4所述的一种数字人交互控制方法，其特征在于：所述交互信息的潜在语义信息的挖掘方法包括：

6.根据权利要求5所述的一种数字人交互控制方法，其特征在于：所述交互信息的最优语义信息的筛选方法包括：

7.根据权利要求6所述的一种数字人交互控制方法，其特征在于：所述答复信息的获取方法包括：

8.根据权利要求7所述的一种数字人交互控制方法，其特征在于：所述数字人多模态信息的生成包括：

9.一种数字人交互控制装置，其特征在于，应用于权利要求1-8任一项所述的一种数字人交互控制方法，装置包括：

...

【技术特征摘要】

1.一种数字人交互控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数字人交互控制方法，其特征在于：所述交互信息包括文本信息、语音信息以及图像信息中的至少一种。

3.根据权利要求1所述的一种数字人交互控制方法，其特征在于：所述交互信息的语义信息的挖掘方法包括：

4.根据权利要求3所述的一种数字人交互控制方法，其特征在于：所述交互信息的直接语义信息的挖掘方法包括：

5.根据权利要求4所述的一种数字人交互控制方法，其特征在于：所述交互信息的潜在语义信息...

【专利技术属性】
技术研发人员：请求不公布姓名，请求不公布姓名，
申请(专利权)人：深圳威尔视觉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人