虚拟数字人的交互装置、系统及其方法制造方法及图纸

技术编号：42512190 阅读：3 留言：0更新日期：2024-08-27 19:27

本发明专利技术涉及一种虚拟数字人的交互方法、装置及存储介质，其中方法包括：虚拟数字人开机后进入待机状态，等待接收唤醒信号后进入唤醒流程，切换到工作状态，所述唤醒流程包括语音唤醒流程和视觉唤醒流程；基于虚拟数字人的多模态传感器，获取环境信息和用户信息；基于大语言提示词工程，虚拟数字人与用户进行交互；基于大语言模型的提示词工程预设的人物设定，将虚拟数字人换装。能实现在特点环境下虚拟人与用户的实时自然语言交流，配合虚拟数字人的脸部表情、动作和职业装扮，达到提升虚拟数字人与现实场景融合的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能应用领域，特别涉及一种虚拟数字人的交互方法、装置及存储介质。

技术介绍

1、真人动捕的3d虚拟人ip化，形象越来越好看，表现越来越生动。但是，这种3d虚拟人ip是建立在中之人的个人能力之上的，现有技术中大语言模型只能输入和输出文字，不能进行人与人之间对话式的沟通，造成大语言模型在现场导航环境中的应用受限。

技术实现思路

1、本专利技术提供虚拟数字人的交互方法、装置及存储介质，旨在至少解决现有技术中存在的技术问题之一。

2、本专利技术的技术方案涉及一种虚拟数字人的交互方法、装置及存储介质，其特征在于，所述的方法包括：

3、s100、确定接收唤醒信号，使虚拟数字人进入唤醒流程，由待机状态切换到工作状态，所述唤醒流程包括语音唤醒流程和视觉唤醒流程；

4、s200、基于虚拟数字人的多模态传感器，获取环境信息和用户信息；

5、s300、基于大语言提示词工程，虚拟数字人与用户进行交互；

6、s400、基于大语言模型的提示词工程，调整虚拟数字人的人物角色设定。

7、进一步，所述步骤s100中，所述语音唤醒流程包括以下步骤：

8、s110、在待机状态下，采集环境声音，检测是否存在人声唤醒信号，所述人声唤醒信号包括人声、唤醒关键词和声纹特征中的一种或多种的组合；

9、s120、若检测到的人声唤醒信号达到预设的阈值，唤醒虚拟数字人，使虚拟数字人从待机状态转换为工作状态。

11、s111、对接收到的环境声音进行降噪预处理，所述降噪预处理包括对声音信号进行分帧、加窗、预加重和自适应端点检测vad；

12、s112、基于mdcc提取语音特征，把语音特征输入到声纹识别模型；

13、s113、检测是否存在人声唤醒信号，并将语音特征与声纹匹配库的已有声纹做声纹匹配；

14、s114、若声纹匹配成功，调取与声纹相匹配的用户信息，若声纹匹配不成功，新建用户存储空间。

15、进一步，所述步骤s112中，

16、所述语音特征包括线性预测系数lpcc和mel倒谱系数mfcc。

17、进一步，所述步骤s113中，所述人声唤醒信号包括唤醒词，所述唤醒词存储在所述声纹识别模型的公共区内。

18、进一步，所述步骤s100中，所述视觉唤醒流程包括以下步骤：

19、s130、在待机状态下，控制虚拟数字人的视觉传感器采集图像；

20、s140、检测人体骨骼识别和/或人脸识别，检测是否有人靠近；

21、s150、若检测到有人靠近，唤醒虚拟数字人，使虚拟数字人从待机状态转换为工作状态。

22、进一步，所述步骤s100中，启动虚拟数字人后，可选跳过待机状态，直接进入工作状态。

23、进一步，所述步骤s200中，

24、所述虚拟数字人的多模态传感器包括至少深度传感器、rgb摄像头和麦克风，所述多模态传感器至少用于对人物进行人脸识别、骨骼识别、姿态和手势识别。

25、进一步，所述步骤s300中，包括以下步骤；

26、s310、进入工作状态后，通过多模态传感器接收用户的图像和语音，将语音和图像传入语音图像提取网络提取语音和图像；

27、s320、基于语音转文字服务，将语音转换为文字；

28、s330、基于大语言模型服务，输出语言文本；

29、s340、基于文本转语音服务，将大语言模型服务输出语言文本转换为语音；

30、s350、基于虚拟人动画控制程序，输出声音、表情和动作；

31、s360、若多模态传感器接收到用户的回应，重复步骤s310至步骤s350，对接收的内容进行反馈，输出语音、表情和动作。

32、进一步，所述步骤s310中，所述语音图像提取网络包括：语音分离网络和视觉分离网络，

33、所述语音分离网络包括依次连接的混合语音接收模块、stft语音时频变换模块、语音特征提取模块、语音上采样模块和istft频时变换模块，

34、所述视觉分离网络包括依次连接的混合视觉接收模块、vggface特征提取模块、视觉特征网络模块，

35、还包括融合模块，所述融合模块的输入分别与所述语音特征提取模块和vgg特征提取模块连接，所述融合模块的输出与所述语音上采样模块连接。

36、进一步，所述步骤s330中，所述大语言模型包括依次连接的语料体系模块、预训练模型和微调模块，

37、所述语料体系模块包括预训练语料和微调语料，所述预训练语料包括从书籍、杂志和百科渠道收集的文本数据，所述微调预料包括从开源代码库爬取、专家标注、用户对话方式加工而成的标注文本数据；

38、所述预训练模型为先在大规模训练数据上采用无监督学习方法进行大量通用的训练，以得到通用且强泛化能力的语言模型，所述预训练模型的训练方法至少包括词向量嵌入、对比预训练和上下文学习；

39、所述微调模块包括冻结预训练模型的底层层级与调整上层层级的权重，所述底层层级包括词向量，所述上层层级包括分类器。

40、进一步，所述预训练模型的训练步骤包括：采集数据集并进行有监督的微调；采集对比数据并训练打分模型和针对奖励模型使用强化学习来优化云训练模型。

41、进一步，所述采集数据集并进行有监督的微调包括从数据集中取样一个提示；标记偏好的输出答案和根据采集的数据对预训练模型进行有监督的微调。

42、进一步，所述采集对比数据并训练打分模型包括取样一个提示和若干相应的模型输出；对输出进行打分排序和对经过打分排序的数据训练打分模型。

43、进一步，所述针对奖励模型使用强化学习来优化云训练模型包括重新取样一个提示；奖励模型对输出进行打分和优化模型参数。

44、进一步，所述步骤s300中，还包括，接收任务指令，将任务指令拆解为简单的步骤并依次执行。

45、进一步，所述步骤s400中，控制虚拟数字人换装，基于3d服装资产库预设的人物设定，所述3d服装资产库至少包括医院智能导诊虚拟数字人服装、博物馆讲解虚拟数字人服装和餐饮迎宾虚拟数字人服装。

46、进一步，所述步骤s350中，所述虚拟人动画控制程序包括语音转表情服务audio2faceservice和语音转动作服务audio2actionservice，所述语音转表情服务audio2faceservice用于将虚拟人语音信息转化为虚拟人的面部表情，所述语音转动作服务audio2actionservice用于将虚拟人语音信息转化为虚拟人的肢体动作。

47、进一步，所述语音转表情服务audio2faceservice为基于blendshapes方法的语音动画合成模型，所述基于blendshape本文档来自技高网...

【技术保护点】

1.一种虚拟数字人的交互方法，其特征在于，所述的方法包括：

2.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤S100中，所述语音唤醒流程包括以下步骤：

3.根据权利要求2所述的虚拟数字人的交互方法，其特征在于，所述步骤S110中，检测是否存在人声唤醒信号包括以下步骤：

4.根据权利要求3所述的虚拟数字人的交互方法，其特征在于，所述步骤S112中，

5.根据权利要求3所述的虚拟数字人的交互方法，其特征在于，所述步骤S113中，所述人声唤醒信号包括唤醒词，所述唤醒词存储在所述声纹识别模型的公共区内。

6.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤S100中，所述视觉唤醒流程包括以下步骤：

7.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤S100中，启动虚拟数字人后，可选跳过待机状态，直接进入工作状态。

8.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤S200中，

9.根据权利要求1所述的虚拟数字人的交互方法，其特征在

10.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤S310中，所述语音图像提取网络包括：语音分离网络和视觉分离网络，

11.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤S330中，所述大语言模型包括依次连接的语料体系模块、预训练模型和微调模块，

12.根据权利要求11所述的虚拟数字人的交互方法，其特征在于，所述预训练模型的训练步骤包括：采集数据集并进行有监督的微调；采集对比数据并训练打分模型和针对奖励模型使用强化学习来优化云训练模型。

13.根据权利要求12所述的虚拟数字人的交互方法，其特征在于，所述采集数据集并进行有监督的微调包括从数据集中取样一个提示；标记偏好的输出答案和根据采集的数据对预训练模型进行有监督的微调。

14.根据权利要求12所述的虚拟数字人的交互方法，其特征在于，所述采集对比数据并训练打分模型包括取样一个提示和若干相应的模型输出；对输出进行打分排序和对经过打分排序的数据训练打分模型。

15.根据权利要求12所述的虚拟数字人的交互方法，其特征在于，所述针对奖励模型使用强化学习来优化云训练模型包括重新取样一个提示；奖励模型对输出进行打分和优化模型参数。

16.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤S300中，还包括，接收任务指令，将任务指令拆解为简单的步骤并依次执行。

17.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤S400中，控制虚拟数字人换装，基于3D服装资产库预设的人物设定，所述3D服装资产库至少包括医院智能导诊虚拟数字人服装、博物馆讲解虚拟数字人服装和餐饮迎宾虚拟数字人服装。

18.根据权利要求9所述的虚拟数字人的交互方法，其特征在于，所述步骤S350中，所述虚拟人动画控制程序包括语音转表情服务Audio2FaceService和语音转动作服务Audio2ActionService，所述语音转表情服务Audio2FaceService用于将虚拟人语音信息转化为虚拟人的面部表情，所述语音转动作服务Audio2ActionService用于将虚拟人语音信息转化为虚拟人的肢体动作。

19.根据权利要求18所述的虚拟数字人的交互方法，其特征在于，所述语音转表情服务Audio2FaceService为基于BlendShapes方法的语音动画合成模型，所述基于BlendShapes方法的语音动画合成模型包括基于不同语音情绪的三维人脸控制参数预测模块、基于样例表情的表情基构建模块和三维人脸动画合成模块，

20.一种虚拟数字人的交互装置，其特征在于，包括：

21.根据权利要求20所述的虚拟数字人的交互装置，其特征在于，

22.根据权利要求20所述的虚拟数字人的交互装置，其特征在于，

23.一种计算机可读存储介质，其上储存有程序指令，所述程序指令被处理器执行时实施如权利要求1至19中任一项所述的方法。

...

【技术特征摘要】

1.一种虚拟数字人的交互方法，其特征在于，所述的方法包括：

2.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤s100中，所述语音唤醒流程包括以下步骤：

3.根据权利要求2所述的虚拟数字人的交互方法，其特征在于，所述步骤s110中，检测是否存在人声唤醒信号包括以下步骤：

4.根据权利要求3所述的虚拟数字人的交互方法，其特征在于，所述步骤s112中，

5.根据权利要求3所述的虚拟数字人的交互方法，其特征在于，所述步骤s113中，所述人声唤醒信号包括唤醒词，所述唤醒词存储在所述声纹识别模型的公共区内。

6.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤s100中，所述视觉唤醒流程包括以下步骤：

7.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤s100中，启动虚拟数字人后，可选跳过待机状态，直接进入工作状态。

8.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤s200中，

9.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤s300中，包括以下步骤；

10.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤s310中，所述语音图像提取网络包括：语音分离网络和视觉分离网络，

11.根据权利要求1所述的虚拟数字人的交互方法，其特征在于，所述步骤s330中，所述大语言模型包括依次连接的语料体系模块、预训练模型和微调模块，

14.根据权利要求12所述的虚拟数字人的交互方法，其特征...

【专利技术属性】
技术研发人员：王聪，陈国峰，姜龙，陈亮，梁东耀，任文龙，王玉雪，赖明峥，王惠捷，
申请(专利权)人：深圳幻影未来信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人