一种护工数字人生成方法及系统技术方案

技术编号：40548631 阅读：26 留言：0更新日期：2024-03-05 19:06

本发明专利技术提供一种护工数字人生成方法及系统，涉及数据处理技术领域，方法包括：获取护工专业知识和老年人兴趣知识，构建知识库；构建应答模型，利用知识库训练应答模型；收集训练后的应答模型的输出结果，结合图神经网络和句法树对输出结果进行情绪分类，得到多个情绪类型；录制视频样本，从视频样本中提取视频帧和音频流；接收护理对象的语音请求，将语音请求提取为文字请求，并将文字请求输入至应答模型，通过应答模型得到目标输出结果；解析目标情绪类型；构建双模编解码网络，将相应视频帧和音频流进行融合，得到具有音频特征和视频特征的护工数字人；通过护工数字人对目标输出结果进行播报。提升护工数字人的逼真程度和护理对象的对话体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其涉及一种护工数字人生成方法及系统。

技术介绍

1、随着人口老龄化趋势的增加，越来越多的老年人需要长期护理和医疗服务，人口老龄化意味着更多的老年人需要护理服务，但年轻工作人员的数量相对较少，难以满足市场需求。老年人护工短缺问题对社会和家庭都产生了重要影响，它增加了家庭的负担，也使一些老年人难以获得他们所需的护理服务，可能导致更多的健康问题和住院治疗。

2、目前，随着科技进步，为了应对护工短缺问题，出现了护工数字人，但是现有的护工数字人往往只能为待护理老人提供无情绪回答，不具有人格特征，导致数字人与老年人出现沟通障碍，这与老年人需要具有情绪交流的特质不符，而且，真实护工由于专业知识的匮乏往往也不能准确的回答待护理老人的医学咨询。

技术实现思路

1、为了解决现有技术存在护工数字人往往只能为待护理老人提供无情绪回答，不具有人格特征，导致数字人与老年人出现沟通障碍，这与老年人需要具有情绪交流的特质不符，而且，真实护工由于专业知识的匮乏往往也不能准确的回答待护理老人的医学咨询的技术问题，本专利技术提供了一种护工数字人生成方法及系统。

2、本专利技术提供的技术方案如下：

3、一方面，提供了一种护工数字人生成方法，该方法由护工数字人生成设备实现，该方法包括：

4、s1：获取护工专业知识和老年人兴趣知识，构建知识库。

5、s2：结合基于transformer的双向编码器表示bert模型和图神经网络构建应答模型，利用知识库训练应答模型。

6、s3：收集训练后的应答模型的输出结果，结合图神经网络和句法树对输出结果进行情绪分类，得到多个情绪类型。

7、s4：录制待模拟护工关于多个情绪类型的视频样本，从视频样本中提取不同情绪类型的视频帧和音频流。

8、s5：接收护理对象的语音请求，使用语音合成工具将语音请求提取为文字请求，并将文字请求输入至训练后的应答模型，通过训练后的应答模型得到目标输出结果。

9、s6：解析目标输出结果的目标情绪类型。

10、s7：构建具有多层长短期记忆网络lstm的双模编解码网络，根据目标情绪类型将相应情绪类型的视频帧和音频流进行融合，得到具有音频特征和视频特征的护工数字人。

11、s8：通过护工数字人对目标输出结果进行播报。

12、可选地，s1具体包括：

13、s101：通过护理协会和老年人福利组织分别获取护工专业知识和老年人兴趣知识。

14、s102：根据护工专业知识和老年人兴趣知识的布局结构，拆解问题内容和相应的答案内容。

15、s103：根据问题内容和相应的答案内容构建知识库。

16、可选地，s3具体包括：

17、s301：收集训练后的应答模型的输出结果，构建输出结果中表示词句关系趋势的有向图。

18、s302：对有向图进行基于图神经网络的特征聚合。

19、s303：通过训练后的应答模型的软激活层计算特征聚合后的特征输出属于不同情感类型的概率值。

20、s304：输出最大的概率值对应的情感类型。

21、可选地，s301中的构建输出结果中表示词句关系趋势的有向图具体包括：

22、s3011：对输出结果进行文本预处理，获取句子集：

23、

24、其中，表示输出结果有个句子，表示在第个句子中有个单词。

25、s3012：将第个句子输入至bert层，提取相应的词向量。

26、s3013：基于词向量构建词向量矩阵：

27、

28、其中，，表示实数域，，表示向量维度，即bert层的最后隐藏层状态。

29、s3014：将方面词中具有个单词的方面词向量的均值作为方面词向量，其中，方面词为每个句子中包括多个单词的子句子：

30、

31、其中，表示第个单词的词向量。

32、s3015：利用双仿射句法分析器将输出结果对应的原始句子转换为依存句法树形式，计算原始句子中的方面词，基于方面词向量将原始句子的各个单词均与方面词进行连接，构造以依存关系为边，单词为节点，方面词为根的词向量关系图。

33、s3016：计算单词与所属方面词的语义距离：

34、

35、其中，表示方面词中单词数量，表示方面词所属句子中的上下文词和方面词的最小距离，表示单词和单词的相对距离，表示距离阈值。

36、s3017：计算词向量关系图中所有语义距离，得到距离矩阵：

37、

38、s3018：结合词向量矩阵和距离矩阵，构建得到表示词句关系趋势的有向图。

39、可选地，s302具体包括：

40、s3021：利用图神经网络对有向图进行特征聚合：

41、

42、

43、其中，表示利用图神经网络的第层进行聚合得到的特征输出，表示可学习的特征转移矩阵，分别表示转移前后的特征向量维度，表示自连接后的距离矩阵，表示对应维度的单位矩阵，表示非线性激活函数，表示自连接后的距离矩阵的对称归一化形式，表示自连接后的距离矩阵对应的度矩阵，表示马尔科夫链中的转移概率矩阵。

44、可选地，s303具体包括：

45、s3031：将聚合得到的特征输出输入至软激活层，以交叉熵损失函数作为目标函数，计算第个句子中第个方面词属于第类情绪类型的概率值：

46、

47、

48、其中，表示方面词经过图神经网络层聚合得到的特征输出，表示软激活层，表示软激活层的网络参数，表示特征向量维度，表示情绪类型数量，表示偏置向量，表示第个方面词所属类别标签的独热向量，分别表示句子总数和方面词总数。

49、可选地，s4具体包括：

50、s401：通过摄像机录制待模拟护工关于多个情绪类型的视频样本，为每个视频样本和相应声音样本标记情绪类型，其中，视频样本包括待模拟护工的整个面部视频。

51、s402：通过视频剪辑工具将视频样本分割成单独的视频帧。

52、s403：使用dlib工具提取视频帧中关于待模拟护工的面部五官特征。

53、s404：通过动画技术将面部五官特征进行合成，得到不同情绪类型的视频帧。

54、s405：对视频样本进行音频分离，并对分离后的音频进行采样，提取不同情绪类型下的声音频率、音量和音调。

55、s406：使用语音合成工具对声音频率、音量和音调进行合成，得到不同情绪类型的音频流。

56、可选地，s7中的双模编解码网络包括由多层lstm网络层和自注意力机制层的解码模块以及多个自注意力编码层组成的音频编码模块和视频编码模块，音频编码模块和视频编码模块均与解码模块连接，解码模块用于接收音频编码模块和视频编码模块的输出数据。...

【技术保护点】

1.一种护工数字人生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述S1具体包括：

3.根据权利要求1所述的方法，其特征在于，所述S3具体包括：

4.根据权利要求3所述的方法，其特征在于，所述S301中的构建所述输出结果中表示词句关系趋势的有向图具体包括：

5.根据权利要求4所述的方法，其特征在于，所述S302具体包括：

6.根据权利要求5所述的方法，其特征在于，所述S303具体包括：

7.根据权利要求1所述的方法，其特征在于，所述S4具体包括：

8.根据权利要求1所述的方法，其特征在于，所述S7中的双模编解码网络包括由多层LSTM网络层和自注意力机制层的解码模块以及多个自注意力编码层组成的音频编码模块和视频编码模块，所述音频编码模块和所述视频编码模块均与所述解码模块连接，所述解码模块用于接收所述音频编码模块和所述视频编码模块的输出数据。

9.根据权利要求1所述的方法，其特征在于，所述S7具体包括：

10.一种护工数字人生成系统，其特征在于

...

【技术特征摘要】

1.一种护工数字人生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述s1具体包括：

3.根据权利要求1所述的方法，其特征在于，所述s3具体包括：

4.根据权利要求3所述的方法，其特征在于，所述s301中的构建所述输出结果中表示词句关系趋势的有向图具体包括：

5.根据权利要求4所述的方法，其特征在于，所述s302具体包括：

6.根据权利要求5所述的方法，其特征在于，所述s303具体包括：

7.根据权利要求1所述的方法，其特征在于，所述s4具体包括：

...

【专利技术属性】
技术研发人员：屠静，王亚，赵策，苏岳，万晶晶，李伟伟，颉彬，周勤民，
申请(专利权)人：卓世科技海南有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人