生成数字人的方法、模型的训练方法、装置、设备和介质制造方法及图纸

技术编号:35009266 阅读:17 留言:0更新日期:2022-09-21 15:00
本公开提供了一种生成数字人的方法、模型的训练方法、装置、设备和介质,涉及人工智能领域,具体涉及自然语言处理、深度学习、计算机视觉、图像处理、增强现实和虚拟现实等技术领域,可应用于元宇宙等场景。实现方案为:获取素材内容;基于预训练的场景划分模型,从素材内容中确定多个场景,其中,多个场景中的每个场景分别对应于素材内容中的一个具有完整语义信息的内容片段;以及对于多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容;基于对应的目标内容,确定该场景的场景标签信息;以及基于场景标签信息,配置特定于该场景的数字人。于该场景的数字人。于该场景的数字人。

【技术实现步骤摘要】
生成数字人的方法、模型的训练方法、装置、设备和介质


[0001]本公开涉及人工智能领域,具体涉及自然语言处理、深度学习、计算机视觉、图像处理、增强现实和虚拟现实等
,可应用于元宇宙等场景,特别涉及一种生成数字人的方法、一种神经网络的训练方法、一种视频生成装置、一种神经网络的训练装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]数字人是利用计算机技术对人体的形态和功能进行虚拟仿真的技术。数字人能够显著提升应用的交互性,增强智能信息服务的智能化水平。随着人工智能技术的不断突破,数字人的形象、表情、表达正在逐渐比拟真人,数字人的应用场景不断拓宽,数字人逐渐成为了数字世界的一种重要业务形态。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种生成数字人的方法、一种神经网络的训练方法、一种视频生成装置、一种神经网络的训练装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种生成数字人的方法,包括:获取素材内容;基于预训练的场景划分模型,从素材内容中确定多个场景,其中,多个场景中的每个场景分别对应于素材内容中的一个具有完整语义信息的内容片段;以及对于多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容;基于对应的目标内容,确定该场景的场景标签信息;以及基于场景标签信息,配置特定于该场景的数字人。
[0007]根据本公开的另一方面,提供了一种场景划分模型的训练方法,包括:获取样本素材内容和样本素材内容中的多个样本场景;基于预设场景划分模型,从样本素材内容中确定多个预测场景;以及基于多个样本场景和多个预测场景调整预设场景划分模型的参数,以得到训练后的场景划分模型。
[0008]根据本公开的另一方面,提供了一种生成数字人的装置,装置包括:第一获取单元,被配置为获取素材内容;第一确定单元,被配置为基于预训练的场景划分模型,从素材内容中确定多个场景,其中,多个场景中的每个场景分别对应于素材内容中的一个具有完整语义信息的内容片段;第二确定单元,被配置为对于多个场景中的每个场景,基于对应的
内容片段,确定该场景对应的目标内容;第三确定单元,被配置为基于对应的目标内容,确定该场景的场景标签信息;以及数字人配置单元,被配置为基于场景标签信息,配置特定于该场景的数字人。
[0009]根据本公开的另一方面,提供了一种场景划分模型的训练装置,包括:第三获取单元,被配置为获取样本素材内容和样本素材内容中的多个样本场景;第七确定单元,被配置为基于预设场景划分模型,从样本素材内容中确定多个预测场景;以及训练单元,被配置为基于多个样本场景和多个预测场景调整预设场景划分模型的参数,以得到训练后的场景划分模型。
[0010]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。
[0011]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述方法。
[0012]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述方法。
[0013]根据本公开的一个或多个实施例,通过对素材内容进行场景切分,并以场景为粒度进行数字人的配置,从而确保了数字人与场景和目标内容的一致性,改善了素材内容和数字人之间的融合,提升了用户观看数字人的体验。
[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0015]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0016]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0017]图2示出了根据本公开的实施例的生成数字人的方法的流程图;
[0018]图3示出了根据本公开的实施例的从素材内容中确定多个场景的流程图;
[0019]图4示出了根据本公开的实施例的确定每个场景对应的目标内容的流程图;
[0020]图5示出了根据本公开的实施例的生成数字人的方法的流程图;
[0021]图6示出了根据本公开的实施例的场景划分模型的训练方法的流程图;
[0022]图7示出了根据本公开的实施例的生成数字人的装置的结构框图;
[0023]图8示出了根据本公开的实施例的第一确定单元的结构框图;
[0024]图9示出了根据本公开的实施例的第二确定单元的结构框图;
[0025]图10示出了根据本公开的实施例的生成数字人的装置的结构框图;
[0026]图11示出了根据本公开的实施例的场景划分模型的训练装置的结构框图;
[0027]图12示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0028]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0029]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0030]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成数字人的方法,所述方法包括:获取素材内容;基于预训练的场景划分模型,从所述素材内容中确定多个场景,其中,所述多个场景中的每个场景分别对应于所述素材内容中的一个具有完整语义信息的内容片段;以及对于所述多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容;基于所述对应的目标内容,确定该场景的场景标签信息;以及基于所述场景标签信息,配置特定于该场景的数字人。2.根据权利要求1所述的方法,其中,获取素材内容包括:基于下列方式中的至少一者,获取所述素材内容:基于网页地址,获取所述素材内容;或基于搜索关键词,获得所述素材内容。3.根据权利要求1或2所述的方法,其中,所述素材内容包括图像数据和视频数据中的至少一者以及文本数据。4.根据权利要求1至3中任一项所述的方法,其中,基于预训练的场景划分模型,从所述素材内容中确定多个场景,包括:通过对所述素材内容进行篇章结构分析和篇章语义分割,从所述素材内容中确定多个子主题,并且确定所述多个子主题之间的结构关系;以及基于所述结构关系,将所述多个子主题划分为所述多个场景。5.根据权利要求4所述的方法,其中,对于所述多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容,包括:基于该场景与前一场景之间的结构关系,生成用于该场景的第一内容。6.根据权利要求4或5所述的方法,其中,对于所述多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容,包括:基于预训练的风格转换模型,将所述对应的内容片段转换为所述对应的目标内容,其中,所述风格转换模型是基于提示学习训练得到的。7.根据权利要求6所述的方法,其中,对于所述多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容,还包括以下中的至少一项:对所述对应的内容片段执行文本改写和文本压缩中的至少一种处理,以更新所述对应的内容片段;以及对所述经转换的目标内容执行文本改写和文本压缩中的至少一种处理,以更新所述对应的目标内容。8.根据权利要求1至7中任一项所述的方法,其中,所述场景标签信息包括语义标签,其中,对于所述多个场景中的每个场景,基于所述对应的目标内容,确定该场景的场景标签信息,包括:对所述对应的目标内容进行情感分析,以获得所述语义标签。9.根据权利要求8所述的方法,其中,所述语义标签用于标识所述对应的目标内容所表达的情感包括:积极、中性或消极。10.根据权利要求8或9所述的方法,其中,对于所述多个场景中的每个场景,基于所述
标签信息,配置特定于该场景的数字人,包括:基于所述语义标签,配置所述数字人的服饰、表情和动作中的至少一者。11.根据权利要求10所述的方法,还包括:将所述目标内容转换成语音,用于所述数字人播报。12.根据权利要求11所述的方法,其中,对于所述多个场景中的每个场景,基于所述场景标签信息,配置特定于该场景的数字人,还包括:基于所述语义标签,配置所述数字人语音的语气。13.根据权利要求1至12中任一项所述的方法,还包括:以全息图像的形式呈现所述数字人。14.根据权利要求1至12中任一项所述的方法,还包括:以视频的形式呈现所述数字人。15.根据权利要求14所述的方法,还包括:对于所述多个场景中的每个场景,基于所述素材内容和该场景对应的目标内容,检索与该场景相关的视频素材;以及将所述视频素材和所述数字人相结合。16.根据权利要求15所述的方法,其中,对于所述多个场景中的每个场景,基于所述素材内容和该场景对应的目标内容,检索与该场景相关的视频素材,包括:提取场景关键词;以及基于所述场景关键词,检索与该场景相关的视频素材。17.根据权利要求15或16所述的方法,其中,对于所述多个场景中的每个场景,基于所述素材内容和该场景对应的目标内容,检索与该场景相关的视频素材,包括:提取句子级关键词;以及基于所述句子级关键词,检索与该场景相关的视频素材。18.根据权利要求17所述的方法,还包括:基于所述句子级关键词,将检索到的视频素材和所述目标内容对齐。19.根据权利要求15至18中任一项所述的方法,还包括:响应于确定所述视频素材中包括特定素材,基于所述特定素材在所述视频素材中的显示位置,确定所述数字人的动作。20.根据权利要求14至19中任一项所述的方法,还包括:对于所述多个场景中的每个场景,从该场景对应的目标内容中提取键

值形式的信息;以及基于所述键

值形式的信息,生成用于所述视频的辅助素材。21.根据权利要求15至20中任一项所述的方法,还包括:确定所述视频素材相对应的场景所需的播放时长的占比;以及基于所述占比,确定是否在相应场景中触发所述数字人。22.一种场景划分模型的训练方法,包括:获取样本素材内容和所述样本素材内容中的多个样本场景;基于预设场景划分模型,从所述样本素材内容中确定多个预测场景;以及基于所述多个样本场景和所述多个预测场景调整所述预设场景划分模型的参数,以得
到训练后的场景划分模型。23.根据权利要求22所述的训练方法,其中,所述预设场景划分模型包括篇章语义分割模型和篇章结构分析模型,其中,基于预设场景划分模型,从所述样本素材内容中确定多个预测场景包括:利用所述篇章语义分割模型和所述篇章结构分析模型对所述样本素材内容进行处理,以确定所述素材内容中多个预测子主题以及所述多个预测子主题之间的预测结构关系;以及基于所述预测结构关系,将所述多个预测子主题划分为所述多个预测场景。24.一种生成数字人的装置,所述装置包括:第一获取单元,被配置为获取素材内容;第一确定单元,被配置为基于预训练的场景划分模型,从所述素材内容中确定多个场景,其中,所述多个场景中的每个场景分别对应于所述素材内容中的一个具有完整语义信息的内容片段;第二确定单元,被配置为对于所述多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容;第三确定单元,被配置为基于所述...

【专利技术属性】
技术研发人员:吴甜李彦宏肖欣延刘昊刘家辰佘俏俏吕雅娟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1