【技术实现步骤摘要】
生成数字人的方法、模型的训练方法、装置、设备和介质
[0001]本公开涉及人工智能领域,具体涉及自然语言处理、深度学习、计算机视觉、图像处理、增强现实和虚拟现实等
,可应用于元宇宙等场景,特别涉及一种生成数字人的方法、一种神经网络的训练方法、一种视频生成装置、一种神经网络的训练装置、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]数字人是利用计算机技术对人体的形态和功能进行虚拟仿真的技术。数字人能够显著提升应用的交互性,增强智能信息服务的智能化水平。随着人工智能技术的不断突破,数字人的形象、表情、表达正在逐渐比拟真人,数字人的应用场景不断拓宽,数字人逐渐成为了数字世界的一种重要业务形态。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
[0005]本公开提供了一种生成数字人的方法、一种神经网络的训练 ...
【技术保护点】
【技术特征摘要】
1.一种生成数字人的方法,所述方法包括:获取素材内容;基于预训练的场景划分模型,从所述素材内容中确定多个场景,其中,所述多个场景中的每个场景分别对应于所述素材内容中的一个具有完整语义信息的内容片段;以及对于所述多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容;基于所述对应的目标内容,确定该场景的场景标签信息;以及基于所述场景标签信息,配置特定于该场景的数字人。2.根据权利要求1所述的方法,其中,获取素材内容包括:基于下列方式中的至少一者,获取所述素材内容:基于网页地址,获取所述素材内容;或基于搜索关键词,获得所述素材内容。3.根据权利要求1或2所述的方法,其中,所述素材内容包括图像数据和视频数据中的至少一者以及文本数据。4.根据权利要求1至3中任一项所述的方法,其中,基于预训练的场景划分模型,从所述素材内容中确定多个场景,包括:通过对所述素材内容进行篇章结构分析和篇章语义分割,从所述素材内容中确定多个子主题,并且确定所述多个子主题之间的结构关系;以及基于所述结构关系,将所述多个子主题划分为所述多个场景。5.根据权利要求4所述的方法,其中,对于所述多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容,包括:基于该场景与前一场景之间的结构关系,生成用于该场景的第一内容。6.根据权利要求4或5所述的方法,其中,对于所述多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容,包括:基于预训练的风格转换模型,将所述对应的内容片段转换为所述对应的目标内容,其中,所述风格转换模型是基于提示学习训练得到的。7.根据权利要求6所述的方法,其中,对于所述多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容,还包括以下中的至少一项:对所述对应的内容片段执行文本改写和文本压缩中的至少一种处理,以更新所述对应的内容片段;以及对所述经转换的目标内容执行文本改写和文本压缩中的至少一种处理,以更新所述对应的目标内容。8.根据权利要求1至7中任一项所述的方法,其中,所述场景标签信息包括语义标签,其中,对于所述多个场景中的每个场景,基于所述对应的目标内容,确定该场景的场景标签信息,包括:对所述对应的目标内容进行情感分析,以获得所述语义标签。9.根据权利要求8所述的方法,其中,所述语义标签用于标识所述对应的目标内容所表达的情感包括:积极、中性或消极。10.根据权利要求8或9所述的方法,其中,对于所述多个场景中的每个场景,基于所述
标签信息,配置特定于该场景的数字人,包括:基于所述语义标签,配置所述数字人的服饰、表情和动作中的至少一者。11.根据权利要求10所述的方法,还包括:将所述目标内容转换成语音,用于所述数字人播报。12.根据权利要求11所述的方法,其中,对于所述多个场景中的每个场景,基于所述场景标签信息,配置特定于该场景的数字人,还包括:基于所述语义标签,配置所述数字人语音的语气。13.根据权利要求1至12中任一项所述的方法,还包括:以全息图像的形式呈现所述数字人。14.根据权利要求1至12中任一项所述的方法,还包括:以视频的形式呈现所述数字人。15.根据权利要求14所述的方法,还包括:对于所述多个场景中的每个场景,基于所述素材内容和该场景对应的目标内容,检索与该场景相关的视频素材;以及将所述视频素材和所述数字人相结合。16.根据权利要求15所述的方法,其中,对于所述多个场景中的每个场景,基于所述素材内容和该场景对应的目标内容,检索与该场景相关的视频素材,包括:提取场景关键词;以及基于所述场景关键词,检索与该场景相关的视频素材。17.根据权利要求15或16所述的方法,其中,对于所述多个场景中的每个场景,基于所述素材内容和该场景对应的目标内容,检索与该场景相关的视频素材,包括:提取句子级关键词;以及基于所述句子级关键词,检索与该场景相关的视频素材。18.根据权利要求17所述的方法,还包括:基于所述句子级关键词,将检索到的视频素材和所述目标内容对齐。19.根据权利要求15至18中任一项所述的方法,还包括:响应于确定所述视频素材中包括特定素材,基于所述特定素材在所述视频素材中的显示位置,确定所述数字人的动作。20.根据权利要求14至19中任一项所述的方法,还包括:对于所述多个场景中的每个场景,从该场景对应的目标内容中提取键
‑
值形式的信息;以及基于所述键
‑
值形式的信息,生成用于所述视频的辅助素材。21.根据权利要求15至20中任一项所述的方法,还包括:确定所述视频素材相对应的场景所需的播放时长的占比;以及基于所述占比,确定是否在相应场景中触发所述数字人。22.一种场景划分模型的训练方法,包括:获取样本素材内容和所述样本素材内容中的多个样本场景;基于预设场景划分模型,从所述样本素材内容中确定多个预测场景;以及基于所述多个样本场景和所述多个预测场景调整所述预设场景划分模型的参数,以得
到训练后的场景划分模型。23.根据权利要求22所述的训练方法,其中,所述预设场景划分模型包括篇章语义分割模型和篇章结构分析模型,其中,基于预设场景划分模型,从所述样本素材内容中确定多个预测场景包括:利用所述篇章语义分割模型和所述篇章结构分析模型对所述样本素材内容进行处理,以确定所述素材内容中多个预测子主题以及所述多个预测子主题之间的预测结构关系;以及基于所述预测结构关系,将所述多个预测子主题划分为所述多个预测场景。24.一种生成数字人的装置,所述装置包括:第一获取单元,被配置为获取素材内容;第一确定单元,被配置为基于预训练的场景划分模型,从所述素材内容中确定多个场景,其中,所述多个场景中的每个场景分别对应于所述素材内容中的一个具有完整语义信息的内容片段;第二确定单元,被配置为对于所述多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容;第三确定单元,被配置为基于所述...
【专利技术属性】
技术研发人员:吴甜,李彦宏,肖欣延,刘昊,刘家辰,佘俏俏,吕雅娟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。