一种数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33407473 阅读:70 留言:0更新日期:2022-05-11 23:31
本申请实施例公开了一种数据处理方法、装置、计算机设备及存储介质,可应用于人工智能场景,包括:从多媒体数据的视频帧中获取图片特征信息;图片特征信息用于指示视频帧中的角色图片所属的M个业务对象;确定多媒体数据中的N个对象音频帧分别对应的音频语义特征向量,对每个对象音频帧对应的音频语义特征向量进行聚类处理,得到M个音频聚类簇;N个对象音频帧是对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的;基于图片特征信息、M个音频聚类簇以及与多媒体数据相关联的对象角色映射表,识别P个音频聚类簇中的每个音频聚类簇分别对应的业务角色。采用本申请实施例,可以提高音频角色识别的精确度、效率以及适用性。适用性。适用性。

【技术实现步骤摘要】
一种数据处理方法、装置、计算机设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]目前的角色识别方案在多媒体数据(例如,影视剧)上架前,需要人工参与角色识别,即需要花费大量的时间和精力,对该影视剧中的台词角色进行一定数量的人工标注,例如,人工确定该影视剧中出现的业务角色的数量,并对每一句语音台词进行标注,这将极大的降低了识别的效率。此外,人工参与角色识别主要依赖于标注人员的听觉感应,若同一多媒体数据中存在相似音色,则容易导致识别错误的情况,以至于降低了角色识别的精确度。

技术实现思路

[0003]本申请实施例提供一种数据处理方法、装置、计算机设备及存储介质,可以提高音频角色识别的精确度、效率以及适用性。
[0004]本申请实施例一方面提供一种数据处理方法,包括:从多媒体数据的视频帧中获取图片特征信息;图片特征信息用于指示视频帧中的角色图片所属的M个业务对象;M为正整数;确定多媒体数据中的N个对象音频帧分别对应的音频语义特征向量,对每个对象音频帧对应的音频语义特征向量进行聚类处理,得到M个音频聚类簇;N个对象音频帧是对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的;N为正整数;一个音频聚类簇对应一个业务对象;基于图片特征信息、M个音频聚类簇以及与多媒体数据相关联的对象角色映射表,识别P个音频聚类簇中的每个音频聚类簇分别对应的业务角色;P为小于或者等于M的正整数;对象角色映射表包括与列表业务对象具有映射关系的业务角色;列表业务对象与M个业务对象之间存在P个重合的业务对象。
[0005]本申请实施例一方面提供一种数据处理装置,包括:图片信息获取模块,用于从多媒体数据的视频帧中获取图片特征信息;图片特征信息用于指示视频帧中的角色图片所属的M个业务对象;M为正整数;聚类处理模块,用于确定多媒体数据中的N个对象音频帧分别对应的音频语义特征向量,对每个对象音频帧对应的音频语义特征向量进行聚类处理,得到M个音频聚类簇;N个对象音频帧是对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的;N为正整数;一个音频聚类簇对应一个业务对象;音频角色识别模块,用于基于图片特征信息、M个音频聚类簇以及与多媒体数据相关联的对象角色映射表,识别P个音频聚类簇中的每个音频聚类簇分别对应的业务角色;P为小于或者等于M的正整数;对象角色映射表包括与列表业务对象具有映射关系的业务角色;列表业务对象与M个业务对象之间存在P个重合的业务对象。
[0006]其中,图片信息获取模块包括:视频帧获取单元,用于从多媒体数据中获取视频帧;图片切割单元,用于对视频帧中的角色关键部位进行图片切割处理,得到视频帧对应的角色图片;角色图片包括X个角色切割图片;X为大于或者等于M的正整数;图片编码单元,用于获取X个角色切割图片中的角色切割图片T
i
,对角色切割图片T
i
进行图片编码处理,得到角色切割图片T
i
对应的图片信息向量L
i
;i为小于或者等于X的正整数;向量匹配单元,用于从与候选对象相关联的信息向量数据库中,确定与图片信息向量L
i
相匹配的对象关键信息向量,将匹配到的对象关键信息向量对应的候选对象作为角色切割图片T
i
对应的业务对象;图片信息获取单元,用于基于获取到的角色切割图片分别对应的业务对象,确定视频帧对应的图片特征信息。
[0007]其中,该图片切割单元包括:位置确定子单元,用于对视频帧中的角色关键部位进行检测定位,确定角色关键部位在视频帧中的位置信息;切割子单元,用于基于位置信息,在视频帧中切割角色关键部位,得到X个包含角色关键部位的角色切割图片,将X个角色切割图片作为视频帧对应的角色图片。
[0008]其中,该向量匹配单元包括:数据库获取子单元,用于获取与候选对象相关联的信息向量数据库;信息向量数据库用于存储Y个候选对象分别对应的对象关键信息向量;Y为大于或者等于M的正整数;向量距离确定子单元,用于分别确定图片信息向量L
i
与Y个对象关键信息向量中的每个对象关键信息向量之间的向量距离,得到Y个向量距离;对象匹配子单元,用于从Y个向量距离中获取小于或者等于距离阈值的最小向量距离,确定最小向量距离对应的对象关键信息向量所对应的候选对象,将确定的候选对象作为角色切割图片T
i
对应的业务对象。
[0009]其中,该聚类处理模块包括:对象音频帧确定单元,用于从多媒体数据中获取原始音频帧,对原始音频帧进行对象定位剥离处理,得到N个对象音频帧;语义特征提取单元,用于对N个对象音频帧中的每个对象音频帧进行语义特征提取,得到每个对象音频帧对应的音频语义特征向量;聚类处理单元,用于将M确定为待聚类的簇心数量,基于簇心数量,对获取到的每个对象音频帧对应的音频语义特征向量进行聚类处理,得到M个音频聚类簇。
[0010]其中,该对象音频帧确定单元包括:原始音频帧获取子单元,用于从多媒体数据中获取原始音频帧;信源分离子单元,用于对原始音频帧进行信源分离,得到针对业务对象的待处理音频帧;对象音频帧确定子单元,用于基于用于剔除静音帧的音频边界检测策略,对待处理音频帧中的音频冲击信号帧进行定位切割,得到N个对象音频帧。
[0011]其中,信源分离子单元包括:
幅度谱生成子单元,用于将原始音频帧输入至信源分离模型,通过信源分离模型生成原始音频帧对应的频谱幅度谱;信源分离模型包括第一分割网络层和第二分割网络层;类型特征生成子单元,用于将频谱幅度谱分别输入第一分割网络层以及第二分割网络层,通过第一分割网络层生成频谱幅度谱对应的第一类型特征,通过第二分割网络层生成频谱幅度谱对应的第二类型特征;合并掩码子单元,用于对第一类型特征和第二类型特征进行合并掩码处理,得到第一类型特征对应的目标掩码图;待处理音频帧确定子单元,用于基于目标掩码图与频谱幅度谱,生成目标类型音频帧,将目标类型音频帧作为信源分离模型所输出的针对业务对象的待处理音频帧。
[0012]其中,该语义特征提取单元包括:音频帧输入子单元,用于将N个对象音频帧输入至音频语义特征提取模型;音频语义特征提取模型包括频域分支网络层、时域分支网络层以及卷积网络层;频域特征确定子单元,用于通过频域分支网络层,对N个对象音频帧进行特征学习,得到频域学习特征;时域特征确定子单元,用于通过时域分支网络层,对N个对象音频帧进行特征学习,得到时域学习特征;频域学习特征与时域学习特征之间的特征维度相同;音频特征向量确定子单元,用于将频域学习特征与时域学习特征进行叠加处理,得到叠加学习特征,将叠加学习特征输入至卷积网络层,对叠加学习特征进行最大平均处理,输出每个对象音频帧对应的音频语义特征向量。
[0013]其中,该音频角色识别模块包括:第一时间提取单元,用于从M个音频聚类簇中获取音频聚类簇C
k
,提取音频聚类簇C
k
在多媒体数据中的第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:从多媒体数据的视频帧中获取图片特征信息;所述图片特征信息用于指示所述视频帧中的角色图片所属的M个业务对象;M为正整数;确定所述多媒体数据中的N个对象音频帧分别对应的音频语义特征向量,对每个对象音频帧对应的音频语义特征向量进行聚类处理,得到M个音频聚类簇;所述N个对象音频帧是对所述多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的;N为正整数;一个音频聚类簇对应一个业务对象;基于所述图片特征信息、所述M个音频聚类簇以及与所述多媒体数据相关联的对象角色映射表,识别P个音频聚类簇中的每个音频聚类簇分别对应的业务角色;P为小于或者等于M的正整数;所述对象角色映射表包括与列表业务对象具有映射关系的业务角色;所述列表业务对象与所述M个业务对象之间存在P个重合的业务对象。2.根据权利要求1所述的方法,其特征在于,所述从多媒体数据的视频帧中获取图片特征信息,包括:从多媒体数据中获取视频帧;对所述视频帧中的角色关键部位进行图片切割处理,得到所述视频帧对应的角色图片;所述角色图片包括X个角色切割图片;X为大于或者等于M的正整数;获取所述X个角色切割图片中的角色切割图片T
i
,对所述角色切割图片T
i
进行图片编码处理,得到所述角色切割图片T
i
对应的图片信息向量L
i
;i为小于或者等于X的正整数;从与候选对象相关联的信息向量数据库中,确定与所述图片信息向量L
i
相匹配的对象关键信息向量,将匹配到的对象关键信息向量对应的候选对象作为所述角色切割图片T
i
对应的业务对象;基于获取到的角色切割图片分别对应的业务对象,确定所述视频帧对应的图片特征信息。3.根据权利要求2所述的方法,其特征在于,所述对所述视频帧中的角色关键部位进行图片切割处理,得到所述视频帧对应的角色图片,包括:对所述视频帧中的角色关键部位进行检测定位,确定所述角色关键部位在所述视频帧中的位置信息;基于所述位置信息,在所述视频帧中切割所述角色关键部位,得到X个包含所述角色关键部位的角色切割图片,将X个角色切割图片作为所述视频帧对应的角色图片。4.根据权利要求2所述的方法,其特征在于,所述从与候选对象相关联的信息向量数据库中,确定与所述图片信息向量L
i
相匹配的对象关键信息向量,将匹配到的对象关键信息向量对应的候选对象作为所述角色切割图片T
i
对应的业务对象,包括:获取与候选对象相关联的信息向量数据库;所述信息向量数据库用于存储Y个候选对象分别对应的对象关键信息向量;Y为大于或者等于M的正整数;分别确定所述图片信息向量L
i
与Y个对象关键信息向量中的每个对象关键信息向量之间的向量距离,得到Y个向量距离;从所述Y个向量距离中获取小于或者等于距离阈值的最小向量距离,确定所述最小向量距离对应的对象关键信息向量所对应的候选对象,将确定的候选对象作为所述角色切割图片T
i
对应的业务对象。
5.根据权利要求1所述的方法,其特征在于,所述确定所述多媒体数据中的N个对象音频帧分别对应的音频语义特征向量,对每个对象音频帧对应的音频语义特征向量进行聚类处理,得到M个音频聚类簇,包括:从所述多媒体数据中获取原始音频帧,对所述原始音频帧进行对象定位剥离处理,得到N个对象音频帧;对所述N个对象音频帧中的每个对象音频帧进行语义特征提取,得到所述每个对象音频帧对应的音频语义特征向量;将M确定为待聚类的簇心数量,基于所述簇心数量,对获取到的每个对象音频帧对应的音频语义特征向量进行聚类处理,得到M个音频聚类簇。6.根据权利要求5所述的方法,其特征在于,所述从所述多媒体数据中获取原始音频帧,对所述原始音频帧进行对象定位剥离处理,得到N个对象音频帧,包括:从所述多媒体数据中获取原始音频帧;对所述原始音频帧进行信源分离,得到针对所述业务对象的待处理音频帧;基于用于剔除静音帧的音频边界检测策略,对所述待处理音频帧中的音频冲击信号帧进行定位切割,得到N个对象音频帧。7.根据权利要求6所述的方法,其特征在于,所述对所述原始音频帧进行信源分离,得到针对所述业务对象的待处理音频帧,包括:将所述原始音频帧输入至信源分离模型,通过所述信源分离模型生成所述原始音频帧对应的频谱幅度谱;所述信源分离模型包括第一分割网络层和第二分割网络层;将所述频谱幅度谱分别输入所述第一分割网络层以及所述第二分割网络层,通过所述第一分割网络层生成所述频谱幅度谱对应的第一类型特征,通过所述第二分割网络层生成所述频谱幅度谱对应的第二类型特征;对所述第一类型特征和所述第二类型特征进行合并掩码处理,得到所述第一类型特征对应的目标掩码图;基于所述目标掩码图与所述频谱幅度谱,生成目标类型音频帧,将所述目标类型音频帧作为所述信源分离模型所输出的针对所述业务对象的待处理音频帧。8.根据权利要求5所述的方法,其特征在于,所述对所述N个对象音频帧中的每个对象音频帧进行语义特征提取,得到所述每个对象音频帧对应的音频语义特征向量,包括:将所述N个对象音频帧输入至音频语义特征提取模型;所述音频语义特征提取模型包括频域分支网络层...

【专利技术属性】
技术研发人员:冯鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1