一种数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：33407473 阅读：77 留言：0更新日期：2022-05-11 23:31

本申请实施例公开了一种数据处理方法、装置、计算机设备及存储介质，可应用于人工智能场景，包括：从多媒体数据的视频帧中获取图片特征信息；图片特征信息用于指示视频帧中的角色图片所属的M个业务对象；确定多媒体数据中的N个对象音频帧分别对应的音频语义特征向量，对每个对象音频帧对应的音频语义特征向量进行聚类处理，得到M个音频聚类簇；N个对象音频帧是对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的；基于图片特征信息、M个音频聚类簇以及与多媒体数据相关联的对象角色映射表，识别P个音频聚类簇中的每个音频聚类簇分别对应的业务角色。采用本申请实施例，可以提高音频角色识别的精确度、效率以及适用性。适用性。适用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法、装置、计算机设备及存储介质

[0001]本申请涉及计算机
，尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]目前的角色识别方案在多媒体数据(例如，影视剧)上架前，需要人工参与角色识别，即需要花费大量的时间和精力，对该影视剧中的台词角色进行一定数量的人工标注，例如，人工确定该影视剧中出现的业务角色的数量，并对每一句语音台词进行标注，这将极大的降低了识别的效率。此外，人工参与角色识别主要依赖于标注人员的听觉感应，若同一多媒体数据中存在相似音色，则容易导致识别错误的情况，以至于降低了角色识别的精确度。

技术实现思路

[0003]本申请实施例提供一种数据处理方法、装置、计算机设备及存储介质，可以提高音频角色识别的精确度、效率以及适用性。
[0004]本申请实施例一方面提供一种数据处理方法，包括：从多媒体数据的视频帧中获取图片特征信息；图片特征信息用于指示视频帧中的角色图片所属的M个业务对象；M为正整数；确定多媒体数据中的N个对象音频帧分别对应的音频语义特征向量，对每个对象音频帧对应的音频语义特征向量进行聚类处理，得到M个音频聚类簇；N个对象音频帧是对多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的；N为正整数；一个音频聚类簇对应一个业务对象；基于图片特征信息、M个音频聚类簇以及与多媒体数据相关联的对象角色映射表，识别P个音频聚类簇中的每个音频聚类簇分别对应的业务角色；P为小于或者等于M的正整数；对象角色映射表包括与列表业务对象具有映射关系的业...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：从多媒体数据的视频帧中获取图片特征信息；所述图片特征信息用于指示所述视频帧中的角色图片所属的M个业务对象；M为正整数；确定所述多媒体数据中的N个对象音频帧分别对应的音频语义特征向量，对每个对象音频帧对应的音频语义特征向量进行聚类处理，得到M个音频聚类簇；所述N个对象音频帧是对所述多媒体数据中的原始音频帧进行对象定位剥离处理后所得到的；N为正整数；一个音频聚类簇对应一个业务对象；基于所述图片特征信息、所述M个音频聚类簇以及与所述多媒体数据相关联的对象角色映射表，识别P个音频聚类簇中的每个音频聚类簇分别对应的业务角色；P为小于或者等于M的正整数；所述对象角色映射表包括与列表业务对象具有映射关系的业务角色；所述列表业务对象与所述M个业务对象之间存在P个重合的业务对象。2.根据权利要求1所述的方法，其特征在于，所述从多媒体数据的视频帧中获取图片特征信息，包括：从多媒体数据中获取视频帧；对所述视频帧中的角色关键部位进行图片切割处理，得到所述视频帧对应的角色图片；所述角色图片包括X个角色切割图片；X为大于或者等于M的正整数；获取所述X个角色切割图片中的角色切割图片T
i
，对所述角色切割图片T
i
进行图片编码处理，得到所述角色切割图片T
i
对应的图片信息向量L
i
；i为小于或者等于X的正整数；从与候选对象相关联的信息向量数据库中，确定与所述图片信息向量L
i
相匹配的对象关键信息向量，将匹配到的对象关键信息向量对应的候选对象作为所述角色切割图片T
i
对应的业务对象；基于获取到的角色切割图片分别对应的业务对象，确定所述视频帧对应的图片特征信息。3.根据权利要求2所述的方法，其特征在于，所述对所述视频帧中的角色关键部位进行图片切割处理，得到所述视频帧对应的角色图片，包括：对所述视频帧中的角色关键部位进行检测定位，确定所述角色关键部位在所述视频帧中的位置信息；基于所述位置信息，在所述视频帧中切割所述角色关键部位，得到X个包含所述角色关键部位的角色切割图片，将X个角色切割图片作为所述视频帧对应的角色图片。4.根据权利要求2所述的方法，其特征在于，所述从与候选对象相关联的信息向量数据库中，确定与所述图片信息向量L
i
相匹配的对象关键信息向量，将匹配到的对象关键信息向量对应的候选对象作为所述角色切割图片T
i
对应的业务对象，包括：获取与候选对象相关联的信息向量数据库；所述信息向量数据库用于存储Y个候选对象分别对应的对象关键信息向量；Y为大于或者等于M的正整数；分别确定所述图片信息向量L
i
与Y个对象关键信息向量中的每个对象关键信息向量之间的向量距离，得到Y个向量距离；从所述Y个向量距离中获取小于或者等于距离阈值的最小向量距离，确定所述最小向量距离对应的对象关键信息向量所对应的候选对象，将确定的候选对象作为所述角色切割图片T
i
对应的业务对象。
5.根据权利要求1所述的方法，其特征在于，所述确定所述多媒体数据中的N个对象音频帧分别对应的音频语义特征向量，对每个对象音频帧对应的音频语义特征向量进行聚类处理，得到M个音频聚类簇，包括：从所述多媒体数据中获取原始音频帧，对所述原始音频帧进行对象定位剥离处理，得到N个对象音频帧；对所述N个对象音频帧中的每个对象音频帧进行语义特征提取，得到所述每个对象音频帧对应的音频语义特征向量；将M确定为待聚类的簇心数量，基于所述簇心数量，对获取到的每个对象音频帧对应的音频语义特征向量进行聚类处理，得到M个音频聚类簇。6.根据权利要求5所述的方法，其特征在于，所述从所述多媒体数据中获取原始音频帧，对所述原始音频帧进行对象定位剥离处理，得到N个对象音频帧，包括：从所述多媒体数据中获取原始音频帧；对所述原始音频帧进行信源分离，得到针对所述业务对象的待处理音频帧；基于用于剔除静音帧的音频边界检测策略，对所述待处理音频帧中的音频冲击信号帧进行定位切割，得到N个对象音频帧。7.根据权利要求6所述的方法，其特征在于，所述对所述原始音频帧进行信源分离，得到针对所述业务对象的待处理音频帧，包括：将所述原始音频帧输入至信源分离模型，通过所述信源分离模型生成所述原始音频帧对应的频谱幅度谱；所述信源分离模型包括第一分割网络层和第二分割网络层；将所述频谱幅度谱分别输入所述第一分割网络层以及所述第二分割网络层，通过所述第一分割网络层生成所述频谱幅度谱对应的第一类型特征，通过所述第二分割网络层生成所述频谱幅度谱对应的第二类型特征；对所述第一类型特征和所述第二类型特征进行合并掩码处理，得到所述第一类型特征对应的目标掩码图；基于所述目标掩码图与所述频谱幅度谱，生成目标类型音频帧，将所述目标类型音频帧作为所述信源分离模型所输出的针对所述业务对象的待处理音频帧。8.根据权利要求5所述的方法，其特征在于，所述对所述N个对象音频帧中的每个对象音频帧进行语义特征提取，得到所述每个对象音频帧对应的音频语义特征向量，包括：将所述N个对象音频帧输入至音频语义特征提取模型；所述音频语义特征提取模型包括频域分支网络层...

【专利技术属性】
技术研发人员：冯鑫，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人