一种台词对应人物的确定方法、装置及电子设备制造方法及图纸

技术编号:37377746 阅读:13 留言:0更新日期:2023-04-27 07:20
本发明专利技术实施例提供了台词对应人物的确定方法、装置及电子设备,电子设备可以获取待处理声纹特征;将所述声纹特征进行聚类,确定每个声纹特征所属的类别;基于每个类别对应目标视频画面信息,确定该类别声纹特征所对应备选人物;针对每个类别,根据该类别的声纹特征对应的备选人物数量,确定该类别声纹特征对应的台词所对应人物。由于同一人物在目标视频中所说台词对应的声纹特征相似,因此将台词对应的声纹特征聚类,确定声纹特征所属类别,由于视频画面中出现频率高的人物通常为台词对应人物,因此基于类别对应的画面信息确定该类别声纹特征对应的备选人物,根据备选数量确定该类别声纹特征对应台词对应的人物,提高了确定台词对应人物的准确度。词对应人物的准确度。词对应人物的准确度。

【技术实现步骤摘要】
一种台词对应人物的确定方法、装置及电子设备


[0001]本专利技术涉及语音处理
,特别是涉及一种台词对应人物的确定方法、装置及电子设备。

技术介绍

[0002]在视频剪辑、视频解说等场景中,需要确定视频中的每句台词对应的人物,也就是台词的说话人,这样,才能对视频进行较好地剪辑、解说等。为了确定视频中的每句台词对应的人物,需要提取视频中每个人物的声纹特征,从而建立声纹特征库,然后提取视频中的每句台词对应的声纹特征,进而,将提取到的每个声纹特征逐一与声纹特征库中的每个人物的声纹特征进行比对,从声纹特征库中找到最为相似的声纹特征,将该声纹特征对应的人物,确定为台词的说话人。
[0003]然而,上述台词对应的人物的确定方式中,由于不同场景下的背景声可能不同,人物的情绪可能不同,所以在不同场景提取的同一人物的声纹特征的差异可能较大,以及由于配音演员相同导致不同人物角色音色非常相近等,因此通过声纹特征库确定台词对应的人物,人物确定的准确度并不高。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种台词对应人物的确定方法、装置及电子设备,以提高确定台词对应人物的准确度。具体技术方案如下:
[0005]第一方面,本专利技术实施例提供了一种台词对应人物的确定方法,所述方法包括:
[0006]获取待处理声纹特征,其中,所述待处理声纹特征为目标视频中的台词对应的声纹特征;
[0007]将所述声纹特征进行聚类,确定每个声纹特征所属的类别;
[0008]基于每个类别对应的所述目标视频的画面信息,确定该类别的声纹特征所对应的备选人物;
[0009]针对每个类别,根据该类别的声纹特征对应的备选人物的数量,确定该类别的声纹特征对应的台词所对应的人物。
[0010]可选的,所述获取待处理声纹特征的步骤,包括:
[0011]将所述目标视频对应的音频按照台词的开始时间和结束时间,划分为每句台词对应的音频片段;
[0012]提取每个音频片段的声纹特征,得到待处理声纹特征。
[0013]可选的,所述将所述声纹特征进行聚类,确定每个声纹特征所属的类别的步骤,包括:
[0014]基于所述目标视频的场景信息,确定所述目标视频包括的每个场景对应的时间段;
[0015]将每个时间段对应的声纹特征进行聚类,确定每个时间段对应的声纹特征所属的
类别。
[0016]可选的,所述基于每个类别对应的所述目标视频的画面信息,确定该类别的声纹特征所对应的备选人物的步骤,包括:
[0017]针对所述每个类别,获取该类别包括的声纹特征对应的时间段内所述目标视频的视频帧;
[0018]对所述视频帧进行人脸识别,确定该时间段所包括的视频帧中每个人物出现时长的比例;
[0019]将对应的比例达到预设比例的人物,确定为该类别的声纹特征所对应的备选人物。
[0020]可选的,所述根据该类别的声纹特征对应的备选人物的数量,确定该类别的声纹特征对应的台词所对应的人物的步骤,包括:
[0021]如果该类别的声纹特征对应的备选人物的数量为一个,确定该备选人物为该类别的声纹特征对应的台词所对应的人物;
[0022]如果该类别的声纹特征对应的备选人物的数量为多个,基于该类别的聚类中心与第一目标类别的聚类中心之间的相似度,确定该类别的声纹特征对应的台词所对应的人物,其中,所述第一目标类别为与该类别对应的场景相同,且对应的备选人物的数量为一个的类别。
[0023]可选的,所述基于该类别的聚类中心与第一目标类别的聚类中心之间的相似度,确定该类别的声纹特征对应的台词所对应的人物的步骤,包括:
[0024]分别计算该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度;
[0025]将对应的相似度达到第一预设相似度的第一目标类别所对应的备选人物,确定为该类别的声纹特征对应的台词所对应的人物。
[0026]可选的,所述方法还包括:
[0027]如果该类别的聚类中心与每个第一目标类别的聚类中心之间的相似度均未达到所述第一预设相似度,分别计算该类别的聚类中心与每个第二目标类别的聚类中心之间的相似度,其中,所述第二目标类别为与该类别对应的场景不同,且对应的备选人物的数量为一个的类别;
[0028]将对应的相似度达到第二预设相似度的第二目标类别所对应的备选人物,确定为该类别的声纹特征对应的台词所对应的人物。
[0029]可选的,所述方法还包括:
[0030]如果该类别的聚类中心与每个第二目标类别的聚类中心之间的相似度均未达到所述第二预设相似度,针对该类别的每个声纹特征,计算该声纹特征与该类别中的其他声纹特征之间的相似度;
[0031]如果达到预设阈值的相似度的占比小于预设占比,获取包括该声纹特征对应的视频时间点的预设时长内的各待比对声纹特征;
[0032]分别计算该声纹特征与每个待比对声纹特征之间的相似度;
[0033]将对应的相似度最高待比对声纹特征对应的人物,确定为该声纹特征对应的台词所对应的人物。
[0034]第二方面,本专利技术实施例提供了一种台词对应人物的确定装置,所述装置包括:
[0035]第一声纹特征获取模块,用于获取待处理声纹特征,其中,所述待处理音频声纹特征为目标视频中的台词对应的声纹特征;
[0036]声纹特征聚类模块,用于将所述声纹特征进行聚类,确定每个声纹特征所属的类别;
[0037]备选人物确定模块,用于基于每个类别对应的所述目标视频的画面信息,确定该类别的声纹特征所对应的备选人物;
[0038]第一人物确定模块,用于针对每个类别,根据该类别的声纹特征对应的备选人物的数量,确定该类别的声纹特征对应的台词所对应的人物。
[0039]第三方面,本专利技术实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0040]存储器,用于存放计算机程序;
[0041]处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一所述的方法步骤。
[0042]第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。
[0043]本专利技术实施例提供的一种台词对应人物的确定方法、装置及电子设备,通过获取待处理声纹特征,其中,待处理音频声纹特征为目标视频中的台词对应的声纹特征;将所述声纹特征进行聚类,确定每个声纹特征所属的类别;基于每个类别对应的目标视频的画面信息,确定该类别的声纹特征所对应的备选人物;针对每个类别,根据该类别的声纹特征对应的备选人物的数量,确定该类别的声纹特征对应的台词所对应的人物。在本方案中,由于同一人物在目标视频中所说的台词对应的声纹特征是相似的,因此可以将目标视频中台词对应的声纹特征进行聚类,确定每个声纹特征所属的类别,由于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种台词对应人物的确定方法,其特征在于,所述方法包括:获取待处理声纹特征,其中,所述待处理声纹特征为目标视频中的台词对应的声纹特征;将所述声纹特征进行聚类,确定每个声纹特征所属的类别;基于每个类别对应的所述目标视频的画面信息,确定该类别的声纹特征所对应的备选人物;针对每个类别,根据该类别的声纹特征对应的备选人物的数量,确定该类别的声纹特征对应的台词所对应的人物。2.根据权利要求1所述的方法,其特征在于,所述获取待处理声纹特征的步骤,包括:将所述目标视频对应的音频按照台词的开始时间和结束时间,划分为每句台词对应的音频片段;提取每个音频片段的声纹特征,得到待处理声纹特征。3.根据权利要求1所述的方法,其特征在于,所述将所述声纹特征进行聚类,确定每个声纹特征所属的类别的步骤,包括:基于所述目标视频的场景信息,确定所述目标视频包括的每个场景对应的时间段;将每个时间段对应的声纹特征进行聚类,确定每个时间段对应的声纹特征所属的类别。4.根据权利要求1所述的方法,其特征在于,所述基于每个类别对应的所述目标视频的画面信息,确定该类别的声纹特征所对应的备选人物的步骤,包括:针对所述每个类别,获取该类别包括的声纹特征对应的时间段内所述目标视频的视频帧;对所述视频帧进行人脸识别,确定该时间段所包括的视频帧中每个人物出现时长的比例;将对应的比例达到预设比例的人物,确定为该类别的声纹特征所对应的备选人物。5.根据权利要求1

4任一项所述的方法,其特征在于,所述根据该类别的声纹特征对应的备选人物的数量,确定该类别的声纹特征对应的台词所对应的人物的步骤,包括:如果该类别的声纹特征对应的备选人物的数量为一个,确定该备选人物为该类别的声纹特征对应的台词所对应的人物;如果该类别的声纹特征对应的备选人物的数量为多个,基于该类别的聚类中心与第一目标类别的聚类中心之间的相似度,确定该类别的声纹特征对应的台词所对应的人物,其中,所述第一目标类别为与该类别对应的场景相同,且对应的备选人物的数量为一个的类别。6.根据权利要求5所述的方法,其特征在于,所述基于该类别的聚类中心与第一目标类别的聚类中心之间的相似度,确定该类别的声纹特征对应的台词所对应的人物的步骤,包括:分别计算该类别的聚类中心与每个第一目标类别的聚类中心...

【专利技术属性】
技术研发人员:程婷
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1