音频诊断方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:39145158 阅读:10 留言:0更新日期:2023-10-23 14:56
本申请涉及一种音频诊断方法、装置、计算机设备、存储介质和计算机程序产品,可用于音频处理技术领域,也可用于金融科技领域或其他相关领域。该方法包括:对待诊断音频片段和前一音频片段进行声纹特征提取处理,得到目标声纹特征,根据前音频片段序列,得到与待诊断音频片段对应的预测音频片段,提取待诊断音频片段的背景噪声特征;分别将目标声纹特征、背景噪声特征与预测音频片段进行注意力机制处理,根据处理后的目标声纹特征、预测音频片段和处理后的背景噪声特,预测得到待诊断音频片段的真实性标签、实时性标签和背噪性标签;根据真实性标签、实时性标签和背噪性标签,确定待诊断音频片段的诊断结果。采用本方法能够提高音频诊断准确率。频诊断准确率。频诊断准确率。

【技术实现步骤摘要】
音频诊断方法、装置、计算机设备和存储介质


[0001]本申请涉及音频处理
,特别是涉及一种音频诊断方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]在金融业务场景中,有时候需要对金融系统的音频进行审核,比如贷款面签过程中的音频。为了保证音频内容的有效性,需要对音频进行诊断,避免音频被篡改伪造,影响音频审核结果。
[0003]传统技术中,对金融系统的音频进行诊断时,主要是通过单一维度对音频进行诊断,比如检测音频的声纹,判断音频是否伪造。但是,通过这种单一维度的音频诊断方法,容易存在误判或者错判,导致音频诊断准确率较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够音频诊断准确率的音频诊断方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种音频诊断方法。所述方法包括:
[0006]获取金融系统的待诊断音频片段和所述待诊断音频片段的前音频片段序列;所述前音频片段序列中至少包括所述待诊断音频片段的前一音频片段;
[0007]对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理,得到目标声纹特征,根据所述前音频片段序列,得到与所述待诊断音频片段对应的预测音频片段,以及提取所述待诊断音频片段的背景噪声特征;所述目标声纹特征包括所述待诊断音频片段的第一声纹特征和所述前一音频片段的第二声纹特征;
[0008]分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行注意力机制处理,得到处理后的目标声纹特征和处理后的背景噪声特征;
[0009]将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征进行融合处理,得到融合特征,根据所述融合特征,预测得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签;
[0010]根据所述真实性标签、所述实时性标签和所述背噪性标签,确定所述待诊断音频片段的音频诊断结果。
[0011]在其中一个实施例中,所述对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理,得到目标声纹特征,根据所述前音频片段序列,得到与所述待诊断音频片段对应的预测音频片段,以及提取所述待诊断音频片段的背景噪声特征,包括:
[0012]将所述待诊断音频片段和所述前一音频片段,输入预先训练的音频诊断模型中的声纹特征提取网络,得到所述第一声纹特征和所述第二声纹特征,将所述第一声纹特征和所述第二声纹特征进行组合,得到目标声纹特征;
[0013]将所述前音频片段序列输入所述预先训练的音频诊断模型中的声音序列预测网
络,得到与所述待诊断音频片段对应的预测音频片段;
[0014]将所述待诊断音频片段输入所述预先训练的音频诊断模型中的噪声特征提取网络和噪声水平建模网络,得到所述待诊断音频片段的背景噪声特征。
[0015]在其中一个实施例中,所述分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行注意力机制处理,得到处理后的目标声纹特征和处理后的背景噪声特征,包括:
[0016]将所述目标声纹特征与所述预测音频片段,输入所述预先训练的音频诊断模型中的第一注意力机制处理层,得到处理后的目标声纹特征;
[0017]将所述背景噪声特征与所述预测音频片段,输入所述预先训练的音频诊断模型中的第二注意力机制处理层,得到处理后的背景噪声特征;
[0018]所述将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征进行融合处理,得到融合特征,根据所述融合特征,预测得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签,包括:
[0019]将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征,输入所述预先训练的音频诊断模型中的拼接层进行拼接处理,得到拼接特征,作为所述融合特征;
[0020]将所述融合特征输入所述预先训练的音频诊断模型中的多标签预测层,得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签。
[0021]在其中一个实施例中,所述预先训练的音频诊断模型通过下述方式训练得到:
[0022]分别对待训练的音频诊断模型中的待训练声纹特征提取网络、待训练声音序列预测网络、待训练噪声特征提取网络和待训练噪声水平建模网络进行单独预训练,得到预训练声纹特征提取网络、预训练声音序列预测网络、预训练噪声特征提取网络和预训练噪声水平建模网络,并将所述预训练声音序列预测网络作为所述声音序列预测网络;
[0023]根据所述预训练声纹特征提取网络、所述声音序列预测网络、所述预训练噪声特征提取网络和所述预训练噪声水平建模网络,对所述待训练的音频诊断模型进行更新,得到预训练的音频诊断模型;
[0024]将样本音频片段、所述样本音频片段的前一样本音频片段和所述样本音频片段的前样本音频片段序列,输入所述预训练的音频诊断模型,得到所述样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签;
[0025]根据所述样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签,以及所述样本音频片段的实际真实性标签、实际实时性标签和实际背噪性标签,对所述预训练的音频诊断模型进行训练,得到训练完成的音频诊断模型,作为所述预先训练的音频诊断模型。
[0026]在其中一个实施例中,所述根据所述样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签,以及所述样本音频片段的实际真实性标签、实际实时性标签和实际背噪性标签,对所述预训练的音频诊断模型进行训练,得到训练完成的音频诊断模型,包括:
[0027]根据所述预测真实性标签和所述实际真实性标签之间的差异,得到第一损失值,根据所述预测实时性标签和所述实际实时性标签之间的差异,得到第二损失值,以及根据
所述预测背噪性标签和所述实际背噪性标签之间的差异,得到第三损失值;
[0028]将所述第一损失值、所述第二损失值和所述第三损失值进行融合处理,得到目标损失值;
[0029]根据所述目标损失值,对所述预训练的音频诊断模型中除所述声音序列预测网络之外的网络对应的网络参数进行调整,并对调整后的音频诊断模型进行训练,直到达到训练结束条件;
[0030]将达到所述训练结束条件的训练后的音频诊断模型,作为训练完成的音频诊断模型。
[0031]在其中一个实施例中,所述根据所述真实性标签、所述实时性标签和所述背噪性标签,确定所述待诊断音频片段的音频诊断结果,包括:
[0032]获取所述真实性标签的第一权重、所述实时性标签的第二权重和所述背噪性标签的第三权重;
[0033]根据所述第一权重、所述第二权重和所述第三权重,对所述真实性标签对应的分数、所述实时性标签对应的分数和所述背噪性标签对应的分数进行融合处理,得到目标分数;
[0034]根据所述目标分数,确定所述待诊断音频片段的音频诊断结果。
[0035]在其中一个实施例中,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频诊断方法,其特征在于,所述方法包括:获取金融系统的待诊断音频片段和所述待诊断音频片段的前音频片段序列;所述前音频片段序列中至少包括所述待诊断音频片段的前一音频片段;对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理,得到目标声纹特征,根据所述前音频片段序列,得到与所述待诊断音频片段对应的预测音频片段,以及提取所述待诊断音频片段的背景噪声特征;所述目标声纹特征包括所述待诊断音频片段的第一声纹特征和所述前一音频片段的第二声纹特征;分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行注意力机制处理,得到处理后的目标声纹特征和处理后的背景噪声特征;将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征进行融合处理,得到融合特征,根据所述融合特征,预测得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签;根据所述真实性标签、所述实时性标签和所述背噪性标签,确定所述待诊断音频片段的音频诊断结果。2.根据权利要求1所述的方法,其特征在于,所述对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理,得到目标声纹特征,根据所述前音频片段序列,得到与所述待诊断音频片段对应的预测音频片段,以及提取所述待诊断音频片段的背景噪声特征,包括:将所述待诊断音频片段和所述前一音频片段,输入预先训练的音频诊断模型中的声纹特征提取网络,得到所述第一声纹特征和所述第二声纹特征,将所述第一声纹特征和所述第二声纹特征进行组合,得到目标声纹特征;将所述前音频片段序列输入所述预先训练的音频诊断模型中的声音序列预测网络,得到与所述待诊断音频片段对应的预测音频片段;将所述待诊断音频片段输入所述预先训练的音频诊断模型中的噪声特征提取网络和噪声水平建模网络,得到所述待诊断音频片段的背景噪声特征。3.根据权利要求2所述的方法,其特征在于,所述分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行注意力机制处理,得到处理后的目标声纹特征和处理后的背景噪声特征,包括:将所述目标声纹特征与所述预测音频片段,输入所述预先训练的音频诊断模型中的第一注意力机制处理层,得到处理后的目标声纹特征;将所述背景噪声特征与所述预测音频片段,输入所述预先训练的音频诊断模型中的第二注意力机制处理层,得到处理后的背景噪声特征;所述将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征进行融合处理,得到融合特征,根据所述融合特征,预测得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签,包括:将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征,输入所述预先训练的音频诊断模型中的拼接层进行拼接处理,得到拼接特征,作为所述融合特征;将所述融合特征输入所述预先训练的音频诊断模型中的多标签预测层,得到所述待诊
断音频片段的真实性标签、实时性标签和背噪性标签。4.根据权利要求2或3所述的方法,其特征在于,所述预先训练的音频诊断模型通过下述方式训练得到:分别对待训练的音频诊断模型中的待训练声纹特征提取网络、待训练声音序列预测网络、待训练噪声特征提取网络和待训练噪声水平建模网络进行单独预训练,得到预训练声纹特征提取网络、预训练声音序列预测网络、预训练噪声特征提取网络和预训练噪声水平建模网络,并将所述预训练声音序列预测网络作为所述声音序列预测网络;根据所述预训练声纹特征提取网络、所述声音序列预测网络、所述预训练噪声特征提取网络和所述预训练噪声水平建模网络,对所述待训练的音频诊断模型进行更新,得到预训练的音频诊断模型;将样本音频片段、所述样本音频片段的前一样本音频片段和所述样本音频片段的前样本音频片段序列,输入所述预训练的音频诊断模型,得到所述样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签;根据所述样本音频片段的预测真实性标...

【专利技术属性】
技术研发人员:徐雪江文乐杨洁琼王心月
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1