【技术实现步骤摘要】
音频诊断方法、装置、计算机设备和存储介质
[0001]本申请涉及音频处理
,特别是涉及一种音频诊断方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
[0002]在金融业务场景中,有时候需要对金融系统的音频进行审核,比如贷款面签过程中的音频。为了保证音频内容的有效性,需要对音频进行诊断,避免音频被篡改伪造,影响音频审核结果。
[0003]传统技术中,对金融系统的音频进行诊断时,主要是通过单一维度对音频进行诊断,比如检测音频的声纹,判断音频是否伪造。但是,通过这种单一维度的音频诊断方法,容易存在误判或者错判,导致音频诊断准确率较低。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种能够音频诊断准确率的音频诊断方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种音频诊断方法。所述方法包括:
[0006]获取金融系统的待诊断音频片段和所述待诊断音频片段的前音频片段序列;所述前音频片段序列中至少包括所述待诊断音频片段的前一音频片段;
[0007]对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理,得到目标声纹特征,根据所述前音频片段序列,得到与所述待诊断音频片段对应的预测音频片段,以及提取所述待诊断音频片段的背景噪声特征;所述目标声纹特征包括所述待诊断音频片段的第一声纹特征和所述前一音频片段的第二声纹特征;
[0008]分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行 ...
【技术保护点】
【技术特征摘要】
1.一种音频诊断方法,其特征在于,所述方法包括:获取金融系统的待诊断音频片段和所述待诊断音频片段的前音频片段序列;所述前音频片段序列中至少包括所述待诊断音频片段的前一音频片段;对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理,得到目标声纹特征,根据所述前音频片段序列,得到与所述待诊断音频片段对应的预测音频片段,以及提取所述待诊断音频片段的背景噪声特征;所述目标声纹特征包括所述待诊断音频片段的第一声纹特征和所述前一音频片段的第二声纹特征;分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行注意力机制处理,得到处理后的目标声纹特征和处理后的背景噪声特征;将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征进行融合处理,得到融合特征,根据所述融合特征,预测得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签;根据所述真实性标签、所述实时性标签和所述背噪性标签,确定所述待诊断音频片段的音频诊断结果。2.根据权利要求1所述的方法,其特征在于,所述对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理,得到目标声纹特征,根据所述前音频片段序列,得到与所述待诊断音频片段对应的预测音频片段,以及提取所述待诊断音频片段的背景噪声特征,包括:将所述待诊断音频片段和所述前一音频片段,输入预先训练的音频诊断模型中的声纹特征提取网络,得到所述第一声纹特征和所述第二声纹特征,将所述第一声纹特征和所述第二声纹特征进行组合,得到目标声纹特征;将所述前音频片段序列输入所述预先训练的音频诊断模型中的声音序列预测网络,得到与所述待诊断音频片段对应的预测音频片段;将所述待诊断音频片段输入所述预先训练的音频诊断模型中的噪声特征提取网络和噪声水平建模网络,得到所述待诊断音频片段的背景噪声特征。3.根据权利要求2所述的方法,其特征在于,所述分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行注意力机制处理,得到处理后的目标声纹特征和处理后的背景噪声特征,包括:将所述目标声纹特征与所述预测音频片段,输入所述预先训练的音频诊断模型中的第一注意力机制处理层,得到处理后的目标声纹特征;将所述背景噪声特征与所述预测音频片段,输入所述预先训练的音频诊断模型中的第二注意力机制处理层,得到处理后的背景噪声特征;所述将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征进行融合处理,得到融合特征,根据所述融合特征,预测得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签,包括:将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征,输入所述预先训练的音频诊断模型中的拼接层进行拼接处理,得到拼接特征,作为所述融合特征;将所述融合特征输入所述预先训练的音频诊断模型中的多标签预测层,得到所述待诊
断音频片段的真实性标签、实时性标签和背噪性标签。4.根据权利要求2或3所述的方法,其特征在于,所述预先训练的音频诊断模型通过下述方式训练得到:分别对待训练的音频诊断模型中的待训练声纹特征提取网络、待训练声音序列预测网络、待训练噪声特征提取网络和待训练噪声水平建模网络进行单独预训练,得到预训练声纹特征提取网络、预训练声音序列预测网络、预训练噪声特征提取网络和预训练噪声水平建模网络,并将所述预训练声音序列预测网络作为所述声音序列预测网络;根据所述预训练声纹特征提取网络、所述声音序列预测网络、所述预训练噪声特征提取网络和所述预训练噪声水平建模网络,对所述待训练的音频诊断模型进行更新,得到预训练的音频诊断模型;将样本音频片段、所述样本音频片段的前一样本音频片段和所述样本音频片段的前样本音频片段序列,输入所述预训练的音频诊断模型,得到所述样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签;根据所述样本音频片段的预测真实性标...
【专利技术属性】
技术研发人员:徐雪,江文乐,杨洁琼,王心月,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。