音频诊断方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：39145158 阅读：10 留言：0更新日期：2023-10-23 14:56

本申请涉及一种音频诊断方法、装置、计算机设备、存储介质和计算机程序产品，可用于音频处理技术领域，也可用于金融科技领域或其他相关领域。该方法包括：对待诊断音频片段和前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据前音频片段序列，得到与待诊断音频片段对应的预测音频片段，提取待诊断音频片段的背景噪声特征；分别将目标声纹特征、背景噪声特征与预测音频片段进行注意力机制处理，根据处理后的目标声纹特征、预测音频片段和处理后的背景噪声特，预测得到待诊断音频片段的真实性标签、实时性标签和背噪性标签；根据真实性标签、实时性标签和背噪性标签，确定待诊断音频片段的诊断结果。采用本方法能够提高音频诊断准确率。频诊断准确率。频诊断准确率。

全部详细技术资料下载

【技术实现步骤摘要】
音频诊断方法、装置、计算机设备和存储介质

[0001]本申请涉及音频处理
，特别是涉及一种音频诊断方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]在金融业务场景中，有时候需要对金融系统的音频进行审核，比如贷款面签过程中的音频。为了保证音频内容的有效性，需要对音频进行诊断，避免音频被篡改伪造，影响音频审核结果。
[0003]传统技术中，对金融系统的音频进行诊断时，主要是通过单一维度对音频进行诊断，比如检测音频的声纹，判断音频是否伪造。但是，通过这种单一维度的音频诊断方法，容易存在误判或者错判，导致音频诊断准确率较低。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种能够音频诊断准确率的音频诊断方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面，本申请提供了一种音频诊断方法。所述方法包括：
[0006]获取金融系统的待诊断音频片段和所述待诊断音频片段的前音频片段序列；所述前音频片段序列中至少包括所述待诊断音频片段的前一音频片段；
[0007]对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据所述前音频片段序列，得到与所述待诊断音频片段对应的预测音频片段，以及提取所述待诊断音频片段的背景噪声特征；所述目标声纹特征包括所述待诊断音频片段的第一声纹特征和所述前一音频片段的第二声纹特征；
[0008]分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行...

【技术保护点】

【技术特征摘要】
1.一种音频诊断方法，其特征在于，所述方法包括：获取金融系统的待诊断音频片段和所述待诊断音频片段的前音频片段序列；所述前音频片段序列中至少包括所述待诊断音频片段的前一音频片段；对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据所述前音频片段序列，得到与所述待诊断音频片段对应的预测音频片段，以及提取所述待诊断音频片段的背景噪声特征；所述目标声纹特征包括所述待诊断音频片段的第一声纹特征和所述前一音频片段的第二声纹特征；分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行注意力机制处理，得到处理后的目标声纹特征和处理后的背景噪声特征；将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征进行融合处理，得到融合特征，根据所述融合特征，预测得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签；根据所述真实性标签、所述实时性标签和所述背噪性标签，确定所述待诊断音频片段的音频诊断结果。2.根据权利要求1所述的方法，其特征在于，所述对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据所述前音频片段序列，得到与所述待诊断音频片段对应的预测音频片段，以及提取所述待诊断音频片段的背景噪声特征，包括：将所述待诊断音频片段和所述前一音频片段，输入预先训练的音频诊断模型中的声纹特征提取网络，得到所述第一声纹特征和所述第二声纹特征，将所述第一声纹特征和所述第二声纹特征进行组合，得到目标声纹特征；将所述前音频片段序列输入所述预先训练的音频诊断模型中的声音序列预测网络，得到与所述待诊断音频片段对应的预测音频片段；将所述待诊断音频片段输入所述预先训练的音频诊断模型中的噪声特征提取网络和噪声水平建模网络，得到所述待诊断音频片段的背景噪声特征。3.根据权利要求2所述的方法，其特征在于，所述分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行注意力机制处理，得到处理后的目标声纹特征和处理后的背景噪声特征，包括：将所述目标声纹特征与所述预测音频片段，输入所述预先训练的音频诊断模型中的第一注意力机制处理层，得到处理后的目标声纹特征；将所述背景噪声特征与所述预测音频片段，输入所述预先训练的音频诊断模型中的第二注意力机制处理层，得到处理后的背景噪声特征；所述将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征进行融合处理，得到融合特征，根据所述融合特征，预测得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签，包括：将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征，输入所述预先训练的音频诊断模型中的拼接层进行拼接处理，得到拼接特征，作为所述融合特征；将所述融合特征输入所述预先训练的音频诊断模型中的多标签预测层，得到所述待诊
断音频片段的真实性标签、实时性标签和背噪性标签。4.根据权利要求2或3所述的方法，其特征在于，所述预先训练的音频诊断模型通过下述方式训练得到：分别对待训练的音频诊断模型中的待训练声纹特征提取网络、待训练声音序列预测网络、待训练噪声特征提取网络和待训练噪声水平建模网络进行单独预训练，得到预训练声纹特征提取网络、预训练声音序列预测网络、预训练噪声特征提取网络和预训练噪声水平建模网络，并将所述预训练声音序列预测网络作为所述声音序列预测网络；根据所述预训练声纹特征提取网络、所述声音序列预测网络、所述预训练噪声特征提取网络和所述预训练噪声水平建模网络，对所述待训练的音频诊断模型进行更新，得到预训练的音频诊断模型；将样本音频片段、所述样本音频片段的前一样本音频片段和所述样本音频片段的前样本音频片段序列，输入所述预训练的音频诊断模型，得到所述样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签；根据所述样本音频片段的预测真实性标...

【专利技术属性】
技术研发人员：徐雪，江文乐，杨洁琼，王心月，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人