本发明专利技术实施例提供了一种诈骗用户识别方法、装置、电子设备和可读存储介质,所述方法包括:获取待识别用户的语音信息,并提取语音信息的语音特征;将语音特征输入预先训练的声纹识别模型中,输出针对语音特征的声纹类别;其中,声纹识别模型由输入层、Bi LSTM层、注意力层、全连接层和分类层依次连接而成;声纹类别为通过输入层接收语音特征,通过Bi LSTM层提取针对语音特征的声纹特征,通过注意力层基于注意力机制获得针对声纹特征的注意力特征表达,以及通过全连接层对注意力特征表达进行加权计算后,由分类层基于进行加权计算后的注意力特征表达确定的;基于声纹类别确定待识别用户是否为诈骗用户。用Bi
【技术实现步骤摘要】
一种诈骗用户识别方法、装置、电子设备和存储介质
[0001]本专利技术涉及通信安全
,特别是涉及一种诈骗用户识别方法、一种诈骗用户识别装置、一种电子设备和一种计算机可读存储介质。
技术介绍
[0002]目前,电信网络诈骗逐渐显现出诈骗话术更新快、呼叫特征隐藏性强等新趋势与新特点。而电信运营商采用的传统诈骗电话检测方法大多是基于语义特征识别与呼叫行为特征分析的,尽管已取得较为突出的涉诈号码识别与拦截效果,但在面对使用新型诈骗话术的诈骗行为、具有低频呼叫特征的诈骗行为、伪装高可信度用户的诈骗行为等的时候,也存在着误拦截率较高、难以适应复杂应用场景的局限性。
技术实现思路
[0003]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种诈骗用户识别方法和相应的一种诈骗用户识别装置、一种电子设备,以及一种计算机可读存储介质。
[0004]本专利技术实施例公开了一种诈骗用户识别方法,所述方法包括:
[0005]获取待识别用户的语音信息,并提取所述语音信息的语音特征;
[0006]将所述语音特征输入预先训练的声纹识别模型中,输出针对所述语音特征的声纹类别;其中,所述声纹识别模型由输入层、Bi LSTM层、注意力层、全连接层和分类层依次连接而成;所述声纹类别为通过所述输入层接收所述语音特征,通过所述Bi LSTM层提取针对所述语音特征的声纹特征,通过所述注意力层基于注意力机制获得针对所述声纹特征的注意力特征表达,以及通过所述全连接层对所述注意力特征表达进行加权计算后,由所述分类层基于进行加权计算后的所述注意力特征表达确定的;
[0007]基于所述声纹类别确定所述待识别用户是否为诈骗用户。
[0008]可选地,所述预先训练的声纹识别模型通过以下方式训练得到:
[0009]获取预先建立的声纹数据库中的语音样本;
[0010]对所述语音样本依次进行预加重处理和分帧加窗处理,获取多个样本帧;
[0011]对所述样本帧进行傅里叶变换,以获取各所述样本帧分别对应的能量密度谱;
[0012]基于各所述样本帧分别对应的能量密度谱确定各所述样本帧分别对应的梅尔频率倒谱系数;
[0013]基于各所述样本帧分别对应的梅尔频率倒谱系数确定针对所述语音样本的所述语音特征样本;
[0014]采用所述语音特征样本进行模型训练,得到用于分辨声纹类别的所述声纹识别模型。
[0015]可选地,所述基于各所述样本帧分别对应的梅尔频率倒谱系数确定针对所述语音样本的所述语音特征样本,包括:
[0016]确定所述梅尔频率倒谱系数所对应的MFCC一阶差分参数和MFCC二阶差分参数,并将所述MFCC一阶差分参数和所述MFCC二阶差分参数作为针对所述语音样本的所述语音特征样本。
[0017]可选地,所述获取预先建立的声纹数据库中的语音样本,包括:
[0018]获取灰名单数据库;所述灰名单数据库中存储有预先收集的疑似异常号码和各所述疑似异常号码分别对应的号码呼叫行为信息;
[0019]基于所述疑似异常号码和对应的所述号码呼叫行为信息,确定所述疑似异常号码为异常号码的置信度;
[0020]若所述置信度大于预设置信度阈值,则确定所述疑似异常号码为异常号码,将所述异常号码导出,生成黑名单号码数据库;
[0021]对所述黑名单号码数据库中的所述异常号码的通话内容进行录音,并将所述录音作为所述语音样本存储于所述声纹数据库中。
[0022]可选地,所述号码呼叫行为信息包括预设周期内的主叫呼叫占比、主叫呼叫频次、被叫号码外省归属占比、预设周期内的短通话时长占比和预设时间段内的呼叫活跃度,所述基于所述疑似异常号码和对应的所述号码呼叫行为信息,确定所述疑似异常号码为异常号码的置信度,包括:
[0023]基于所述预设周期内的主叫呼叫占比、所述主叫呼叫频次和所述被叫号码外省归属占比确定针对所述疑似异常号码的第一疑似度;
[0024]将所述疑似异常号码所对应的TAC码与预设TAC码进行匹配,根据匹配结果确定针对所述疑似异常号码的第二疑似度;
[0025]基于所述预设周期内的短通话时长占比确定针对所述疑似异常号码的第三疑似度;
[0026]基于所述预设时间段内的呼叫活跃度确定针对所述疑似异常号码的第四疑似度;
[0027]基于所述第一疑似度、第二疑似度、第三疑似度和第四疑似度确定所述置信度。
[0028]可选地,所述基于所述第一疑似度、第二疑似度、第三疑似度和第四疑似度确定所述置信度,包括:
[0029]确定与所述第一疑似度对应的第一贡献度,并计算所述第一疑似度与所述第一贡献度的第一乘积;
[0030]确定与所述第二疑似度对应的第二贡献度,并计算所述第二疑似度与所述第二贡献度的第二乘积;
[0031]确定与所述第三疑似度对应的第三贡献度,并计算所述第三疑似度与所述第三贡献度的第三乘积;
[0032]确定与所述第四疑似度对应的第四贡献度,并计算所述第四疑似度与所述第四贡献度的第四乘积;
[0033]将所述第一乘积、第二乘积、第三乘积和所述第四乘积的和值作为所述置信度。
[0034]可选地,所述声纹类别包括诈骗声纹类别,所述基于所述声纹类别确定所述待识别用户是否为诈骗用户,包括:
[0035]若所述声纹类别为所述诈骗声纹类别,则确定所述待识别用户为诈骗用户。
[0036]本专利技术实施例还公开了一种诈骗用户识别装置,所述装置包括:
[0037]获取及提取模块,用于获取待识别用户的语音信息,并提取所述语音信息的语音特征;
[0038]输入及输出模块,用于将所述语音特征输入预先训练的声纹识别模型中,输出针对所述语音特征的声纹类别;其中,所述声纹识别模型由输入层、Bi LSTM层、注意力层、全连接层和分类层依次连接而成;所述声纹类别为通过所述输入层接收所述语音特征,通过所述Bi LSTM层提取针对所述语音特征的声纹特征,通过所述注意力层基于注意力机制获得针对所述声纹特征的注意力特征表达,以及通过所述全连接层对所述注意力特征表达进行加权计算后,由所述分类层基于进行加权计算后的所述注意力特征表达确定的;
[0039]第一确定模块,用于基于所述声纹类别确定所述待识别用户是否为诈骗用户。
[0040]可选地,所述装置还用于训练所述获得所述声纹识别模型,所述装置还包括:
[0041]第一获取模块,用于获取预先建立的声纹数据库中的语音样本;
[0042]第二获取模块,用于对所述语音样本依次进行预加重处理和分帧加窗处理,获取多个样本帧;
[0043]第三获取模块,用于对所述样本帧进行傅里叶变换,以获取各所述样本帧分别对应的能量密度谱;
[0044]第二确定模块,用于基于各所述样本帧分别对应的能量密度谱确定各所述样本帧分别对应的梅尔频率倒谱系数;
[0045]第三确定模块,用于基于各所述样本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种诈骗用户识别方法,其特征在于,所述方法包括:获取待识别用户的语音信息,并提取所述语音信息的语音特征;将所述语音特征输入预先训练的声纹识别模型中,输出针对所述语音特征的声纹类别;其中,所述声纹识别模型由输入层、BiLSTM层、注意力层、全连接层和分类层依次连接而成;所述声纹类别为通过所述输入层接收所述语音特征,通过所述Bi LSTM层提取针对所述语音特征的声纹特征,通过所述注意力层基于注意力机制获得针对所述声纹特征的注意力特征表达,以及通过所述全连接层对所述注意力特征表达进行加权计算后,由所述分类层基于进行加权计算后的所述注意力特征表达确定的;基于所述声纹类别确定所述待识别用户是否为诈骗用户。2.根据权利要求1所述的方法,其特征在于,所述预先训练的声纹识别模型通过以下方式训练得到:获取预先建立的声纹数据库中的语音样本;对所述语音样本依次进行预加重处理和分帧加窗处理,获取多个样本帧;对所述样本帧进行傅里叶变换,以获取各所述样本帧分别对应的能量密度谱;基于各所述样本帧分别对应的能量密度谱确定各所述样本帧分别对应的梅尔频率倒谱系数;基于各所述样本帧分别对应的梅尔频率倒谱系数确定针对所述语音样本的所述语音特征样本;采用所述语音特征样本进行模型训练,得到用于分辨声纹类别的所述声纹识别模型。3.根据权利要求2所述的方法,其特征在于,所述基于各所述样本帧分别对应的梅尔频率倒谱系数确定针对所述语音样本的所述语音特征样本,包括:确定所述梅尔频率倒谱系数所对应的MFCC一阶差分参数和MFCC二阶差分参数,并将所述MFCC一阶差分参数和所述MFCC二阶差分参数作为针对所述语音样本的所述语音特征样本。4.根据权利要求2所述的方法,其特征在于,所述获取预先建立的声纹数据库中的语音样本,包括:获取灰名单数据库;所述灰名单数据库中存储有预先收集的疑似异常号码和各所述疑似异常号码分别对应的号码呼叫行为信息;基于所述疑似异常号码和对应的所述号码呼叫行为信息,确定所述疑似异常号码为异常号码的置信度;若所述置信度大于预设置信度阈值,则确定所述疑似异常号码为异常号码,将所述异常号码导出,生成黑名单号码数据库;对所述黑名单号码数据库中的所述异常号码的通话内容进行录音,并将所述录音作为所述语音样本存储于所述声纹数据库中。5.根据权利要求4所述的方法,其特征在于,所述号码呼叫行为信息包括预设周期内的主叫呼叫占比、主叫呼叫频次、被叫号码外省归属占比、预设周期内的短通话时长占比和预设时间段内的呼叫活跃度,所述基于所述疑似异常号码和对应的所述号码呼叫行为信息,确定所述疑似异常号码为异常号码的置信度,包括:基于所述预设周期内的主叫呼叫占比、所述主叫呼...
【专利技术属性】
技术研发人员:张子贤,李阳,金红,张旭红,郑伟,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。