本申请公开了一种基于梯度提升决策树(GBDT)算法模型的非法语音识别方法及系统,本申请实施例获取通信网络中的呼叫详细记录(CDR)中的通话数据后,从中提取特征数据,得到特征数据;将得到的特征数据输入训练得到的GBDT算法模型中,输出得到所述语音的识别结果,所述语音的识别结果包括所述语音是否为非法语音及非法语音的类别。这样,本申请实施例就可以基于GBDT算法模型准确识别出通信网络中的非法语音的类别。中的非法语音的类别。中的非法语音的类别。
【技术实现步骤摘要】
一种基于GBDT算法模型的非法语音识别方法及系统
[0001]本专利技术涉及计算机人工智能
,,特别涉及一种基于梯度提升决策树(GBDT)算法模型的非法语音识别方法及系统。
技术介绍
[0002]随着互联网时代的高速发展,人们生活也发生了巨大的变化。用户之间可以采用用户终端实现语音通话或短信交互,多种多样的应用也进入到人们的视野中。但也给我们生活带来便利的同时,也产生了很多潜在的危险,用户个人隐私在互联网中的泄露有可能被诈骗分子有机可乘,甚至导致了个人财产损失。近年来,电信诈骗成爆发式增长,诈骗手法层出不穷,诈骗中所使用的技术手段也不断升级。电信诈骗是指通过电话,编造虚假信息,设置骗局,对受害人实施远程、非接触式诈骗,诱使受害人打款或转账的犯罪行为,通常以冒充他人及仿冒、伪造各种合法外衣和形式的方式达到欺骗的目的,如冒充公检法、商家公司厂家、国家机关工作人员、银行工作人员等各类机构工作人员,伪造和冒充招工、刷单、贷款、手机定位和招嫖等形式进行诈骗。随着科技的发展,一系列技术工具的开发出现和被使用,诈骗分子借助于移动终端或固定电话等通信工具,及现代的技术等实施非接触式的诈骗迅速地发展蔓延,给人民群众造成了很大的损失。在这种情况下,需要对网络中的语音进行识别,从中识别出非法语音,并针对识别出的非法语音进行诸如屏蔽或提醒用户的相关处理,以减少或避免用户的损失。
[0003]因此,如何准确识别出通信网络中的非法语音,特别识别出通信网络中的非法语音的类别是一个亟待解决的问题。
技术实现思路
[0004]有鉴于此,本申请实施例提供一种基于GBDT算法模型的非法语音识别方法及系统,能够准确识别出通信网络中的非法语音及非法语音类别。
[0005]本申请实施例是这样实现的:
[0006]一种基于梯度提升决策树GBDT算法模型的非法语音识别方法,所述方法包括:
[0007]获取通信网络的呼叫详细记录CDR中的通话数据后,从中提取特征数据;
[0008]将得到的特征数据输入训练得到的GBDT算法模型中,输出得到所述语音的识别结果,所述语音的识别结果包括所述语音是否为非法语音及非法语音的类别。
[0009]较佳地,所述得到特征数据包括:
[0010]提取得到符合训练得到的GBDT算法模型输入的特征数据。
[0011]较佳地,所述训练得到GBDT算法模型包括:
[0012]获取通信网络的CDR中的通话数据,采用K均值聚类K
‑
Means算法进行聚类采样,形成特征数据集合,包括训练子集合与测试子集合;
[0013]采用5折交叉验证方式,基于训练子集合训练GBDT算法模型后,基于测试子集合验证GBDT算法模型,计算得出GBDT算法模型的评估指标,确定训练得到的GBDT算法模型满足
所设置的评估指标;
[0014]将训练得到的GBDT算法模型设置在通信网络中的网络侧,对通信网络中的CDR通话数据进行非法语音的分类处理。
[0015]较佳地,所述采用K
‑
Means算法进行聚类采样包括:
[0016]将所述通话数据基于K
‑
Means算法进行聚类,分为第一特征数据集,包括少数类数据集和多数类数据集;
[0017]基于合成少数类过采样smote方法,对其中的少数类数据集进行过采样后,得到采样后的少数类数据集;
[0018]对得到的采样后的少数类数据集进行有回放的过采样及随机线性插值处理后,与少数类数据集合成后,进行清洗;
[0019]将合成后的少数类数据集汇入到第一特征数据集中,得到特征数据集合。
[0020]较佳地,所述基于训练子集合训练GBDT算法模型包括:
[0021]对GBDT算法模型的核心参数进行设置;
[0022]对各个特征数据进行信息增益值计算,得到各个特征数据的信息增益率值;
[0023]将其中信息增益值最大的特征收据,作为节点分裂条件,从根节点开始,递归进行分类回归树的构建;
[0024]生成分类回归树。
[0025]较佳地,所述GBDT算法模型的评估指标包括:
[0026]将精准率、召回率或/和F1
‑
score指标作为评估指标。
[0027]较佳地,所述将得到的特征数据输入训练得到的GBDT算法模型中,输出得到所述语音的识别结果包括:
[0028]计算每个特征数据的信息增益值,并将每个特征数据的信息增益值进行降序排序,选择信息增益值最大的特征作为根节点;
[0029]计算其他节点的信息增益值,并选择信息增益最大的特征数据进行第二次分裂,以此类推进行多次分裂,形成GBDT算法模型的分类回归树;
[0030]基于分类回归树的分类结果作为非法语音的识别结果,包括是否为非法语音及非法语音类别。
[0031]一种基于GBDT算法模型的非法语音识别系统,所述系统包括:提取单元及处理单元,其中,
[0032]提取单元,用于获取通信网络的呼叫详细记录CDR中的通话数据后,从中提取特征数据;
[0033]处理单元,用于将得到的特征数据输入训练得到的GBDT算法模型中,输出得到所述语音的识别结果,所述语音的识别结果包括所述语音是否为非法语音及非法语音的类别。
[0034]如上所见,本申请实施例获取通信网络中的呼叫详细记录(CDR)中的通话数据后,从中提取特征数据,得到特征数据;将得到的特征数据输入训练得到的GBDT算法模型中,输出得到所述语音的识别结果,所述语音的识别结果包括所述语音是否为非法语音及非法语音的类别。这样,本申请实施例就可以基于GBDT算法模型准确识别出通信网络中的非法语音的类别。
附图说明
[0035]图1为本申请实施例提供的一种基于GBDT算法模型的非法语音识别方法流程图;
[0036]图2为本申请实施例提供的训练GBDT算法模型的方法流程图;
[0037]图3为本申请实施例提供的一种基于GBDT算法模型的非法语音识别系统结构示意图;
[0038]图4为本申请实施例提供的应用例子1所构建的分类预测树的结构示意图;
[0039]图5为本申请实施例提供的应用例子2所构建的分类预测树的结构示意图。
具体实施方式
[0040]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0041]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于梯度提升决策树GBDT算法模型的非法语音识别方法,其特征在于,所述方法包括:获取通信网络的呼叫详细记录CDR中的通话数据后,从中提取特征数据;将得到的特征数据输入训练得到的GBDT算法模型中,输出得到所述语音的识别结果,所述语音的识别结果包括所述语音是否为非法语音及非法语音的类别。2.如权利要求1所述的方法,其特征在于,所述得到特征数据包括:提取得到符合训练得到的GBDT算法模型输入的特征数据。3.如权利要求1所述的方法,其特征在于,所述训练得到GBDT算法模型包括:获取通信网络的CDR中的通话数据,采用K均值聚类K
‑
Means算法进行聚类采样,形成特征数据集合,包括训练子集合与测试子集合;采用5折交叉验证方式,基于训练子集合训练GBDT算法模型后,基于测试子集合验证GBDT算法模型,计算得出GBDT算法模型的评估指标,确定训练得到的GBDT算法模型满足所设置的评估指标;将训练得到的GBDT算法模型设置在通信网络中的网络侧,对通信网络中的CDR通话数据进行非法语音的分类处理。4.如权利要求3所述的方法,其特征在于,所述采用K
‑
Means算法进行聚类采样包括:将所述通话数据基于K
‑
Means算法进行聚类,分为第一特征数据集,包括少数类数据集和多数类数据集;基于合成少数类过采样smote方法,对其中的少数类数据集进行过采样后,得到采样后的少数类数据集;对得到的采样后的少数类数据集进行有回放的过采样及随机线性插值处理后,与少数类数据...
【专利技术属性】
技术研发人员:张飞,丁正,顾晓东,董伟,
申请(专利权)人:上海欣方软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。