一种基于GBDT算法模型的非法语音识别方法及系统技术方案

技术编号：32579358 阅读：37 留言：0更新日期：2022-03-09 17:09

本申请公开了一种基于梯度提升决策树(GBDT)算法模型的非法语音识别方法及系统，本申请实施例获取通信网络中的呼叫详细记录(CDR)中的通话数据后，从中提取特征数据，得到特征数据；将得到的特征数据输入训练得到的GBDT算法模型中，输出得到所述语音的识别结果，所述语音的识别结果包括所述语音是否为非法语音及非法语音的类别。这样，本申请实施例就可以基于GBDT算法模型准确识别出通信网络中的非法语音的类别。中的非法语音的类别。中的非法语音的类别。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于GBDT算法模型的非法语音识别方法及系统

[0001]本专利技术涉及计算机人工智能
，，特别涉及一种基于梯度提升决策树(GBDT)算法模型的非法语音识别方法及系统。

技术介绍

[0002]随着互联网时代的高速发展，人们生活也发生了巨大的变化。用户之间可以采用用户终端实现语音通话或短信交互，多种多样的应用也进入到人们的视野中。但也给我们生活带来便利的同时，也产生了很多潜在的危险，用户个人隐私在互联网中的泄露有可能被诈骗分子有机可乘，甚至导致了个人财产损失。近年来，电信诈骗成爆发式增长，诈骗手法层出不穷，诈骗中所使用的技术手段也不断升级。电信诈骗是指通过电话，编造虚假信息，设置骗局，对受害人实施远程、非接触式诈骗，诱使受害人打款或转账的犯罪行为，通常以冒充他人及仿冒、伪造各种合法外衣和形式的方式达到欺骗的目的，如冒充公检法、商家公司厂家、国家机关工作人员、银行工作人员等各类机构工作人员，伪造和冒充招工、刷单、贷款、手机定位和招嫖等形式进行诈骗。随着科技的发展，一系列技术工具的开发出现和被使用，诈骗分子借助于移动终端或固定电话等通信工具，及现代的技术等实施非接触式的诈骗迅速地发展蔓延，给人民群众造成了很大的损失。在这种情况下，需要对网络中的语音进行识别，从中识别出非法语音，并针对识别出的非法语音进行诸如屏蔽或提醒用户的相关处理，以减少或避免用户的损失。
[0003]因此，如何准确识别出通信网络中的非法语音，特别识别出通信网络中的非法语音的类别是一个亟待解决的问题。

技术实现思路

[00...

【技术保护点】

【技术特征摘要】
1.一种基于梯度提升决策树GBDT算法模型的非法语音识别方法，其特征在于，所述方法包括：获取通信网络的呼叫详细记录CDR中的通话数据后，从中提取特征数据；将得到的特征数据输入训练得到的GBDT算法模型中，输出得到所述语音的识别结果，所述语音的识别结果包括所述语音是否为非法语音及非法语音的类别。2.如权利要求1所述的方法，其特征在于，所述得到特征数据包括：提取得到符合训练得到的GBDT算法模型输入的特征数据。3.如权利要求1所述的方法，其特征在于，所述训练得到GBDT算法模型包括：获取通信网络的CDR中的通话数据，采用K均值聚类K
‑
Means算法进行聚类采样，形成特征数据集合，包括训练子集合与测试子集合；采用5折交叉验证方式，基于训练子集合训练GBDT算法模型后，基于测试子集合验证GBDT算法模型，计算得出GBDT算法模型的评估指标，确定训练得到的GBDT算法模型满足所设置的评估指标；将训练得到的GBDT算法模型设置在通信网络中的网络侧，对通信网络中的CDR通话数据进行非法语音的分类处理。4.如权利要求3所述的方法，其特征在于，所述采用K
‑
Means算法进行聚类采样包括：将所述通话数据基于K
‑
Means算法进行聚类，分为第一特征数据集，包括少数类数据集和多数类数据集；基于合成少数类过采样smote方法，对其中的少数类数据集进行过采样后，得到采样后的少数类数据集；对得到的采样后的少数类数据集进行有回放的过采样及随机线性插值处理后，与少数类数据...

【专利技术属性】
技术研发人员：张飞，丁正，顾晓东，董伟，
申请(专利权)人：上海欣方软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人