【技术实现步骤摘要】
一种欺诈案例的串并方法、装置及设备
本说明书涉及计算机
,尤其涉及一种欺诈案例的串并方法、装置及设备。
技术介绍
随着终端技术和网络技术的不断发展,终端和网络为人们的工作和生活提供的便利,但同时也使得欺诈案例的数量急剧增加。随着欺诈案例的不断增加,为了提高对欺诈案例的打击效率,通常可以通过案例串并的方式(即将同一欺诈组织的案例集合在一起分析)对欺诈案例进行防控。在欺诈案例的防控的实践中,通常可以基于欺诈案例中的结构化数据进行欺诈案例的串并,即通常利用欺诈案例中包含的结构化二维表数据对相应的欺诈案例进行分析,进而确定属于同一欺诈组织进行欺诈的欺诈案例划分到同一集合中,并可以对每个集合进行综合分析确定该欺诈组织的相关属性,以便在后续对该欺诈组织进行风险防控。但是,欺诈案例中的结构化数据往往较少,甚至一些欺诈案例中不存在结构化数据,这样就使得很多欺诈案例无法进行串并处理,或者,很多欺诈案例无法划分到同一个集合,导致欺诈案例串并存在覆盖不全,使得后续对串并处理后的欺诈案例需要进行大量的分析处理,欺诈案例的处理效率低下,为此,需要提供一种欺诈案例覆盖更全面、欺诈案例的处理效率更高的技术方案。
技术实现思路
本说明书实施例的目的是提供一种欺诈案例覆盖更全面、欺诈案例的处理效率更高的技术方案。为了实现上述技术方案,本说明书实施例是这样实现的:本说明书实施例提供的一种欺诈案例的串并方法,所述方法包括:获取多个历史欺诈案例中包含的非结构化数据。分别从每个所述历史欺诈案例中包含的非结构化 ...
【技术保护点】
1.一种欺诈案例的串并方法,所述方法包括:/n获取多个历史欺诈案例中包含的非结构化数据;/n分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重;/n对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别;/n基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;/n基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。/n
【技术特征摘要】
1.一种欺诈案例的串并方法,所述方法包括:
获取多个历史欺诈案例中包含的非结构化数据;
分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重;
对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别;
基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
2.根据权利要求1所述的方法,所述方法还包括:
获取多个历史欺诈案例中包含的结构化数据,所述结构化数据中包括每个所述历史欺诈案例中的第二结构化关键词和每个所述第二结构化关键词对应的关键词类别;
确定所述第二结构化关键词对应的权重;
所述基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,包括:
基于提取的每个所述第一结构化关键词对应的关键词类别和每个所述第二结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
所述基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理,包括:
基于提取的所述第一结构化关键词对应的权重、所述第二结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。
3.根据权利要求1所述的方法,所述非结构化数据中包括文本数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于关键词抽取算法从每个所述历史欺诈案例中包含的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
4.根据权利要求3所述的方法,所述方法还包括:
分别对每个所述历史欺诈案例中包含的文本数据进行预处理,得到处理后的文本数据,所述预处理包括以下中的一种或多种:分词处理、停用词过滤处理。
5.根据权利要求1所述的方法,所述非结构化数据中包括语音数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于语音识别算法对每个所述历史欺诈案例中包含的语音数据进行识别,得到所述语音数据对应的文本数据;
分别基于关键词抽取算法从所述语音数据对应的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
6.根据权利要求1所述的方法,所述非结构化数据中包括图像数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于图像识别算法对每个所述历史欺诈案例中包含的图像数据进行识别,得到所述图像数据对应的文本数据;
分别基于关键词抽取算法从所述图像数据对应的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。
7.根据权利要求3-6中任一项所述的方法,所述关键词抽取算法包括以下中的一种或多种:TF-IDF算法和TextRank算法。
8.根据权利要求1所述的方法,所述对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别,包括:
利用预定的正则表达式,对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别,所述关键词类别包括以下中的一种或多种:资源存储账号、通讯号码、社交账号、网络地址和应用程序。
9.根据权利要求1所述的方法,所述基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,包括:
基于Word2vec算法,将不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词映射为空间向量,并基于映射得到的空间向量,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征;
基于提取的每个所述第一结构化关键词对应的关键词类别,通过预定的相似度算法,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征之间的相似度,将确定的相似度作为不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。
10.根据权利要求9所述的方法,所述相似度算法包括以下中的一种或多种:编辑距离LevenshteinDistance算法、最长公共子串LongestCommonSubString算法、字符串子序列核StringSubsequenceKernel算法、余弦Cosine算法和SimHash算法。
<...
【专利技术属性】
技术研发人员:赵勋,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。