一种欺诈案例的串并方法、装置及设备制造方法及图纸

技术编号:26532093 阅读:21 留言:0更新日期:2020-12-01 14:14
本说明书实施例公开了一种欺诈案例的串并方法、装置及设备,该方法包括获取多个历史欺诈案例中包含的非结构化数据;分别从每个历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的第一结构化关键词对应的权重;对提取的第一结构化关键词进行分类,得到提取的每个第一结构化关键词对应的关键词类别;基于提取的每个第一结构化关键词对应的关键词类别,确定不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;基于提取的第一结构化关键词对应的权重和不同的历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对多个历史欺诈案例进行串并处理。

【技术实现步骤摘要】
一种欺诈案例的串并方法、装置及设备
本说明书涉及计算机
,尤其涉及一种欺诈案例的串并方法、装置及设备。
技术介绍
随着终端技术和网络技术的不断发展,终端和网络为人们的工作和生活提供的便利,但同时也使得欺诈案例的数量急剧增加。随着欺诈案例的不断增加,为了提高对欺诈案例的打击效率,通常可以通过案例串并的方式(即将同一欺诈组织的案例集合在一起分析)对欺诈案例进行防控。在欺诈案例的防控的实践中,通常可以基于欺诈案例中的结构化数据进行欺诈案例的串并,即通常利用欺诈案例中包含的结构化二维表数据对相应的欺诈案例进行分析,进而确定属于同一欺诈组织进行欺诈的欺诈案例划分到同一集合中,并可以对每个集合进行综合分析确定该欺诈组织的相关属性,以便在后续对该欺诈组织进行风险防控。但是,欺诈案例中的结构化数据往往较少,甚至一些欺诈案例中不存在结构化数据,这样就使得很多欺诈案例无法进行串并处理,或者,很多欺诈案例无法划分到同一个集合,导致欺诈案例串并存在覆盖不全,使得后续对串并处理后的欺诈案例需要进行大量的分析处理,欺诈案例的处理效率低下,为此,需要提供一种欺诈案例覆盖更全面、欺诈案例的处理效率更高的技术方案。
技术实现思路
本说明书实施例的目的是提供一种欺诈案例覆盖更全面、欺诈案例的处理效率更高的技术方案。为了实现上述技术方案,本说明书实施例是这样实现的:本说明书实施例提供的一种欺诈案例的串并方法,所述方法包括:获取多个历史欺诈案例中包含的非结构化数据。分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别。基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。本说明书实施例提供的一种欺诈案例的串并装置,所述装置包括:第一数据获取模块,获取多个历史欺诈案例中包含的非结构化数据。关键词提取模块,分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。分类模块,对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别。相似度确定模块,基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。案例串并模块,基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。本说明书实施例提供的一种欺诈案例的串并设备,所述欺诈案例的串并设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取多个历史欺诈案例中包含的非结构化数据。分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别。基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取多个历史欺诈案例中包含的非结构化数据。分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别。基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书一种欺诈案例的串并方法实施例;图2为本说明书另一种欺诈案例的串并方法实施例;图3为本说明书又一种欺诈案例的串并方法实施例;图4为本说明书一种欺诈案例的串并装置实施例;图5为本说明书一种欺诈案例的串并设备实施例。具体实施方式本说明书实施例提供一种欺诈案例的串并方法、装置及设备。为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。实施例一如图1所示,本说明书实施例提供一种欺诈案例的串并方法,该方法的执行主体可以为终端设备或服务器,该终端设备可以如手机、平板电脑等移动终端设备,还可以如个人计算机等设备,该服务器可以是一个独立的服务器,还可以是由多个服务器构成的服务器集群等。该服务器可以是某项业务(如进行交易的业务等)的后台服务器,也可以是某应用(如金融类应用等)的后台服务器等。本说明书实施例中以执行主体为服务器为例进行详细说明,对于执行主体为终端设备的情况,可以参见下述相关内容执行,在此不再赘述。该方法具体可以包括以下步骤:在步骤S102中,获取多个历史欺诈案例中包含的非结构化数据。其中,历史欺诈案例可以是通过欺诈的手段以获取某种利益的历史案件,历史欺诈案例可以通过多种方式确定,例如可以是通过对用户上传或举报的案例进行人工分析而确定的欺诈案例,或者,还可以是通过与预先训练的欺诈模型对某案例进行判断而确定欺诈案例等,具体可以根据实际情况设定,本说明书实施例对此不做限定。非结构化数据可以是数据结构不规则或不完整,且没有预定义的数据模型,并且不方便使用数据库的二维逻辑表进行呈现的数据,非结构化数据可以包括办公文档、图片、XML(ExtensibleMarkupLanguage,可扩展标记语言)、HTML(Hyper本文档来自技高网
...

【技术保护点】
1.一种欺诈案例的串并方法,所述方法包括:/n获取多个历史欺诈案例中包含的非结构化数据;/n分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重;/n对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别;/n基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;/n基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。/n

【技术特征摘要】
1.一种欺诈案例的串并方法,所述方法包括:
获取多个历史欺诈案例中包含的非结构化数据;
分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重;
对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别;
基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。


2.根据权利要求1所述的方法,所述方法还包括:
获取多个历史欺诈案例中包含的结构化数据,所述结构化数据中包括每个所述历史欺诈案例中的第二结构化关键词和每个所述第二结构化关键词对应的关键词类别;
确定所述第二结构化关键词对应的权重;
所述基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,包括:
基于提取的每个所述第一结构化关键词对应的关键词类别和每个所述第二结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度;
所述基于提取的所述第一结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理,包括:
基于提取的所述第一结构化关键词对应的权重、所述第二结构化关键词对应的权重和所述不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,对所述多个历史欺诈案例进行串并处理。


3.根据权利要求1所述的方法,所述非结构化数据中包括文本数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于关键词抽取算法从每个所述历史欺诈案例中包含的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。


4.根据权利要求3所述的方法,所述方法还包括:
分别对每个所述历史欺诈案例中包含的文本数据进行预处理,得到处理后的文本数据,所述预处理包括以下中的一种或多种:分词处理、停用词过滤处理。


5.根据权利要求1所述的方法,所述非结构化数据中包括语音数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于语音识别算法对每个所述历史欺诈案例中包含的语音数据进行识别,得到所述语音数据对应的文本数据;
分别基于关键词抽取算法从所述语音数据对应的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。


6.根据权利要求1所述的方法,所述非结构化数据中包括图像数据,所述分别从每个所述历史欺诈案例中包含的非结构化数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重,包括:
分别基于图像识别算法对每个所述历史欺诈案例中包含的图像数据进行识别,得到所述图像数据对应的文本数据;
分别基于关键词抽取算法从所述图像数据对应的文本数据中提取第一结构化关键词,并确定提取的所述第一结构化关键词对应的权重。


7.根据权利要求3-6中任一项所述的方法,所述关键词抽取算法包括以下中的一种或多种:TF-IDF算法和TextRank算法。


8.根据权利要求1所述的方法,所述对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别,包括:
利用预定的正则表达式,对提取的所述第一结构化关键词进行分类,得到提取的每个所述第一结构化关键词对应的关键词类别,所述关键词类别包括以下中的一种或多种:资源存储账号、通讯号码、社交账号、网络地址和应用程序。


9.根据权利要求1所述的方法,所述基于提取的每个所述第一结构化关键词对应的关键词类别,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度,包括:
基于Word2vec算法,将不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词映射为空间向量,并基于映射得到的空间向量,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征;
基于提取的每个所述第一结构化关键词对应的关键词类别,通过预定的相似度算法,确定不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词对应的嵌入Embedding特征之间的相似度,将确定的相似度作为不同的所述历史欺诈案例中包含的不同关键词类别对应的结构化关键词之间的相似度。


10.根据权利要求9所述的方法,所述相似度算法包括以下中的一种或多种:编辑距离LevenshteinDistance算法、最长公共子串LongestCommonSubString算法、字符串子序列核StringSubsequenceKernel算法、余弦Cosine算法和SimHash算法。
<...

【专利技术属性】
技术研发人员:赵勋
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1