事件检测方法和装置、计算设备及存储介质制造方法及图纸

技术编号:20117690 阅读:32 留言:0更新日期:2019-01-16 12:03
本说明书提供一种事件检测方法和装置、计算设备及存储介质,其中所述事件检测方法包括:获取事件文本,从所述事件文本中提取至少两个类别字段;构建所述事件文本的类别字段关系图,所述类别字段关系图的每个节点表征所述事件文本的一个类别字段;基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量;对所述每个节点对应的特征向量进行两两交叉得到所述至少两个类别字段的距离关系特征;根据预先训练的事件检测模型确定所述至少两个类别字段的距离关系特征对应的事件类别标签。

Event detection methods and devices, computing devices and storage media

This specification provides an event detection method and device, computing device and storage medium, in which event detection methods include: acquiring event text, extracting at least two category fields from the event text; constructing a category field diagram of the event text, each node of the category field diagram represents a category field of the event text; and The preset embedding learning model embeds the nodes of the class field relationship graph to get the corresponding eigenvectors of each node; crosses the eigenvectors of each node to get the distance relationship characteristics of at least two class fields; and determines the corresponding events of the distance relationship characteristics of at least two class fields according to the pre-trained event detection model. Item Category Label.

【技术实现步骤摘要】
事件检测方法和装置、计算设备及存储介质
本说明书涉及风控
,特别涉及一种事件检测方法和装置、计算设备及存储介质。
技术介绍
在风险控制中,数据一般分为连续性数据和Category(类别)数据。连续性数据例如金额,是可以比较大小直接进行算术运算的数据类型;Category数据一般在风控中占据了95%以上,是描述风控事件信息的主要数据类型,这类数据不可以直接进行算术运算,也无法直接量化两个Category之间的关系,导致根据风控数据本身很难对风控事件的类型进行有效检测。说明书内容有鉴于此,本说明书实施例提供了一种事件检测方法和装置、计算设备及存储介质,以解决现有技术中存在的技术缺陷。根据本说明书实施例的第一方面,提供了一种事件检测方法,包括:获取事件文本,从所述事件文本中提取至少两个类别字段;构建所述事件文本的类别字段关系图,所述类别字段关系图的每个节点表征所述事件文本的一个类别字段;基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量;对所述每个节点对应的特征向量进行两两交叉得到所述至少两个类别字段的距离关系特征;根据预先训练的事件检测模型确定所述至少两个类别字段的距离关系特征对应的事件类别标签。根据本说明书实施例的第二方面,提供了一种事件检测装置,包括:第一获取器,被配置为获取事件文本,从所述事件文本中提取至少两个类别字段;第一构建器,被配置为构建所述事件文本的类别字段关系图,所述类别字段关系图的每个节点表征所述事件文本的一个类别字段;第一嵌入器,被配置为基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量;第一交叉器,被配置为对所述每个节点对应的特征向量进行两两交叉得到所述至少两个类别字段的距离关系特征;检测器,被配置为根据预先训练的事件检测模型确定所述至少两个类别字段的距离关系特征对应的事件类别标签。根据本说明书实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的事件检测方法的步骤。根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述的事件检测方法的步骤。本说明书实施例将事件文本中的类别字段映射到稠密的低维空间,从而可以直接量化两个类别字段之间的距离关系特征,克服了现有技术中无法直接量化两个字段类别之间的关系的问题,进而根据类别字段之间的距离关系特征通过预先训练好的事件检测模型确定事件文本对应的事件类型标签。附图说明图1是示出了根据本说明书一实施例的事件检测系统的结构框图;图2是示出了根据本说明书一实施例的事件检测方法的示意性流程图;图3是示出了根据本说明书一实施例的类别字段关系图;图4是示出了根据本说明书另一实施例的事件检测方法的示意性流程图;图5是示出了根据本说明书一实施例的事件检测装置的模块图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。针对当前事件检测现状,在本说明书中,提供了一种事件检测方法和装置、计算设备及存储介质,在下面的实施例中逐一进行详细说明。图1是示出了根据本说明书一实施例的事件检测系统的结构框图。该事件检测系统中的计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存用户数据。计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。在本说明书的一个实施例中,计算设备100的上述以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本说明书一实施例的事件检测方法的示意性流程图,包括步骤202、步骤204、步骤206、步骤208和步骤210。步骤202:获取事件文本,从所述事件文本中提取至少两个类别字段。一种实施方式中,所述事件文本是支付类风控事件文本。在实际应用中,如在欺诈领域,欺诈手法迭代更新快,风控策略需要实时的欺诈特征,特征开发人工经验无法做到和最新的欺诈手段同步,以往的人工特征工程方式比较难得出最新的欺诈模式,本说明书实施例可以根据数据本身特点,自动挖掘出对业务有指导意义的特征。一种实施方式中,所述从所述事件文本中提取至少两个类别字段包括:根据预设关键词表中的每个关键词对所述事件文本进行检索,判断所述事件文本中是否包含有对应的关键词;将所述事件文本中包含的关键词作为所述事件文本的类别字段。在具体实现时,在所述根据预设关键词表中的每个关键词对所述事件文本进行检索之前还可以包括:将从历史事件文本中提取的类别字段作为关键词构建预设关键词表。通过预先构建预设关键词表从而可以从所述事件文本中快速提取类别字段。步骤204:构建所述事件文本的类别字段关系图,所述类别字段关系图的每个节点表征所述事件文本的一个类别字段。图3是示出了根据本说明书一实施例的类别字段关系图,如图3所示,以电商平台上的交易支付为例,该类风控业务事件中所提取的类别字段包括:买家标识301、卖家标识302、买家的手机号303、买家的设备指纹304、买家的邮箱305、买家的IP地址306、买家的设备MAC标识307、买家的设备GPS定位308、货物309、卖家的邮箱310和卖家的手机号311,将买家标识301、卖家标识302、买家的手机号303、买家的设备指纹304、买家的邮箱305、买家的IP地址306、买家的设备MAC标识307、买家的设备GPS定位308、货物309、卖家的邮箱310和卖家的手机号311分别作为类别字段关系图的节点,根据各类别字段之间的关联关系形成节点之间的边连接,得到该业务事件对应的类别字段关系图。步骤206:基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量。一种实施方式中,所述基于预设的嵌入学习模型对所述类别字段本文档来自技高网...

【技术保护点】
1.一种事件检测方法,包括:获取事件文本,从所述事件文本中提取至少两个类别字段;构建所述事件文本的类别字段关系图,所述类别字段关系图的每个节点表征所述事件文本的一个类别字段;基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量;对所述每个节点对应的特征向量进行两两交叉得到所述至少两个类别字段的距离关系特征;根据预先训练的事件检测模型确定所述至少两个类别字段的距离关系特征对应的事件类别标签。

【技术特征摘要】
1.一种事件检测方法,包括:获取事件文本,从所述事件文本中提取至少两个类别字段;构建所述事件文本的类别字段关系图,所述类别字段关系图的每个节点表征所述事件文本的一个类别字段;基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量;对所述每个节点对应的特征向量进行两两交叉得到所述至少两个类别字段的距离关系特征;根据预先训练的事件检测模型确定所述至少两个类别字段的距离关系特征对应的事件类别标签。2.根据权利要求1所述的方法,其中在所述对所述每个节点对应的特征向量进行两两交叉得到所述至少两个类别字段的距离关系特征步骤之后还包括:通过预先训练的事件检测模型确定所述至少两个类别字段的距离关系特征的重要程度。3.根据权利要求1所述的方法,其中所述嵌入学习模型通过以下步骤获得:获取第一训练样本集,所述第一训练样本集包括由历史事件文本的类别字段构成的词表;基于所述第一训练样本集进行word2vet训练得到嵌入学习模型。4.根据权利要求3所述的方法,其中还包括:根据单个或批量事件文本的类别字段对所述第一训练样本集进行定期或不定期地更新。5.根据权利要求1所述的方法,其中所述从所述事件文本中提取至少两个类别字段包括:根据预设关键词表中的每个关键词对所述事件文本进行检索,判断所述事件文本中是否包含有对应的关键词;将所述事件文本中包含的关键词作为所述事件文本的类别字段。6.根据权利要求5所述的方法,其中在所述根据预设关键词表中的每个关键词对所述事件文本进行检索之前还包括:将从历史事件文本中提取的类别字段作为关键词构建预设关键词表。7.根据权利要求1所述的方法,其中所述基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量包括:采用随机游走算法对所述类别字段关系图中每个节点的结构信息进行序列采样,生成节点序列;根据预设的嵌入学习模型将所述节点序列中的每个节点的结构信息嵌入映射为向量化形式,得到每个节点的向量特征。8.根据权利要求7所述的方法,其中所述采用随机游走算法对所述类别字段关系图中每个节点的结构信息进行序列采样,生成节点序列包括:采用随机游走算法根据设定的随机游走的序列长度和每个节点的游走次数,获取所述类别字段关系图中每个节点的结构信息;根据每个节点的结构信息生成节点序列。9.根据权利要求1所述的方法,其中所述事件检测模型通过以下方式得到:获取第二训练样本集,所述第二训练样本集包括多个历史事件文本以及每个所述历史事件文本对应的事件类型标签;从每个所述历史事件文本中提取至少两个类别字段;构建每个所述历史事件文本的类别字段关系图,所述类别字段关系图的每个节点表征一个所述类别字段;基于预设的嵌入学习模型对所述类别字段关系图的节点进行嵌入得到每个节点对应的特征向量;对所述每个节点对应的特征向量进行两两交叉得到每个所述历史事件文本中至少两个类别字段的距离关系特征;基于树类模型训练所述事件检测模型,所述事件检测模型使得每个所述历史事件文本对应的事件类型标签与该历史事件文本中至少两个类别字段的距离关系特征相关联。10.根据权利要求9所述的方法,其中在所述基于树类模型训练事件检测模型,所述事件检测模型使得每个所述历史事件文本对应的事件类型标签与该历史事件文本中至少两个类别字段的距离关系特征相关联步骤之后还包括:通过所述事件检测模型得到每个所述历史事件文本中至少两个类别字段的距离关系特征的重要程度。11.根据权利要求10所述的方法,其中所述树类模型是Xgboost树类模型。12.根据权利要求1所述的方法,其中所述事件文本是支付类风控事件文本。13.根据权利要求12所述的方法,其特征在于,所述事件类别标签包括风险事件标签和非风险事件标签。14.一种事件检...

【专利技术属性】
技术研发人员:王经宇
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1