一种企业主要相关自然人实体数据对齐方法技术

技术编号:25601217 阅读:24 留言:0更新日期:2020-09-11 23:58
本发明专利技术涉及一种企业主要相关自然人实体数据对齐方法;本发明专利技术方法及系统利用企业投资关系网络来辅助判断不同企业间相同姓名的自然人是否是同一人。使用机器学习的方法,训练计算模型,可以适应较为复杂场景的判断;本发明专利技术方法系统充分挖掘数据的关联性,发挥数据集成分析的优势;使用图计算和机器学习方法的结合,不涉及隐私数据的情况下,对不同企业的重要同名自然人是否是同一自然人做出准确的判断,为相关数据分析和知识图谱的搭建提供更可靠数据支撑。

【技术实现步骤摘要】
一种企业主要相关自然人实体数据对齐方法
本专利技术涉及自然语言处理
,特别涉及一种企业主要相关自然人实体数据对齐方法及系统。
技术介绍
当将多个数据源中的信息提取出来时进行关联分析时,身份的唯一性识别变得非常重要。比如说在绘制关联图谱时,如果不能判断不同企业信息的自然人是同一个人,则不会将图谱进行合并,不能建立起不同企业间的事实关联信息。再如在不确定同名的两个人是同一个人的情况下,贸然将不同的数据进行合并,则可能产生关联网络构建的错误。近几年同名人识别可以划分到机器学习中的分类问题。利用企业间同名人的其他信息构建特征,用分类算法判断两个同名人是否是同一人。相同的投资人、高管将不同企业紧密联系起来。能够准确、全面的识别不同企业中的同名人是否为同一人,对于企业信用评估,风险传播具有重要意义。相比于其他应用场合的相同姓名自然人识别,企业投资关系中的自然人唯一性识别尤为重要,企业作为现代社会活动的主要载体,承载着很大比例的就业和投资,影响整个社会活动。目前识别企业间同名人的方法主要依赖于数据,如招聘数据、身份证数据。然而这些数据涉及到个人隐私问题,获取难度大,并且覆盖的范围很有限。另外企业投资数据具有本身的特点;当前的实体对齐算法对于投资关系数据本身属性的利用相对空白。
技术实现思路
本专利技术的目的在于提供一种企业主要相关自然人实体数据对齐方法及系统;充分挖掘数据的关联性,发挥数据集成分析的优势;利用投资关联关系的特性,使用企业数据本身的特性,在不多依赖其他数据的情况下,对不同企业的重要同名自然人是否是同一自然人做出较为准确的判断,极大减少计算的开销。并且本专利技术方法使用机器学习的方式,使用构建模型的方式来实现多个关联网络特征数据的综合使用和判断;相对于简单的规则式判断,更加稳定,计算效率也更高。为解决上述技术问题,本专利技术实施例提供了以下技术方案:一种企业主要相关自然人实体数据对齐方法,利用企业投资关系的远近来辅助判断不同企业间相同姓名的自然人是否是同一人。当两个企业投资关系度数小于设置阈值时,认为这两个企业间相同姓名的自然人是同一人。本专利中自然人为企业的主要股东、董事、监事、高管等。本专利技术方法包含以下实现步骤:(1)获取企业数据,所述企业数据包含投资关系、主要相关自然人;(2)获取具有相同姓名自然人的企业数据;(3)构建具有相同自然人的两企业之间的关联关系网络;(4)计算企业之间的投资路径数据;(5)将企业间投资路径作为特征,构建判断模型;(6)使用标注数据训练模型;(7)将待判断同名人的两个企业之间的投资路径特征向量输入到训练后的模型中,由模型判断出同名自然人是否是同一人的概率;当概率值大于设置阈值时判断为同一人。进一步的,所述步骤(4)中的投资路径数据包含:(a)两企业之间的最短投资路径;(b)两企业间投资路径的条数;(c)两企业间同名自然人个数。进一步的,所述方法包含将投资路径数据向量化转化的过程。进一步的,所述步骤(7)中所述投资路径数据向量为:x=[X1、X2、X3、…];其中X为待判定企业的投资路径向量数据,X1为最短投资路径的倒数,X2为投资路径的条数,X3为同名自然人个数。进一步的,述模型公式为:其中f(x)为不同企业同名人为同一人的概率;其中θ为模型需要训练的参数,x为量化后的特征向量。进一步的,所述模型训练过程中损失函数的公式如下:其中j(θ)为损失函数,m为样本个数,y(i)为第i个样本的判断标注值,hθ(x(i))为第i样本的模型预测值,n为模型参数个数,λ为正则项参数。进一步的,当企业间的最短投资路径长度大于5时将最短投资路径向量为置为0。进一步的,投资路径长度大于6的投资路径不计入有效路径条数。进一步的,所述步骤(3)中构建关联关系网络的两企业间最短投资路径长度小于5。进一步的,本专利技术提供一种企业主要相关自然人实体数据对齐方法系统;包含数据获取模块,数据存储模块;数据处理模块;所述数据获取模块,获取待分析目标的相关数据;所述数据存储模块存储包括数据获取模块和数据处理模块的输入、输出的数据;所述数据处理模块;通过上述企业主要相关自然人实体数据对齐方法完成判断不同企业信息中相同姓名的自然人是否是同一人。进一步的,本专利技术提供了一种电子设备,所述电子设备,所述电子设备包含存储器和处理器,所述存储器和处理器相连,所述处理器通过本专利技术方法来完成判断不同企业信息中相同姓名的自然人是否是同一人。进一步的,本专利技术提供一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令使得电子设备执行本专利技术方法所包含的操作步骤。与现有技术相比,本专利技术方法及系统具有以下有益效果:本专利技术方法及系统充分挖掘数据的关联性,发挥数据集成分析的优势;利用投资关联关系的特性,使用企业数据本身的特性,在不多依赖其他数据的情况下,对不同企业的重要同名自然人是否是同一自然人做出较为准确的判断,极大减少计算的开销。并且本专利技术方法使用机器学习构建模型的方式来实现多个关联网络特征数据的综合使用和判断;相对于简单的规则式判断,更加稳定,计算效率也更高。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术方法实现步骤示意图。图2为实施例1所构建的关联关系图谱示意图。图3为实施例1中所计算得到的投资路径示意图。图4为实施例1中所计算得到的投资路径示意图。图5为实施例1中所计算得到的投资路径示意图。图6为实施例1中所计算得到的投资路径示意图。图7为实施例1中所计算得到的投资路径示意图。图8为实施例5中所述的电子设备的示意框图。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的目的在于提供一种企业主要相关自然人实体数据对齐方法及系统;充分挖掘数据的关联性,发挥数据集成分析的优势;利用投资关联关系的特性,使用企业数据本身的特性,在不多依赖其他数据的情况下,对不同企业的重要同名自然人是否是同一自然人做出较为准确的判断,极大减少计算的开销。并且本专利技术方法使本文档来自技高网...

【技术保护点】
1.一种企业主要相关自然人实体数据对齐方法,其特征在于,包含以下实现步骤:(1)获取企业数据,所述企业数据包含投资关系、主要相关自然人;/n(2)获取具有相同姓名自然人的企业数据;/n(3)构建具有相同自然人的两企业之间的关联关系网络;/n(4)计算企业之间的投资路径数据;/n(5)将企业间投资路径作为特征,构建判断模型;/n(6)使用标注数据训练模型;/n(7)将待判断同名人的两个企业之间的投资路径特征向量输入到训练后的模型中,由模型判断出同名自然人是否是同一人的概率;当概率值大于设置阈值时判断为同一人。/n

【技术特征摘要】
1.一种企业主要相关自然人实体数据对齐方法,其特征在于,包含以下实现步骤:(1)获取企业数据,所述企业数据包含投资关系、主要相关自然人;
(2)获取具有相同姓名自然人的企业数据;
(3)构建具有相同自然人的两企业之间的关联关系网络;
(4)计算企业之间的投资路径数据;
(5)将企业间投资路径作为特征,构建判断模型;
(6)使用标注数据训练模型;
(7)将待判断同名人的两个企业之间的投资路径特征向量输入到训练后的模型中,由模型判断出同名自然人是否是同一人的概率;当概率值大于设置阈值时判断为同一人。


2.如权利要求1所述的方法,其特征在于;所述步骤(4)中的投资路径数据包含:
(a)两企业之间的最短投资路径;
(b)两企业间投资路径的条数;
(c)两企业间同名自然人个数。


3.如权利要求2所述的方法,其特征在于;所述方法包含将投资路径数据向量化转化的过程。


4.如权利要求3所述的方法,其特征在于;所述步骤(7)中所述投资路径数据向量为:x=[X1、X2、X3、…];其中X为待判定企业的投资路径向量数据,X1为最短投资路径的倒数,X2为投资路径的条数,X3为同名自然人个数。


5.如权利要求4所述的方法,其特征在于,所述模型公式为:



其中f(x)为不同企业同名人为同一人的概率;其中θ为模型需要训练的参数,x为量化后的特征向量。


6.如权利要求...

【专利技术属性】
技术研发人员:吴桐曾途尹康韩远
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1