一种面向企业人员的姓名消歧方法技术

技术编号：42490415 阅读：20 留言：0更新日期：2024-08-21 13:07

本发明专利技术涉及信息处理技术领域，具体是指一种面向企业人员的姓名消歧方法，综合考虑了企业名称、联系电话、邮箱、主要人员、通信地址和分支机构六种特征并融合进行表示；根据每个特征的数据性质，采用多种相似度算法计算企业的特征之间的相似度；针对目前的面向企业人员的姓名消歧方法，在使用传统的聚类算法时易导致大量孤立簇的生成的问题，提出一种融合分层和密度空间的聚类方法，首先利用分层聚类的思想，依据企业间的强关联性特征对企业集合进行初步的聚类，接着采用空间密度聚类的原理，通过整体相似度指标进一步细化聚类过程，最终通过设定阈值对孤立的簇进行再聚类，有效减少噪声干扰，以达到精确的姓名消歧效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理，具体是指一种面向企业人员的姓名消歧方法。

技术介绍

1、在当前的商业领域，由于公司注册的门槛降低和企业数量的迅速增加，企业越发注重合作伙伴的风险管理。然而不同企业之间存在高管人员重名的问题，而且高管人员的信息来源于工商注册信息，且出于对隐私的保护，工商注册信息尚未公开人员的身份证或其他唯一标识，使得对于企业高管人员的识别成为困难。因此，迫切需要开发出一种高效且准确的姓名消歧技术，以支持企业的风险管理工作。然而，现有的面向企业人员的姓名消歧技术在应用传统聚类算法时，往往会产生许多孤立的簇群，这直接影响了姓名消歧的准确度。

技术实现思路

1、针对上述情况，为克服现有技术的缺陷，本专利技术提供了一种面向企业人员的姓名消歧方法。针对面向企业人员的姓名消歧技术在应用传统聚类算法时，往往会产生许多孤立的簇群，这直接影响了姓名消歧的准确度的问题，本专利技术提出了一种融合分层和密度空间的聚类方法，首先利用分层聚类的思想，依据企业间的强关联性特征对企业集合进行初步的聚类，接着采用空间密度聚类的原理，通过整体相似度指标进一步细化聚类过程，最终通过设定阈值对孤立的簇进行再聚类，有效减少噪声干扰，以达到精确的姓名消歧效果。

2、本专利技术采取的技术方案如下：本专利技术提供了一种面向企业人员的姓名消歧方法，具体的步骤如下：

3、步骤s1：根据公开的企业工商信息，提取企业名称、联系电话、邮箱、主要人员、通信地址和分支机构的元数据并进行标准化处理；

5、步骤s3：根据特征向量计算企业之间的相似度；

6、步骤s4：通过融合分层和密度空间的聚类方法对待消歧的企业集合完成聚类。

7、进一步地，所述步骤s1具体为：

8、步骤s11：采集公开的企业工商信息，提取企业名称、联系电话、邮箱、主要人员、通信地址和分支机构的元数据；

9、步骤s12：联系电话标准化：去掉所有的非数字字符，国内手机号码去掉开头的+86、0086或86/；

10、步骤s13：邮箱标准化：去除邮箱地址中的所有空格、制表符，并将所有邮箱地址转换为小写；

11、步骤s14：通信地址标准化：去除地址中的空格和特殊符号；将地址结构化，格式统一为省+市+区+街道格式，对于缺失的行政区划进行补齐。

12、进一步地，所述步骤s2具体为：

13、步骤s21：对于给定的待消歧姓名,选择包含该消歧姓名的企业，构成待消歧企业集合，其中,并且分别对应企业名称、联系电话、邮箱、主要人员、通信地址和分支机构的元数据；

14、步骤s22：对于待消歧的企业集合中的每个企业的企业名称、联系电话和邮箱，基于word2vec中的连续词袋模型分别生成企业名称嵌入向量、联系电话嵌入向量和邮箱嵌入向量；

15、步骤s23：对于待消歧的企业集合中的每个企业的主要人员、通信地址和分支机构，保留元数据中原始的字符串数据，形成主要人员字符串数据、通信地址字符串数据和分支机构字符串数据；

16、步骤s24：将企业名称嵌入向量、联系电话嵌入向量、邮箱嵌入向量、主要人员字符串数据、通信地址字符串数据和分支机构字符串数据进行整合，构成企业的特征向量，特征向量可表示为。

17、进一步地，步骤s3具体为：

18、步骤s31：使用余弦相似度的方法计算两个企业间企业名称相似度，具体公式如下：

19、;

20、其中代表任意两个企业，表示之间企业名称相似度，和分别表示和的企业名称嵌入向量的特征分量；

21、步骤s32：如果两个企业之间的联系电话嵌入向量一致，则联系电话相似度为1，即；如果联系电话嵌入向量不一致则联系电话相似度为0，即；

22、步骤s33：如果两个企业之间的邮箱嵌入向量一致，则邮箱相似度为1，即；如果邮箱嵌入向量不一致则邮箱相似度为0，即；

23、步骤s34：使用编辑距离计算两个企业间主要人员相似度，具体的公式如下：

24、;

25、其中代表任意两个企业，表示之间主要人员的相似度，分别表示的主要人员字符串数据，表示两个字符串数据之间的编辑距离，表示两个字符串长度的最大值；

26、步骤s35：通过编辑距离计算两个企业之间的通信地址相似度；

27、步骤s36：对于两个企业之间的分支机构，首先计算分支机构的余弦相似度，并设定分支机构相似度阈值，如果余弦相似度大于等于分支机构相似度阈值，则进一步计算jaro-winkler相似度作为分支机构相似度的结果；如果余弦相似度小于分支机构相似度阈值，则分支机构相似度为0，具体的公式如下：

28、;

29、其中代表任意两个企业，分别表示的分支机构字符串数据，表示相似度，表示余弦相似度，代表分支机构相似度阈值；

30、步骤s37：对企业名称相似度、联系电话相似度、邮箱相似度、主要人员相似度、通信地址相似度和分支机构相似度进行加权求和，从而计算两个企业之间的总体相似度，具体公式如下所示：

31、;

32、其中代表任意两个企业，表示两个企业之间的总体相似度，表示第项特征的权重，表示第项特征的相似度。

33、进一步地，步骤s4具体为：

34、步骤s41：创建簇：遍历每个企业，将具有相同邮箱或者相同联系电话的企业聚集成一个簇，否则单独为一个簇；

35、步骤s42：根据主要人员相似度合并相似簇：定义主要人员相似度阈值，遍历簇中的每个企业，如果两个簇之间的主要人员相似度大于主要人员相似度阈值，则将两个簇进行合并；

36、步骤s43：定义最小相似度阈值和最小相似簇数量；

37、步骤s44：将每个簇分类为核心点和噪声点：如果某簇与另一簇的总体相似度大于等于，则另一簇为该簇的相关簇，如果相关簇的个数大于等于，则该簇为核心点，否则为噪声点。簇之间的总体相似度计算公式具体如下：

38、;

39、其中为任意两个簇，表示之间的簇相似度，表示中的企业，表示中的企业，表示和间的总相似度；

40、步骤s45：合并核心点的相关簇：对于每个核心点，将核心点的每个相关簇添加到该核心点中，并通过递归的方式对相关簇进行遍历，直到所有簇都被访问过；

41、步骤s46：噪声点再聚类：定义噪声阈值，对于每个噪声点，选择与该簇总体相似度最高的簇，如果二者的总体相似度大于噪声阈值，则把该噪声点归入该簇，否则将该噪声点单独归为一簇。

42、采用上述方案本专利技术取得的有益成果如下：

43、（1）本专利技术综合考虑了企业名称、联系电话、邮箱、主要人员、通信地址和分支机构六种特征，并将六种特征融合进行表示，可以更全面地描述企业信息，提高消歧的准确性。

44、（2）本专利技术根据本文档来自技高网...

【技术保护点】

1.一种面向企业人员的姓名消歧方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种面向企业人员的姓名消歧方法，其特征在于：

3.根据权利要求2所述的一种面向企业人员的姓名消歧方法，其特征在于：

4.根据权利要求2或3所述的一种面向企业人员的姓名消歧方法，其特征在于：

【技术特征摘要】

1.一种面向企业人员的姓名消歧方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种面向企业人员的姓名消歧方法，其特征在于：

【专利技术属性】
技术研发人员：燕保君，
申请(专利权)人：北京天秘轩文化传播有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人