System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息处理,具体是指一种面向企业人员的姓名消歧方法。
技术介绍
1、在当前的商业领域,由于公司注册的门槛降低和企业数量的迅速增加,企业越发注重合作伙伴的风险管理。然而不同企业之间存在高管人员重名的问题,而且高管人员的信息来源于工商注册信息,且出于对隐私的保护,工商注册信息尚未公开人员的身份证或其他唯一标识,使得对于企业高管人员的识别成为困难。因此,迫切需要开发出一种高效且准确的姓名消歧技术,以支持企业的风险管理工作。然而,现有的面向企业人员的姓名消歧技术在应用传统聚类算法时,往往会产生许多孤立的簇群,这直接影响了姓名消歧的准确度。
技术实现思路
1、针对上述情况,为克服现有技术的缺陷,本专利技术提供了一种面向企业人员的姓名消歧方法。针对面向企业人员的姓名消歧技术在应用传统聚类算法时,往往会产生许多孤立的簇群,这直接影响了姓名消歧的准确度的问题,本专利技术提出了一种融合分层和密度空间的聚类方法,首先利用分层聚类的思想,依据企业间的强关联性特征对企业集合进行初步的聚类,接着采用空间密度聚类的原理,通过整体相似度指标进一步细化聚类过程,最终通过设定阈值对孤立的簇进行再聚类,有效减少噪声干扰,以达到精确的姓名消歧效果。
2、本专利技术采取的技术方案如下:本专利技术提供了一种面向企业人员的姓名消歧方法,具体的步骤如下:
3、步骤s1:根据公开的企业工商信息,提取企业名称、联系电话、邮箱、主要人员、通信地址和分支机构的元数据并进行标准化处理;
4
5、步骤s3:根据特征向量计算企业之间的相似度;
6、步骤s4:通过融合分层和密度空间的聚类方法对待消歧的企业集合完成聚类。
7、进一步地,所述步骤s1具体为:
8、步骤s11:采集公开的企业工商信息,提取企业名称、联系电话、邮箱、主要人员、通信地址和分支机构的元数据;
9、步骤s12:联系电话标准化:去掉所有的非数字字符,国内手机号码去掉开头的+86、0086或86/;
10、步骤s13:邮箱标准化:去除邮箱地址中的所有空格、制表符,并将所有邮箱地址转换为小写;
11、步骤s14:通信地址标准化:去除地址中的空格和特殊符号;将地址结构化,格式统一为省+市+区+街道格式,对于缺失的行政区划进行补齐。
12、进一步地,所述步骤s2具体为:
13、步骤s21:对于给定的待消歧姓名,选择包含该消歧姓名的企业,构成待消歧企业集合,其中,并且分别对应企业名称、联系电话、邮箱、主要人员、通信地址和分支机构的元数据;
14、步骤s22:对于待消歧的企业集合中的每个企业的企业名称、联系电话和邮箱,基于word2vec中的连续词袋模型分别生成企业名称嵌入向量、联系电话嵌入向量和邮箱嵌入向量;
15、步骤s23:对于待消歧的企业集合中的每个企业的主要人员、通信地址和分支机构,保留元数据中原始的字符串数据,形成主要人员字符串数据、通信地址字符串数据和分支机构字符串数据;
16、步骤s24:将企业名称嵌入向量、联系电话嵌入向量、邮箱嵌入向量、主要人员字符串数据、通信地址字符串数据和分支机构字符串数据进行整合,构成企业的特征向量,特征向量可表示为。
17、进一步地,步骤s3具体为:
18、步骤s31:使用余弦相似度的方法计算两个企业间企业名称相似度,具体公式如下:
19、;
20、其中代表任意两个企业,表示之间企业名称相似度,和分别表示和的企业名称嵌入向量的特征分量;
21、步骤s32:如果两个企业之间的联系电话嵌入向量一致,则联系电话相似度为1,即;如果联系电话嵌入向量不一致则联系电话相似度为0,即;
22、步骤s33:如果两个企业之间的邮箱嵌入向量一致,则邮箱相似度为1,即;如果邮箱嵌入向量不一致则邮箱相似度为0,即;
23、步骤s34:使用编辑距离计算两个企业间主要人员相似度,具体的公式如下:
24、;
25、其中代表任意两个企业,表示之间主要人员的相似度,分别表示的主要人员字符串数据,表示两个字符串数据之间的编辑距离,表示两个字符串长度的最大值;
26、步骤s35:通过编辑距离计算两个企业之间的通信地址相似度;
27、步骤s36:对于两个企业之间的分支机构,首先计算分支机构的余弦相似度,并设定分支机构相似度阈值,如果余弦相似度大于等于分支机构相似度阈值,则进一步计算jaro-winkler相似度作为分支机构相似度的结果;如果余弦相似度小于分支机构相似度阈值,则分支机构相似度为0,具体的公式如下:
28、;
29、其中代表任意两个企业,分别表示的分支机构字符串数据,表示相似度,表示余弦相似度,代表分支机构相似度阈值;
30、步骤s37:对企业名称相似度、联系电话相似度、邮箱相似度、主要人员相似度、通信地址相似度和分支机构相似度进行加权求和,从而计算两个企业之间的总体相似度,具体公式如下所示:
31、;
32、其中代表任意两个企业,表示两个企业之间的总体相似度,表示第项特征的权重,表示第项特征的相似度。
33、进一步地,步骤s4具体为:
34、步骤s41:创建簇:遍历每个企业,将具有相同邮箱或者相同联系电话的企业聚集成一个簇,否则单独为一个簇;
35、步骤s42:根据主要人员相似度合并相似簇:定义主要人员相似度阈值,遍历簇中的每个企业,如果两个簇之间的主要人员相似度大于主要人员相似度阈值,则将两个簇进行合并;
36、步骤s43:定义最小相似度阈值和最小相似簇数量;
37、步骤s44:将每个簇分类为核心点和噪声点:如果某簇与另一簇的总体相似度大于等于,则另一簇为该簇的相关簇,如果相关簇的个数大于等于,则该簇为核心点,否则为噪声点。簇之间的总体相似度计算公式具体如下:
38、;
39、其中为任意两个簇,表示之间的簇相似度,表示中的企业,表示中的企业,表示和间的总相似度;
40、步骤s45:合并核心点的相关簇:对于每个核心点,将核心点的每个相关簇添加到该核心点中,并通过递归的方式对相关簇进行遍历,直到所有簇都被访问过;
41、步骤s46:噪声点再聚类:定义噪声阈值,对于每个噪声点,选择与该簇总体相似度最高的簇,如果二者的总体相似度大于噪声阈值,则把该噪声点归入该簇,否则将该噪声点单独归为一簇。
42、采用上述方案本专利技术取得的有益成果如下:
43、(1)本专利技术综合考虑了企业名称、联系电话、邮箱、主要人员、通信地址和分支机构六种特征,并将六种特征融合进行表示,可以更全面地描述企业信息,提高消歧的准确性。
44、(2)本专利技术根据本文档来自技高网...
【技术保护点】
1.一种面向企业人员的姓名消歧方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种面向企业人员的姓名消歧方法,其特征在于:
3.根据权利要求2所述的一种面向企业人员的姓名消歧方法,其特征在于:
4.根据权利要求2或3所述的一种面向企业人员的姓名消歧方法,其特征在于:
【技术特征摘要】
1.一种面向企业人员的姓名消歧方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种面向企业人员的姓名消歧方法,其特征在于:
【专利技术属性】
技术研发人员:燕保君,
申请(专利权)人:北京天秘轩文化传播有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。