一种公司信息匹配方法组成比例

技术编号:32966744 阅读:19 留言:0更新日期:2022-04-09 11:24
本公开是关于一种公司信息匹配方法,所述方法包括:接收用户输入的待查公司信息;格式化待查公司电话号码;模糊检索待查公司名称,得到第一结果集;所述第一结果集中包括检索到的至少一个相似公司信息;判断待查公司名称和所述第一结果集中的相似公司名称是否一致;若公司名称一致,则判断与所述待查公司名称一致的相似公司名称对应的相似公司电话号码是否和格式化后的待查公司电话号码一致;若电话号码一致,则确定待查公司信息匹配结果为一致。所述公司信息包括公司名称、公司电话号码和公司地址。本发明专利技术能核验名称、号码、地址等公司多维信息的一致性,匹配准确度高。匹配准确度高。匹配准确度高。

【技术实现步骤摘要】
一种公司信息匹配方法


[0001]本公开涉及计算机
,尤其涉及一种公司信息匹配方法。

技术介绍

[0002]金融机构在贷前审核时需要核验贷款人提交工作单位的名称、号码、地址是否正确。贷款人提供的公司名称有可能和工商局注册的不一致(例如存在简写、错别字、同音异字、分公司名、集团名等),信息核验的难度较大。
[0003]目前市面上提供公司信息查询的平台仅能通过精准公司名查询公司信息,无法实现对输入公司名称的智能匹配,这些平台也无法提供对公司名称、电话号码、地址等多重信息进行一致性匹配的功能,因此,现有的这些公司信息查询平台无法提供稳定的查询接口服务给贷款机构使用,贷款机构往往需要花费大量的人力和时间去核验各公司的多重信息是否准确,费时费力,且人工查询结果准确性及可靠性低,增加了金融贷款风险。

技术实现思路

[0004]本专利技术的目的在于提供一种公司信息匹配方法,用于解决问题现有的公司信息查询平台只能查询精确公司名称,无法实现公司多维信息的匹配,人工查询费时费可靠性低的问题。本专利技术可以根据用户提供的公司名称,计算出相似公司与待查询公司名称的相似度,进而核验名称、号码、地址等多维信息的一致性,提供稳定的公司信息查询接口服务,提高公司信息审核人员工作效率。
[0005]本专利技术提供的一种公司信息匹配方法,包括:
[0006]接收用户输入的待查公司信息;所述公司信息包括公司名称、公司电话号码和公司地址;
[0007]格式化待查公司电话号码;
[0008]模糊检索待查公司名称,得到第一结果集;所述第一结果集中包括检索到的至少一个相似公司信息;
[0009]判断待查公司名称和所述第一结果集中的相似公司名称是否一致;
[0010]若所述待查公司名称和所述第一结果集中的相似公司名称一致,则判断与所述待查公司名称一致的相似公司名称对应的相似公司电话号码是否和格式化后的待查公司电话号码一致;
[0011]若与所述待查公司名称一致的相似公司名称对应的相似公司电话号码和格式化后的待查公司电话号码一致,则确定待查公司信息匹配结果为一致。
[0012]本实施例提供的技术方案可以包括以下有益效果:
[0013]本专利技术实施例提供的公司信息匹配方法,通过自建数据库和搜索引擎获取到与待查公司名称相似的公司信息,并通过公司名称和电话号码、地址等多维度综合判断相似公司信息是否与待查公司信息相一致,在多维度公司信息都一致时,才输出公司信息匹配一致的结果,提供了一种全新的通过多维度信息查询公司信息的接口服务,查询结果准确,可
靠性高,能够提高公司信息审核人员工作效率,降低人工和时间成本,并降低金融贷款风险。
[0014]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0015]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0016]图1为本专利技术实施例提供的一种公司信息匹配方法实施例一的流程图;
[0017]图2为图1中S12中格式化待查公司电话号码的方法流程图;
[0018]图3为S133中通过搜索引擎搜索与待查公司电话及待查公司名称相似的公司信息得到第三结果集的具体方法流程图;
[0019]图4为图3中步骤A17的具体实施方法流程图;
[0020]图5为图1中S14所述判断待查公司名称和所述第一结果集中的相似公司名称是否一致的方法流程图;
[0021]图6为图5中S145的具体实施方法流程图;
[0022]图7为计算待查公司名称和当前相似公司名称的地址相似系数的方法流程图;
[0023]图8为计算待查公司名称和当前相似公司名称的行业相似系数的方法流程图;
[0024]图9为计算待查公司名称和当前相似公司名称的关键字相似系数的方法流程图;
[0025]图10为本专利技术实施例提供的一种公司信息匹配方法实施例二的流程图;
[0026]图11为图10中S26的具体实施方法流程图;
[0027]图12为图11中S266的具体实施方法流程图。
具体实施方式
[0028]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0029]图1为本专利技术实施例提供的一种公司信息匹配方法实施例一的流程图,如图1中所示,该方法包括以下步骤S11

S17:
[0030]S11:接收用户输入的待查公司信息;
[0031]本专利技术实施例中,所述公司信息包括公司名称、公司电话号码和公司地址。则待查公司信息包括待查公司名称、待查公司电话号码和待查公司地址。
[0032]S12:格式化待查公司电话号码。
[0033]S13:模糊检索待查公司名称,得到第一结果集。
[0034]其中,所述第一结果集中包括检索到的至少一个相似公司信息。
[0035]在一可选实施例中,S13的具体实施方法包括以下步骤S131

S134:
[0036]S131:基于TF

IDF算法,计算所述待查公司名称与预先设置的Elasticsearch数据库中存储的各公司名称的匹配分数;
[0037]词频

逆向文件频率(Term Frequency

Inverse Document Frequency,TF

IDF)算法是现有的一种用于信息检索与文本挖掘的常用加权技术。通过TF

IDF算法可计算文本相似度,本步骤中,通过TF

IDF算法计算所述待查公司名称与预先设置的Elasticsearch数据库中存储的各公司名称的匹配分数。
[0038]本实施例中,在步骤S11执行之前,还包括:通过网络公开接口爬取海量公司的名称、电话、地址,存到预先设置的Elasticsearch数据库中,所述Elasticsearch数据库中还存储有全国省市区县数据库、各种公司行业数据库(例如:石油:["加油站","中油","油气","油田","石化","石油","采油"])、全国区号库和每个区号后面号码的位数信息等。
[0039]S132:获取与待查公司名称的匹配分数最高的前N个公司信息,作为第二结果集;
[0040]其中,所述N为第一预设数量。优选地,N=5,即步骤S132中选取与待查公司名称的匹配分数最高的前5个公司信息,作为与待查公司名称相似的公司信息,形成第二结果集。
[0041]S133:通过搜索引擎搜索与待查公司电话及待查公司名称相似本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种公司信息匹配方法,其特征在于,包括:接收用户输入的待查公司信息;所述公司信息包括公司名称、公司电话号码和公司地址;格式化待查公司电话号码;模糊检索待查公司名称,得到第一结果集;所述第一结果集中包括检索到的至少一个相似公司信息;判断待查公司名称和所述第一结果集中的相似公司名称是否一致;若所述待查公司名称和所述第一结果集中的相似公司名称一致,则判断与所述待查公司名称一致的相似公司名称对应的相似公司电话号码是否和格式化后的待查公司电话号码一致;若与所述待查公司名称一致的相似公司名称对应的相似公司电话号码和格式化后的待查公司电话号码一致,则确定待查公司信息匹配结果为一致。2.根据权利要求1所述的公司信息匹配方法,其特征在于,所述模糊检索待查公司名称,得到第一结果集,包括:基于TF

IDF算法,计算所述待查公司名称与预先设置的Elasticsearch数据库中存储的各公司名称的匹配分数;获取与待查公司名称的匹配分数最高的前N个公司信息,作为第二结果集;所述N为第一预设数量;通过搜索引擎搜索与待查公司电话及待查公司名称相似的公司信息,作为第三结果集;将所述第二结果集和第三结果集合并,得到第一结果集。3.根据权利要求2所述的公司信息匹配方法,其特征在于,所述通过搜索引擎搜索与待查公司电话及待查公司名称相似的公司信息,作为第三结果集,包括:步骤A11:根据预先设置的链接格式以及格式化后的待查公司电话号码,构造以待查公司电话号码为检索关键字的查询链接;步骤A12:通过指定搜索引擎访问所述查询链接,得到搜索引擎返回的第四结果集;所述第四结果集中有多个搜索结果;步骤A13:判断所述第四结果集中是否有标题/摘要中包括所述格式化后的待查公司电话号码的结果;若是,则执行步骤A14,否则,执行步骤A17;步骤A14:判断所述第四结果集中标题/摘要中包括所述格式化后的待查公司电话号码的结果的数量是否不小于M;若是,则执行步骤A15,否则,执行步骤A16;其中,所述M为第二预设数量;步骤A15:获取所述第四结果集中标题/摘要中包括所述格式化后的待查公司电话号码的前M个结果的标题作为对应公司名称,记录所述标题/摘要中包括所述格式化后的待查公司电话号码的前M个结果的公司信息,得到第三结果集;步骤A16:获取所述第四结果集中摘要中包括所述格式化后的待查公司电话号码的全部结果的标题作为对应公司名称,记录所述标题/摘要中包括所述格式化后的待查公司电话号码的全部结果的公司信息,得到第三结果集;步骤A17:根据所述第四结果集中的前M个结果的标题,获取其中与待查公司名称相似
的公司信息,得到第三结果集。4.根据权利要求3所述的公司信息匹配方法,其特征在于,所述根据所述第四结果集中的前M个结果的标题,获取其中与待查公司名称相似的公司信息,包括:步骤B11:判断是否能在所述第四结果集中的前M个结果中的每个结果的标题和摘要中查找到以第一预设词典中的词为后缀的串;若是,则执行步骤B12,否则,执行步骤B13;其中,所述第一预设词典至少包括:公司、有限公司、集团;步骤B12:确定当前结果是与待查公司名称相似的公司,获取查找到的串作为当前结果对应的公司名称;步骤B13:对比判断所述待查公司名称与当前结果的标题的拼音是否完全相同;若是,则执行步骤B14,否则,执行步骤B15;步骤B14:确定当前结果是与待查公司名称相似的公司,将当前结果的标题作为当前结果对应的公司名称;步骤B15:判断所述待查公司名称的拼音是否在当前结果的标题中且所述待查公司名称的拼音长度大于4且所述待查公司名称的拼音不是第二预设词典中任一词语的拼音;若是,则执行步骤B14,否则,执行步骤B16;其中,所述第二预设词典至少包括:地名、公司后缀;步骤B16:获取所述待查公司名称与当前结果的标题的最长子序列;所述最长子序列为所述待查公司名称与当前结果的标题的相同字符按序组成的第一字符串;步骤B17:判断所述待查公司名称与当前结果的标题的最长子序列的长度与所述待查公司名称的长度比是否大于0.7;若是,则执行步骤B14,否则,执行步骤B18;步骤B18:根据区域地点和关键词“公司”对所述待查公司名称进行切分,得到所述待查公司名称对应的“区域+第二字符串+公司后缀”形式的第三字符串;步骤B19:判断所述第二字符串是否为空;若是,则执行步骤B21,否则,执行步骤B20;步骤B20:判断所述第二字符串的拼音是否在所述当前结果的标题中且所述第二字符串的拼音的长度大于4且所述第二字符串的拼音不是所述第二预设词典中任一词语的拼音;若是,则执行步骤B14,否则,执行步骤B21;步骤B21:确定当前结果不是与待查公司名称相似的公司。5.根据权利要求1所述的公司信息匹配方法,其特征在于,所述格式化待查公司电话号码,包括:S1201:删除所述待查公司电话号码中除数字外的其它字符,得到第一数字串;S1202:判断所述第一数字串的前缀是否含“0086”或“86”和/或后缀是否含“.0”或“.00”;若是,则执行S1203,否则,执行S1204;S1203:若所述第一数字串的前缀含“0086”或“86”,则去掉所述第一数字串的前缀,若所述第一数字串的后缀含“.0”或“.00”,则去掉所述第一数字串的后缀,随后执行S1204;S1204:判断当前第一数字串的前两位是否是12~19中的任一数字且所述当前第一数字串的位数是否为11位;若是,则执行S1205,否则,执行S1206;S1205:确定当前第一数字串为手机号形式的格式化后的待查公司电话号码;S1206:判断所述当前第一数字串的第一位数字是否为0;若是,则执行S1208,否则,执行S1207;
S1207:根据当前第一第四数字串中的区号的归属地信息,在当前第一数字串的首位加上0并匹配出区号,随后执行S1207;S1208:判断当前第一数字串中的区号是否重复;若是,则执行S1209,否则,执行S1210;S1209:去掉当前第一数字串中重复的区号;S1210:根据当前第一第四数字串中的区号的归属地信息,将所述当前第一数字串中的区号后的数字从前往后按照归属地号码位数提取出来,删除除区号和提取部分的剩余数字,得到座机号形式的格式化后的待查公司电话号码。6.根据权利要求3所述的公司信息匹配方法,其特征在于,所述记录所述标题/摘要中包括所述格式化后的待查公司电话号码的前M个结果的公司信息,得到第三结果集,还包括:设置所述第三结果集中的每个相似公司名称与待查公司名称的匹配分数为第一预设分数;所述记录所述标题/摘要中包括所述格式化后的待查公司电话号码的全部结果的公司信息,得到第三结果集,还包括:设置所述第三结果集中的每个相似公司名称与待查公司名称的匹配分数为第一预设分数;所述根据所述第四结果集中的前M个结果的标题,获取其中与待查公司名称相似的公司信息,得到第三结果集,还包括:设置所述第三结果集中的每个相似公司名称与待查公司名称的匹配分数为第二预设分数;所述第二预设分数低于所述第一预设分数;所述判断所述待查公司名称和所述第一结果集中的相似公司名称是否一致,包括以下步骤:S141:判断所述待查公司名称的字符串和所述第一结果集中的当前相似公司名称的字符串是否相等,或者,所述待查公司名称的字符串和所述当前相似公司名称的字符串二者中的一个字符串是否全部包含另一个字符串;若是,则执行S142,否则,执行S143;S142:设置所述待查公司名称和当前相似公司名称的相似系数为0.4,并继续执行S145;S143:将所述待查公司名称切割为“区域+字号+行业号+企业类型”形式的第四字符串,将当前相似公司名称切割为“区域+字号+行业号+企业类型”形式的第五字符串;S144:根据所述第四字符串和第五字符串,计算所述待查公司名称和当前相似公司名称的相似系数;S145:根据所述待查公司名称和当前相似公司名称的相似系数以及当前相似公司名称与待查公司名称的匹配分数,确定所述待查公司名称和当前相似公司名称是否一致。7.根据权利要求6所述的公司信息匹配方法,其特征在于,所述根据所述待查公司名称和当前相似公司名称的相似系数以及当前相似公司名称与待查公司名称的匹配分数,确定所述待查公司名称和当前相似公司名称是否一致,包括:步骤C10:判断所述当前相似公司名称与待查公司名称的匹配分数是否不小于所述第一预设匹配分数;若是,则执行步骤C20,否则执行步骤C30;步骤C20:判断所述待查公司名称和当前相似公司名称的相似系数是否不小于第一预设系数;若是,则执行步骤C21,否则执行步骤C22;步骤C21:确定所述待查公司名称和当前相似公司名称精确一致;步骤C22:判断所述待查公司名称和当前相似公司名称的相似系数是否不小于第二预
设系数;若是,则执行步骤C23,否则执行步骤C24;其中,所述第二预设系数小于所述第一预设系数;步骤C23:确定所述待查公司名称和当前相似公司名称模糊一致;步骤C24:确定所述待查公司名称和当前相似公司名称不一致;步骤C30:判断所述当前相似公司名称与待查公司名称的匹配分数是否不小于所述第二预设匹配分数;若是,则执行步骤C31,否则执行步骤C24;步骤C31:判断所述待查公司名称和当前相似公司名称的相似系数是否不小于第一预设系数;若是,则执行步骤C23,否则执行步骤C24;其中,所述若所述待查公司名称和所述第一结果集中的相似公司名称一致,则判断与所述待查公司名称一致的相似公司名称对应的相似公...

【专利技术属性】
技术研发人员:刘勇毛羽建张双县刘畅李晏铭李毅
申请(专利权)人:北京羽乐创新科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1