一种字符串匹配方法及装置制造方法及图纸

技术编号:22502538 阅读:56 留言:0更新日期:2019-11-09 02:43
本发明专利技术提供一种字符串匹配方法及装置,该方法包括:获取待匹配的两个字符串,对每个字符串分词得到对应的至少一个分词;根据预设定义的包括不同字段的结构字符串,及所述不同字段所映射的分词,确定得到的每个分词对应的字段,并将所述分词赋值给对应的字段,得到待匹配的两个结构字符串;通过对比所述待匹配的两个结构字符串中字段的内容得到特征向量;将所述特征向量输入预先训练的分类模型中,得到所述待匹配的两个字符串的匹配概率。本发明专利技术可以通过将两个字符串经过分词、分段、对比后得到的特征向量输入预先训练的分类模型中,得到所述待匹配的两个字符串的匹配概率,从而使字符串的匹配率增高,匹配结果更准确。

A string matching method and device

The invention provides a string matching method and device, the method includes: obtaining two strings to be matched, obtaining at least one corresponding participle for each string participle; determining the corresponding field of each participle according to the predefined structure string including different fields and the participle reflected by the different fields, and assigning the participle to the corresponding one By comparing the contents of the fields in the two structure strings to be matched, the feature vector is obtained; by inputting the feature vector into the pre trained classification model, the matching probability of the two structure strings to be matched is obtained. The invention can input the feature vector obtained by word segmentation, segmentation and comparison of two strings into the pre-trained classification model to obtain the matching probability of the two strings to be matched, so as to increase the matching rate of strings and make the matching result more accurate.

【技术实现步骤摘要】
一种字符串匹配方法及装置
本专利技术涉及数据科学领域,尤其涉及一种字符串匹配方法及装置。
技术介绍
企业名称匹配是风险控制领域非常重要的技术。例如,在金融行业,尤其在信贷行业,经常要客户填写企业名称用于风险管理,并对客户所填写的企业名称与相应查询资料中的企业名称进行匹配。举个例子,可以用客户填写的企业名称与其征信报告的企业名称进行匹配,核实客户之前是否在该企业工作;或者,可以用该客户的企业名称与其他客户的企业名称对比,看该客户是否还有同事也是本机构客户。现有技术在进行企业名称的匹配时,可以采用人工对比的方式来进行匹配,即人为地对不同的企业名称进行匹配。显然,这种方式人力成本较高,且操作复杂,耗时较长。也可以使用计算机全字符匹配,但是采用这种方法会遗漏掉很大一部分真实相等的公司名称。进行企业名称的匹配时还可以通过中文模糊匹配技术实现企业名称的模糊匹配,采用基于分词的模糊匹配算法,首先将企业名称分段,主要分为行政区、企业字号、行业属性、企业属性、分支机构、部门等,然后根据分成的段进行模糊匹配。企业名称匹配率低,匹配结果不准确。上述技术可以对企业名称进行匹配,但不限于只对企业名称进行匹配,对于其他的字符串也可以采用以上技术进行匹配,但同样也存在上述匹配效率低及匹配结果不准确的问题。
技术实现思路
本专利技术提供一种字符串匹配方法及装置,用以解决对企业名称进行匹配,存在匹配效率低及匹配结果不准确的问题。第一方面,本申请提供一种字符串匹配方法,该方法包括:获取待匹配的两个字符串,对每个字符串分词得到对应的至少一个分词;根据预设定义的包括不同字段的结构字符串,及所述不同字段所映射的分词,确定得到的每个分词对应的字段,并将所述分词赋值给对应的字段,得到待匹配的两个结构字符串;通过对比所述待匹配的两个结构字符串中字段的内容得到特征向量;将所述特征向量输入预先训练的分类模型中,得到所述待匹配的两个字符串的匹配概率。可选的,预先训练分类模型,包括:获取包括多个训练样本的训练样本集,每个训练样本包括待训练的两个字符串及所述待训练的两个字符串的匹配度;对所述待训练的每个字符串进行分词得到至少一个分词;根据预设定义的包括不同字段的结构字符串,及不同字段所映射的分词,确定得到的每个分词对应的字段,并将分词赋值给对应的字段,得到待训练的两个结构字符串;通过对比所述待训练的两个结构字符串中字段的内容得到特征向量;利用所述训练样本的特征向量及匹配度对预设分类模型进行训练。可选的,对每个字符串分词得到至少一个分词,包括:通过jieba分词算法对每个字符串分词得到至少一个分词。可选的,根据不同字段所映射的分词,确定得到的每个分词对应的字段,并将分词赋值给对应的字段,包括:在词库中检索每个分词所匹配的词汇,所述词库包括预设定义的不同字段中至少一个字段所映射的所有分词;查到其中一个分词匹配的词汇时,根据查找的词汇所映射的字段,确定该分词对应的字段,并将分词赋值给对应的字段。可选的,通过对比两个结构字符串中字段的内容得到特征向量,包括:将其中一个结构字符串中每个字段的内容分别与另一个结构字符串中所有字段的内容一一对比,得到每两个对比字段的相似度,根据得到的所有相似度构建特征向量。可选的,将其中一个结构字符串中每个字段的内容分别与另一个结构字符串中字段的内容对比,包括:通过笛卡尔乘机的方法,将其中一个结构字符串中每个字段的内容分别与另一个结构字符串中所有字段的内容一一对比。可选的,预先训练利用如下任一分类算法构建的分类模型,包括:决策树分类算法、随机森林分类算法、逻辑回归分类算法、神经网络分类算法。可选的,根据预设定义的包括不同字段的结构字符串,包括主机构部分和分支机构部分;所述主机构部分包括字段:行政区划、字号、行业、组织形式;所述分支机构部分包括字段:行政区划、字号、行业、组织形式。第二方面,本申请提供一种字符串匹配装置,该装置包括:分词模块,用于获取待匹配的两个字符串,对每个字符串分词得到对应的至少一个分词;赋值模块,用于根据预设定义的包括不同字段的结构字符串,及所述不同字段所映射的分词,确定得到的每个分词对应的字段,并将所述分词赋值给对应的字段,得到待匹配的两个结构字符串;向量确定模块,用于通过对比所述待匹配的两个结构字符串中字段的内容得到特征向量;匹配模块,用于将所述特征向量输入预先训练的分类模型中,得到所述待匹配的两个字符串的匹配概率。第三方面,本申请提供一种字符串匹配装置,包括:存储器、处理器;其中,所述存储器用于存储程序;所述处理器用于执行所述存储器中的程序,包括如下步骤:获取待匹配的两个字符串,对每个字符串分词得到对应的至少一个分词;根据预设定义的包括不同字段的结构字符串,及所述不同字段所映射的分词,确定得到的每个分词对应的字段,并将所述分词赋值给对应的字段,得到待匹配的两个结构字符串;通过对比所述待匹配的两个结构字符串中字段的内容得到特征向量;将所述特征向量输入预先训练的分类模型中,得到所述待匹配的两个字符串的匹配概率。第四方面,本申请还提供一种计算机存储介质,其上存储有计算机程序,该程序被处理单元执行时实现第一方面所述方法的步骤。另外,第二方面至第四方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。利用本专利技术提供的一种字符串匹配方法及装置,具有以下有益效果:本专利技术提供的一种字符串匹配方法及装置,可以通过将两个字符串经过分词、分段、对比后得到的特征向量输入预先训练的分类模型中,得到所述待匹配的两个字符串的匹配概率。从而使字符串的匹配率增高,匹配结果更准确。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种字符串匹配方法示意图;图2为本专利技术实施例提供的一种训练分类模型的方法示意图;图3为本专利技术实施例提供的一种字符串匹配装置示意图;图4为本专利技术实施例提供的一种字符串匹配装置示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部份实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本专利技术实施例提供了一种字符串匹配方法,该字符串可以但不限于是企业名称,企业名称应当由行政区划、字号、行业、组织形式依次组成,法律法规另有规定的除外,以“北京××信息技术股份有限公司”。表1行政区划字号行业组织形式北京×××信息技术股份有限公司企业名称中的行政区划是本企业所在地县级以上行政区划的名称或地名。有些将名称中的行政区划放在字号之后,组织形式之前。可以将“中国”也当作一个行政区划去处理。企业名称中的字号应当由本文档来自技高网...

【技术保护点】
1.一种字符串匹配方法,其特征在于,包括:获取待匹配的两个字符串,对每个字符串分词得到对应的至少一个分词;根据预设定义的包括不同字段的结构字符串,及所述不同字段所映射的分词,确定得到的每个分词对应的字段,并将所述分词赋值给对应的字段,得到待匹配的两个结构字符串;通过对比所述待匹配的两个结构字符串中字段的内容得到特征向量;将所述特征向量输入预先训练的分类模型中,得到所述待匹配的两个字符串的匹配概率。

【技术特征摘要】
1.一种字符串匹配方法,其特征在于,包括:获取待匹配的两个字符串,对每个字符串分词得到对应的至少一个分词;根据预设定义的包括不同字段的结构字符串,及所述不同字段所映射的分词,确定得到的每个分词对应的字段,并将所述分词赋值给对应的字段,得到待匹配的两个结构字符串;通过对比所述待匹配的两个结构字符串中字段的内容得到特征向量;将所述特征向量输入预先训练的分类模型中,得到所述待匹配的两个字符串的匹配概率。2.根据权利要求1所述的方法,其特征在于,预先训练分类模型,包括:获取包括多个训练样本的训练样本集,每个训练样本包括待训练的两个字符串及所述待训练的两个字符串的匹配度;对所述待训练的每个字符串进行分词得到至少一个分词;根据预设定义的包括不同字段的结构字符串,及不同字段所映射的分词,确定得到的每个分词对应的字段,并将分词赋值给对应的字段,得到待训练的两个结构字符串;通过对比所述待训练的两个结构字符串中字段的内容得到特征向量;利用所述训练样本的特征向量及匹配度对预设分类模型进行训练。3.根据权利要求1或2所述的方法,其特征在于,根据不同字段所映射的分词,确定得到的每个分词对应的字段,并将分词赋值给对应的字段,包括:在词库中检索每个分词所匹配的词汇,所述词库包括预设定义的不同字段中至少一个字段所映射的所有分词;查到其中一个分词匹配的词汇时,根据查找的词汇所映射的字段,确定该分词对应的字段,并将分词赋值给对应的字段。4.根据权利要求1或2所述的方法,其特征在于,通过对比两个结构字符串中字段的内容得到特征向量,包括:将其中一个结构字符串中每个字段的内容分别与另一个结构字符串中所有字段的内容一一对比,得到每两个对比字段的相似度,根据得到的所有相似度构建特征向量。5.根据权利要求4所述的方法,其特征在于,将其中一个结构字符串中每个字段的内容分别与另一个结构字符串中字段的内容对比,包括:通过...

【专利技术属性】
技术研发人员:曾伟雄莫卉星纪磊
申请(专利权)人:联动优势科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1