The invention provides a string matching method and device, the method includes: obtaining two strings to be matched, obtaining at least one corresponding participle for each string participle; determining the corresponding field of each participle according to the predefined structure string including different fields and the participle reflected by the different fields, and assigning the participle to the corresponding one By comparing the contents of the fields in the two structure strings to be matched, the feature vector is obtained; by inputting the feature vector into the pre trained classification model, the matching probability of the two structure strings to be matched is obtained. The invention can input the feature vector obtained by word segmentation, segmentation and comparison of two strings into the pre-trained classification model to obtain the matching probability of the two strings to be matched, so as to increase the matching rate of strings and make the matching result more accurate.
【技术实现步骤摘要】
一种字符串匹配方法及装置
本专利技术涉及数据科学领域,尤其涉及一种字符串匹配方法及装置。
技术介绍
企业名称匹配是风险控制领域非常重要的技术。例如,在金融行业,尤其在信贷行业,经常要客户填写企业名称用于风险管理,并对客户所填写的企业名称与相应查询资料中的企业名称进行匹配。举个例子,可以用客户填写的企业名称与其征信报告的企业名称进行匹配,核实客户之前是否在该企业工作;或者,可以用该客户的企业名称与其他客户的企业名称对比,看该客户是否还有同事也是本机构客户。现有技术在进行企业名称的匹配时,可以采用人工对比的方式来进行匹配,即人为地对不同的企业名称进行匹配。显然,这种方式人力成本较高,且操作复杂,耗时较长。也可以使用计算机全字符匹配,但是采用这种方法会遗漏掉很大一部分真实相等的公司名称。进行企业名称的匹配时还可以通过中文模糊匹配技术实现企业名称的模糊匹配,采用基于分词的模糊匹配算法,首先将企业名称分段,主要分为行政区、企业字号、行业属性、企业属性、分支机构、部门等,然后根据分成的段进行模糊匹配。企业名称匹配率低,匹配结果不准确。上述技术可以对企业名称进行匹配,但不限于只对企业名称进行匹配,对于其他的字符串也可以采用以上技术进行匹配,但同样也存在上述匹配效率低及匹配结果不准确的问题。
技术实现思路
本专利技术提供一种字符串匹配方法及装置,用以解决对企业名称进行匹配,存在匹配效率低及匹配结果不准确的问题。第一方面,本申请提供一种字符串匹配方法,该方法包括:获取待匹配的两个字符串,对每个字符串分词得到对应的至少一个分词;根据预设定义的包括不同字段的结构字符串,及所述不同字 ...
【技术保护点】
1.一种字符串匹配方法,其特征在于,包括:获取待匹配的两个字符串,对每个字符串分词得到对应的至少一个分词;根据预设定义的包括不同字段的结构字符串,及所述不同字段所映射的分词,确定得到的每个分词对应的字段,并将所述分词赋值给对应的字段,得到待匹配的两个结构字符串;通过对比所述待匹配的两个结构字符串中字段的内容得到特征向量;将所述特征向量输入预先训练的分类模型中,得到所述待匹配的两个字符串的匹配概率。
【技术特征摘要】
1.一种字符串匹配方法,其特征在于,包括:获取待匹配的两个字符串,对每个字符串分词得到对应的至少一个分词;根据预设定义的包括不同字段的结构字符串,及所述不同字段所映射的分词,确定得到的每个分词对应的字段,并将所述分词赋值给对应的字段,得到待匹配的两个结构字符串;通过对比所述待匹配的两个结构字符串中字段的内容得到特征向量;将所述特征向量输入预先训练的分类模型中,得到所述待匹配的两个字符串的匹配概率。2.根据权利要求1所述的方法,其特征在于,预先训练分类模型,包括:获取包括多个训练样本的训练样本集,每个训练样本包括待训练的两个字符串及所述待训练的两个字符串的匹配度;对所述待训练的每个字符串进行分词得到至少一个分词;根据预设定义的包括不同字段的结构字符串,及不同字段所映射的分词,确定得到的每个分词对应的字段,并将分词赋值给对应的字段,得到待训练的两个结构字符串;通过对比所述待训练的两个结构字符串中字段的内容得到特征向量;利用所述训练样本的特征向量及匹配度对预设分类模型进行训练。3.根据权利要求1或2所述的方法,其特征在于,根据不同字段所映射的分词,确定得到的每个分词对应的字段,并将分词赋值给对应的字段,包括:在词库中检索每个分词所匹配的词汇,所述词库包括预设定义的不同字段中至少一个字段所映射的所有分词;查到其中一个分词匹配的词汇时,根据查找的词汇所映射的字段,确定该分词对应的字段,并将分词赋值给对应的字段。4.根据权利要求1或2所述的方法,其特征在于,通过对比两个结构字符串中字段的内容得到特征向量,包括:将其中一个结构字符串中每个字段的内容分别与另一个结构字符串中所有字段的内容一一对比,得到每两个对比字段的相似度,根据得到的所有相似度构建特征向量。5.根据权利要求4所述的方法,其特征在于,将其中一个结构字符串中每个字段的内容分别与另一个结构字符串中字段的内容对比,包括:通过...
【专利技术属性】
技术研发人员:曾伟雄,莫卉星,纪磊,
申请(专利权)人:联动优势科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。