一种文本匹配方法、装置及计算机设备制造方法及图纸

技术编号:28375360 阅读:15 留言:0更新日期:2021-05-08 00:02
本发明专利技术涉及信息检索技术领域,公开了一种文本匹配方法、装置及计算机设备。在所述方法中,提供了一种准确快速的文本匹配方案,即在应用到海量规范文档检索场景中时,可从词频‑逆文档频率维度、编辑距离维度和杰卡德相似系数维度等三个不同维度上对用户查询文本和已知文档标题进行相似性/差异性比对,并计算得到用户查询文本和已知文档标题在各个维度上的指标值,然后通过算法综合三个指标值得到聚合指标值,最后基于最大聚合指标值锁定匹配目标,由于该方法不需要进行模型训练,并具有较高的准确度和较低的算法复杂度,因此可以快速准确地得到检索结果,特别适用于在线环境下的文档检索。

【技术实现步骤摘要】
一种文本匹配方法、装置及计算机设备
本专利技术属于信息检索
,具体地涉及一种文本匹配方法、装置及计算机设备。
技术介绍
短文本匹配是自然语言处理(NaturalLanguageProcessing,NLP)中一个非常基础的问题,它在信息检索、智能问答和机器翻译等领域有着广泛的应用。如网页搜索可以抽象为寻找与用户查询文本相匹配网页的相似性问题,智能回复可抽象为根据问题匹配答案的文本相似性问题等等。由于企业内部文档一般比较规范,文档标题和文档内容关联性非常强,所以仅用文档标题做匹配就可以得到比较高的准确率,而不用全文档检索,否则必然非常耗时,因此用户查询文本和已知文档标题的相似性比对可以抽象一个短文本匹配问题,使得可将短文本匹配技术应用在企业内部文档检索场景中。目前,传统的短文本匹配方法有基于词移距离(WordMover’sDistance,WMD)的方法和基于概率检索模型的BM25方法,其中,WMD方法使用Word2Vec编码词向量,可以实现语义匹配,但它的最大缺陷在于时间复杂度较高,不适合用于海量规范文档检索场景,例如对于大公司而言,企业内部文档可能是海量的,因此若使用WMD方法对企业内部文档进行检索,将非常耗时;而BM25方法是将用户查询文本切分为单词,然后基于单词和文档标题之间的相似性、单词和查询文本之间的相似性和每个单词的权重这三个指标对查询文本和文档标题之间的相似性进行量化,但是该方法在计算单词权重时没有考虑单词之间的相关性,因此存在文档检索准确率较低的问题。
技术实现思路
为了解决现有短文本匹配方法在应用到海量规范文档检索场景中所存在的检索耗时和文档检索准确率较低的问题,本专利技术目的在于提供一种新型的文本匹配方法、装置、计算机设备及计算机可读存储介质,可以在应用到海量规范文档检索场景中时,从词频-逆文档频率维度、编辑距离维度和杰卡德相似系数维度等三个不同维度上对用户查询文本和已知文档标题进行相似性/差异性比对,并计算得到用户查询文本和已知文档标题在各个维度上的指标值,然后通过算法综合三个指标值得到聚合指标值,最后基于最大聚合指标值锁定匹配目标,由于该方法不需要进行模型训练,并具有较高的准确度和较低的算法复杂度,因此可以快速准确地得到检索结果,特别适用于在线环境下的文档检索。第一方面,本专利技术提供了一种文本匹配方法,包括:获取查询单词集合和多个标题单词集合,其中,所述查询单词集合与用户查询文本对应,所述多个标题单词集合与多个已知文档标题一一对应;针对所述多个标题单词集合中的各个标题单词集合,计算得到所述查询单词集合与该标题单词集合的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频-逆文档频率TF-IDF计算得到的且所述查询单词集合与该标题单词集合的相似程度,所述第二指标值用于表征基于编辑距离MED计算得到的且所述查询单词集合与该标题单词集合的差异程度,所述第三指标值用于表征基于杰卡德相似系数计算得到的且所述查询单词集合与该标题单词集合的相似程度;针对所述各个标题单词集合,计算得到对应该标题单词集合的所述第一指标值与所述第三指标值的积以及所述第二指标值与所述第三指标值的积,并从两积中取最大值,得到对应的聚合指标值;将与最大聚合指标值对应的已知文档标题作为所述用户查询文本的匹配目标,其中,所述最大聚合指标值为多个聚合指标值中的最大值,所述多个聚合指标值与所述多个已知文档标题一一对应。基于上述
技术实现思路
,提供了一种准确快速的文本匹配方案,即在应用到海量规范文档检索场景中时,可从词频-逆文档频率维度、编辑距离维度和杰卡德相似系数维度等三个不同维度上对用户查询文本和已知文档标题进行相似性/差异性比对,并计算得到用户查询文本和已知文档标题在各个维度上的指标值,然后通过算法综合三个指标值得到聚合指标值,最后基于最大聚合指标值锁定匹配目标,由于该方法不需要进行模型训练,并具有较高的准确度和较低的算法复杂度,因此可以快速准确地得到检索结果,特别适用于在线环境下的文档检索。在一个可能的设计中,获取查询单词集合和多个标题单词集合,包括:获取所述用户查询文本和所述多个已知文档标题;对所述用户查询文本进行分词处理,得到至少一个第一单词,以及对所述多个已知文档标题中的各个已知文档标题分别进行分词处理,得到多组单词,其中,所述多组单词与所述多个已知文档标题一一对应,所述多组单词中的每组单词包含有至少一个第二单词;将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合。基于前述可能设计,可以通过对用户查询文本及多个已知文档标题进行分词操作,得到对应的单词集合,利于整个文本匹配方案的实现。在一个可能的设计中,将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合,包括:对所有的所述第一单词做统一的小写转换,得到转换处理后的第一单词,以及对所有的所述第二单词做统一的小写转换,得到转换处理后的第二单词;将转换处理后的至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将转换处理后的至少一个第二单词作为对应已知文档标题的所述标题单词集合。基于前述可能设计,可以通过对所有单词进行统一的小写转换,防止用户查询的随意性,减少后续匹配步骤所需的计算量。在一个可能的设计中,计算得到所述查询单词集合与该标题单词集合的第一指标值,包括:按照如下公式得到对应所述查询单词集合的查询向量VQ和对应该标题单词集合的标题向量VP:式中,Q表示所述查询单词集合,P表示该标题单词集合,wk表示在所述查询单词集合与该标题单词集合的且无重复单词的并集中的第k个单词,k表示介于1~K之间的自然数,K表示所述并集中的单词个数,表示单词wk的词频,表示单词wk的逆文档频率,表示所述查询向量VQ在第k个维度上的数值,表示所述标题向量VP在第k个维度上的数值;按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第一指标值:式中,Stf-idf表示所述第一指标值。基于前述可能设计,可以仅从相同单词维度出发,来统计所述查询单词集合中的所有相同单词对于该标题单词集合的重要程度,进而保障所述第一指标值能够精准衡量两集合的相似程度,并利于整个文本匹配方案的实现。在一个可能的设计中,计算得到所述查询单词集合与该标题单词集合的第二指标值,包括:按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第二指标值:式中,Slevenshtein表示所述第二指标值,qi表示所述查询单词集合中的第i个单词,i表示介于1~n之间的自然数,n表示所述查询单词集合中的单词个数,表示在该标题单词集合中的且与单词qi具有最短的编辑距离的单词,pj表示该标题单词集合中的第j个单词,j表示介于1~m之间的本文档来自技高网
...

【技术保护点】
1.一种文本匹配方法,其特征在于,包括:/n获取查询单词集合和多个标题单词集合,其中,所述查询单词集合与用户查询文本对应,所述多个标题单词集合与多个已知文档标题一一对应;/n针对所述多个标题单词集合中的各个标题单词集合,计算得到所述查询单词集合与该标题单词集合的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频-逆文档频率TF-IDF计算得到的且所述查询单词集合与该标题单词集合的相似程度,所述第二指标值用于表征基于编辑距离MED计算得到的且所述查询单词集合与该标题单词集合的差异程度,所述第三指标值用于表征基于杰卡德相似系数计算得到的且所述查询单词集合与该标题单词集合的相似程度;/n针对所述各个标题单词集合,计算得到对应该标题单词集合的所述第一指标值与所述第三指标值的积以及所述第二指标值与所述第三指标值的积,并从两积中取最大值,得到对应的聚合指标值;/n将与最大聚合指标值对应的已知文档标题作为所述用户查询文本的匹配目标,其中,所述最大聚合指标值为多个聚合指标值中的最大值,所述多个聚合指标值与所述多个已知文档标题一一对应。/n

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:
获取查询单词集合和多个标题单词集合,其中,所述查询单词集合与用户查询文本对应,所述多个标题单词集合与多个已知文档标题一一对应;
针对所述多个标题单词集合中的各个标题单词集合,计算得到所述查询单词集合与该标题单词集合的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频-逆文档频率TF-IDF计算得到的且所述查询单词集合与该标题单词集合的相似程度,所述第二指标值用于表征基于编辑距离MED计算得到的且所述查询单词集合与该标题单词集合的差异程度,所述第三指标值用于表征基于杰卡德相似系数计算得到的且所述查询单词集合与该标题单词集合的相似程度;
针对所述各个标题单词集合,计算得到对应该标题单词集合的所述第一指标值与所述第三指标值的积以及所述第二指标值与所述第三指标值的积,并从两积中取最大值,得到对应的聚合指标值;
将与最大聚合指标值对应的已知文档标题作为所述用户查询文本的匹配目标,其中,所述最大聚合指标值为多个聚合指标值中的最大值,所述多个聚合指标值与所述多个已知文档标题一一对应。


2.如权利要求1所述的方法,其特征在于,获取查询单词集合和多个标题单词集合,包括:
获取所述用户查询文本和所述多个已知文档标题;
对所述用户查询文本进行分词处理,得到至少一个第一单词,以及对所述多个已知文档标题中的各个已知文档标题分别进行分词处理,得到多组单词,其中,所述多组单词与所述多个已知文档标题一一对应,所述多组单词中的每组单词包含有至少一个第二单词;
将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合。


3.如权利要求2所述的方法,其特征在于,将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合,包括:
对所有的所述第一单词做统一的小写转换,得到转换处理后的第一单词,以及对所有的所述第二单词做统一的小写转换,得到转换处理后的第二单词;
将转换处理后的至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将转换处理后的至少一个第二单词作为对应已知文档标题的所述标题单词集合。


4.如权利要求1所述的方法,其特征在于,计算得到所述查询单词集合与该标题单词集合的第一指标值,包括:
按照如下公式得到对应所述查询单词集合的查询向量VQ和对应该标题单词集合的标题向量VP:



式中,Q表示所述查询单词集合,P表示该标题单词集合,wk表示在所述查询单词集合与该标题单词集合的且无重复单词的并集中的第k个单词,k表示介于1~K之间的自然数,K表示所述并集中的单词个数,表示单词wk的词频,表示单词wk的逆文档频率,表示所述查询向量VQ在第k个维度上的数值,表示所述标题向量VP在第k个维度上的数值;
按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第一指标值:



式中,Stf-idf表示所述第一指标值。


5.如权利要求1所述的方法,其特征在于,计算得到所述查询单词集合与该标题单词集合的第二指标值,包括:
按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第二指标值:

【专利技术属性】
技术研发人员:姚小妮廉锦莹
申请(专利权)人:成都新潮传媒集团有限公司成都百新智联科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1