【技术实现步骤摘要】
一种文本匹配方法、装置及计算机设备
本专利技术属于信息检索
,具体地涉及一种文本匹配方法、装置及计算机设备。
技术介绍
短文本匹配是自然语言处理(NaturalLanguageProcessing,NLP)中一个非常基础的问题,它在信息检索、智能问答和机器翻译等领域有着广泛的应用。如网页搜索可以抽象为寻找与用户查询文本相匹配网页的相似性问题,智能回复可抽象为根据问题匹配答案的文本相似性问题等等。由于企业内部文档一般比较规范,文档标题和文档内容关联性非常强,所以仅用文档标题做匹配就可以得到比较高的准确率,而不用全文档检索,否则必然非常耗时,因此用户查询文本和已知文档标题的相似性比对可以抽象一个短文本匹配问题,使得可将短文本匹配技术应用在企业内部文档检索场景中。目前,传统的短文本匹配方法有基于词移距离(WordMover’sDistance,WMD)的方法和基于概率检索模型的BM25方法,其中,WMD方法使用Word2Vec编码词向量,可以实现语义匹配,但它的最大缺陷在于时间复杂度较高,不适合用于海量规范文档检索场景,例如对于大公司而言,企业内部文档可能是海量的,因此若使用WMD方法对企业内部文档进行检索,将非常耗时;而BM25方法是将用户查询文本切分为单词,然后基于单词和文档标题之间的相似性、单词和查询文本之间的相似性和每个单词的权重这三个指标对查询文本和文档标题之间的相似性进行量化,但是该方法在计算单词权重时没有考虑单词之间的相关性,因此存在文档检索准确率较低的问题。
技术实现思路
...
【技术保护点】
1.一种文本匹配方法,其特征在于,包括:/n获取查询单词集合和多个标题单词集合,其中,所述查询单词集合与用户查询文本对应,所述多个标题单词集合与多个已知文档标题一一对应;/n针对所述多个标题单词集合中的各个标题单词集合,计算得到所述查询单词集合与该标题单词集合的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频-逆文档频率TF-IDF计算得到的且所述查询单词集合与该标题单词集合的相似程度,所述第二指标值用于表征基于编辑距离MED计算得到的且所述查询单词集合与该标题单词集合的差异程度,所述第三指标值用于表征基于杰卡德相似系数计算得到的且所述查询单词集合与该标题单词集合的相似程度;/n针对所述各个标题单词集合,计算得到对应该标题单词集合的所述第一指标值与所述第三指标值的积以及所述第二指标值与所述第三指标值的积,并从两积中取最大值,得到对应的聚合指标值;/n将与最大聚合指标值对应的已知文档标题作为所述用户查询文本的匹配目标,其中,所述最大聚合指标值为多个聚合指标值中的最大值,所述多个聚合指标值与所述多个已知文档标题一一对应。/n
【技术特征摘要】 【专利技术属性】
1.一种文本匹配方法,其特征在于,包括:
获取查询单词集合和多个标题单词集合,其中,所述查询单词集合与用户查询文本对应,所述多个标题单词集合与多个已知文档标题一一对应;
针对所述多个标题单词集合中的各个标题单词集合,计算得到所述查询单词集合与该标题单词集合的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频-逆文档频率TF-IDF计算得到的且所述查询单词集合与该标题单词集合的相似程度,所述第二指标值用于表征基于编辑距离MED计算得到的且所述查询单词集合与该标题单词集合的差异程度,所述第三指标值用于表征基于杰卡德相似系数计算得到的且所述查询单词集合与该标题单词集合的相似程度;
针对所述各个标题单词集合,计算得到对应该标题单词集合的所述第一指标值与所述第三指标值的积以及所述第二指标值与所述第三指标值的积,并从两积中取最大值,得到对应的聚合指标值;
将与最大聚合指标值对应的已知文档标题作为所述用户查询文本的匹配目标,其中,所述最大聚合指标值为多个聚合指标值中的最大值,所述多个聚合指标值与所述多个已知文档标题一一对应。
2.如权利要求1所述的方法,其特征在于,获取查询单词集合和多个标题单词集合,包括:
获取所述用户查询文本和所述多个已知文档标题;
对所述用户查询文本进行分词处理,得到至少一个第一单词,以及对所述多个已知文档标题中的各个已知文档标题分别进行分词处理,得到多组单词,其中,所述多组单词与所述多个已知文档标题一一对应,所述多组单词中的每组单词包含有至少一个第二单词;
将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合。
3.如权利要求2所述的方法,其特征在于,将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合,包括:
对所有的所述第一单词做统一的小写转换,得到转换处理后的第一单词,以及对所有的所述第二单词做统一的小写转换,得到转换处理后的第二单词;
将转换处理后的至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将转换处理后的至少一个第二单词作为对应已知文档标题的所述标题单词集合。
4.如权利要求1所述的方法,其特征在于,计算得到所述查询单词集合与该标题单词集合的第一指标值,包括:
按照如下公式得到对应所述查询单词集合的查询向量VQ和对应该标题单词集合的标题向量VP:
式中,Q表示所述查询单词集合,P表示该标题单词集合,wk表示在所述查询单词集合与该标题单词集合的且无重复单词的并集中的第k个单词,k表示介于1~K之间的自然数,K表示所述并集中的单词个数,表示单词wk的词频,表示单词wk的逆文档频率,表示所述查询向量VQ在第k个维度上的数值,表示所述标题向量VP在第k个维度上的数值;
按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第一指标值:
式中,Stf-idf表示所述第一指标值。
5.如权利要求1所述的方法,其特征在于,计算得到所述查询单词集合与该标题单词集合的第二指标值,包括:
按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第二指标值:
技术研发人员:姚小妮,廉锦莹,
申请(专利权)人:成都新潮传媒集团有限公司,成都百新智联科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。