System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及一种文本匹配方法、系统、设备、介质及程序产品。
技术介绍
1、文本匹配是指判断两段文本的语义匹配程度,是自然语言处理的一项基础任务,对自然语言处理领域的诸多上层应用具有重要影响,广泛应用在检索式对话、新闻推荐、论文查重等领域。
2、现有的文本匹配方法通常会先制定某种规则或模式,在既定的规则上,比对文字的字符编码或者形状特征,且需要采用大量循环递归等操作,获取相似片段。但本申请专利技术人在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:
3、既定的规则针对性较强,无法适用全部待匹配片段,且仅根据文字的字符编码或形状特征进行比对,无法匹配出语义相近的片段,大量循环、递归等操作占用的计算资源和时间成本随待匹配文本的增加呈指数级增长,匹配的效率和准确度均无法满足匹配要求。
技术实现思路
1、鉴于上述问题,本专利技术实施例通过提供一种文本匹配方法、系统、设备、介质及程序产品,解决了现有技术中文本匹配效率及准确度均无法满足匹配要求的技术问题,保证了文本匹配的效率和准确度。
2、本申请实施例提供了一种文本匹配方法、系统、设备、介质及程序产品。
3、第一方面,本专利技术提供了一种文本匹配方法、系统、设备、介质及程序产品,包括如下步骤:
4、确定进行文本匹配的第一文本和第二文本;
5、根据预设的分词规则,分别对所述第一文本和所述第二文本进行分词处理,得到所述第一文
6、根据所述第一分词元素和所述第二分词元素,分别构建第一分词列表e=(e1,e2,...,em)和第二分词列表f=(f1,f2,...,fn),其中,m和n均为整数,m指所述第一分词元素的个数,n指所述第二分词元素的个数;
7、基于所述第一分词列表和所述第二分词列表,构建文本集特征矩阵;
8、基于预设参数,分别计算各第一分词元素与第二分词元素之间的相似值,并将计算结果填充至所述文本集特征矩阵中相应单元格内,生成全局相似性矩阵;
9、根据所述全局相似性矩阵,确定文本匹配结果。
10、优选地,基于所述第一分词列表和所述第二分词列表,构建文本集特征矩阵,具体包括:
11、根据所述第一分词列表和所述第二分词列表,生成m+2行、n+2列二维矩阵;
12、将所述第一分词元素从第一列的第三行依次向下填充至最后一行;
13、将所述第二分词元素从第一行的第三列依次向右填充至最后一列;
14、将所述二维矩阵中其余元素设置为0,生成所述文本集特征矩阵。
15、优选地,基于预设参数,分别计算各第一分词元素与第二分词元素之间的相似值,并将计算结果填充至所述文本集特征矩阵中相应单元格内,生成全局相似性矩阵,具体包括:
16、基于预设的相似度词典和相似性得分,确定第i个第一分词元素与第j个第二分词元素之间的第一相似性得分,其中,i和j均为整数,1≤i≤m,1≤j≤n;
17、根据所述第一相似性得分和第i-1个第一分词元素与第j-1个第二分词元素之间的相似值,计算第i个第一分词元素与第j个第二分词元素之间的第二相似性得分;
18、基于预设的空位罚分和第i-1个第一分词元素与第j个第二分词元素之间的相似值,计算第i个第一分词元素与第j个第二分词元素之间的第三相似性得分;
19、基于预设的空位罚分和第i个第一分词元素与第j-1个第二分词元素之间的相似值,计算第i个第一分词元素与第j个第二分词元素之间的第四相似性得分;
20、将所述第一相似性得分、所述第二相似性得分、所述第三相似性得分和所述第四相似性得分中的最大值确定为相似值,填充至所述文本集特征矩阵中相应单元格内;
21、沿从左至右、从上至下的路径,计算各第一分词元素与第二分词元素之间的相似值,并将计算结果填充至所述文本集特征矩阵中相应单元格内。
22、优选地,根据所述全局相似性矩阵,确定文本匹配结果,具体包括:
23、将所述全局相似性矩阵中的矩阵元素最大值作为遍历起点;
24、按照预设的遍历路径和遍历规则,在所述全局相似性矩阵中自遍历起点开始遍历,生成第一遍历结果;
25、确定所述第一遍历结果中包含的第一字词元素和第二字词元素,确定第一文本匹配结果。
26、优选地,在确定所述遍历结果中包含的第一字词元素和第二字词元素,确定第一文本匹配结果之后,还包括:
27、将所述第一遍历结果在所述全局相似性矩阵内对应的区域作为已匹配区域;
28、根据所述已匹配区域,确定所述全局相似性矩阵中的待匹配区域;
29、将所述待匹配区域中矩阵元素的最大值作为遍历起点;
30、按照预设的遍历路径和遍历规则,在所述待匹配区域中自遍历起点开始遍历,生成第二遍历结果;
31、根据所述第二遍历结果中包含的第一字词元素和第二字词元素,确定第二文本匹配结果。
32、第二方面,本专利技术还提供了一种文本匹配系统,包括:
33、第一确定模块,用于确定进行文本匹配的第一文本和第二文本;
34、分词模块,用于根据预设的分词规则,分别对所述第一文本和所述第二文本进行分词处理,得到所述第一文本中的至少一个第一分词元素,以及所述第二文本中的至少一个第二分词元素;
35、第一构建模块,用于根据所述第一分词元素和所述第二分词元素,分别构建第一分词列表e=(e1,e2,...,em)和第二分词列表f=(f1,f2,...,fn),其中,m和n均为整数,m指所述第一分词元素的个数,n指所述第二分词元素的个数;
36、第二构建模块,用于基于所述第一分词列表和所述第二分词列表,构建文本集特征矩阵;
37、计算模块,用于基于预设参数,分别计算各第一分词元素与第二分词元素之间的相似值,并将计算结果填充至所述文本集特征矩阵中相应单元格内,生成全局相似性矩阵;
38、第二确定模块,用于根据所述全局相似性矩阵,确定文本匹配结果。
39、第三方面,本专利技术还提供了一种电子设备,其特征在于,包括:
40、处理器,以及与所述处理器通信连接的存储器;
41、所述存储器存储计算机执行指令;
42、所述处理器执行所述存储器存储的计算机执行指令,以实现所述文本匹配方法。
43、第四方面,本专利技术还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被处理器执行时用于实现所述文本匹配方法。
44、第五方面,本专利技术还提供了一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述文本匹配方法。
45、本申请实施例中提供的一个或多个技本文档来自技高网...
【技术保护点】
1.一种文本匹配方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的文本匹配方法,其特征在于,基于所述第一分词列表和所述第二分词列表,构建文本集特征矩阵,具体包括:
3.根据权利要求2所述的文本匹配方法,其特征在于,基于预设参数,分别计算各第一分词元素与第二分词元素之间的相似值,并将计算结果填充至所述文本集特征矩阵中相应单元格内,生成全局相似性矩阵,具体包括:
4.根据权利要求3所述的文本匹配方法,其特征在于,根据所述全局相似性矩阵,确定文本匹配结果,具体包括:
5.根据权利要求1所述的文本匹配方法,其特征在于,在确定所述遍历结果中包含的第一字词元素和第二字词元素,确定第一文本匹配结果之后,还包括:
6.一种文本匹配系统,其特征在于,包括:
7.一种电子设备,其特征在于,包括:
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被处理器执行时用于实现如权利要求1-5任一项所述的文本匹配方法。
9.一种计算机程序产品,包括计算机程序,其特征在于,所
...【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的文本匹配方法,其特征在于,基于所述第一分词列表和所述第二分词列表,构建文本集特征矩阵,具体包括:
3.根据权利要求2所述的文本匹配方法,其特征在于,基于预设参数,分别计算各第一分词元素与第二分词元素之间的相似值,并将计算结果填充至所述文本集特征矩阵中相应单元格内,生成全局相似性矩阵,具体包括:
4.根据权利要求3所述的文本匹配方法,其特征在于,根据所述全局相似性矩阵,确定文本匹配结果,具体包括:
5.根据权利...
【专利技术属性】
技术研发人员:李志伟,黄武,
申请(专利权)人:成都泰盟软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。