基于领域知识库的短文本匹配方法与系统技术方案

技术编号:37383210 阅读:30 留言:0更新日期:2023-04-27 07:24
本发明专利技术提供了一种基于领域知识库的短文本匹配方法及系统,包括:步骤S1:构建金融产品领域知识库;步骤S2:从知识库中提取预设关键文本信息,并对提取的预设关键文本信息进行交叉拆分,构建最小粒度的文本语料库;步骤S3:对文本语料库进行自定义分词处理,构建领域词典;步骤S4:对交易数据中的文本数据进行预处理;步骤S5:基于构建的领域词典对预处理后的文本数据提取关键词;步骤S6:基于关键词使用多子集策略匹配知识库中的产品记录得到候选匹配结果列表;步骤S7:对匹配出的结果列表进行过滤和排序,筛选最为相似的产品记录作为最终匹配结果。终匹配结果。终匹配结果。

【技术实现步骤摘要】
基于领域知识库的短文本匹配方法与系统


[0001]本专利技术涉及金融文本匹配
,具体地,涉及基于领域知识库的短文本匹配方法与系统。

技术介绍

[0002]从交易数据中提取产品关键词,同知识库中的产品记录进行匹配,难点在于产品关键词多为领域生僻词,一般自然语言处理方法比如Jieba分词不能很好的辨别这类词语,此外业界也缺少不同领域的标注数据,无法使用命名实体识别的方式提取关键词。
[0003]专利文献CN113887199A(申请号:202111151373.5)公开了一种基于知识库的金融文本核查系统,它涉及金融文本核查
包括PDF解析模块、文档章节树构建模块、实体识别模块、事件提取模块、信息核查模块、缓存模块;其流程如下:将PDF文档解析后构建章节树信息,利用章节树对目标信息实体进行定位及识别,再通过实体间的逻辑关系进行事件抽取,并通过核查模块对事件提取结果进行核查,帮助业务人员快速定位文档错误;最终通过覆盖提取系统主要数据节点的缓存模块加速文档的重新解析。该专利通过NLP的句法分析、专家领域词表、正则系统构建的方式提取关键实体信息,其虽然能够提取到领域实体,但需要大量人工输入及人工经验,通用性差,亦未有效利用到知识库中的语料特征。

技术实现思路

[0004]针对现有技术中的缺陷,本专利技术的目的是提供一种基于领域知识库的短文本匹配方法与系统。
[0005]根据本专利技术提供的一种基于领域知识库的短文本匹配方法,包括:
[0006]步骤S1:构建金融产品领域知识库
[0007]步骤S2:从知识库中提取预设关键文本信息,并对提取的预设关键文本信息进行交叉拆分,构建最小粒度的文本语料库;
[0008]步骤S3:对文本语料库进行自定义分词处理,构建领域词典;
[0009]步骤S4:对交易数据中的文本数据进行预处理;
[0010]步骤S5:基于构建的领域词典对预处理后的文本数据提取关键词;
[0011]步骤S6:基于关键词使用多子集策略匹配知识库中的产品记录得到候选匹配结果列表;
[0012]步骤S7:对匹配出的结果列表进行过滤和排序,筛选最为相似的产品记录作为最终匹配结果;
[0013]所述金融产品领域知识库是包含多个金融产品的产品记录,每个产品记录包括:产品全称、产品简称、机构全称以及机构简称。
[0014]优选地,所述步骤S2采用:
[0015]步骤S2.1:对知识库中的每条记录提取包含待查询词汇的文本数据,每条记录对应生成一个文本列表;
[0016]步骤S2.2:遍历知识库每条记录的文本列表,对文本列表中的文本进行文本清洗;
[0017]步骤S2.3:遍历知识库每条记录的文本列表,构建一个空的临时列表,使用正则表达式依次匹配文本列表中的文本,若能匹配上,则将所有匹配的结果保存到临时列表中,且使用匹配的结果对当前文本列表中的文本进行分割,将分割后的数据同样保存到临时列表中;若没有匹配上,则直接将当前文本保存到临时列表中,更新当前记录的文本列表为新构造的临时列表;
[0018]步骤S2.4:基于当前临时列表中的文本依次和列表中的其他文本进行对比,并标记两个文本间字符重复位置,若连续重复字符数大于预设值,则以重复位置的开始点和结束点为分割点,对当前文本进行分割,每个文本最终被分割成1条或多条更细粒度的短文本;
[0019]步骤S2.5:汇总所有分割后的文本并去重,生成语料库。
[0020]优选地,所述步骤S3采用:
[0021]步骤S3.1:读取语料库数据,限定词语长度为大于等于2个字符且小于等于3个字符,遍历每个语料所有可能的词语组合方式,作为该语料的候选词集,每个语料对应一个候选词集;
[0022]步骤S3.2:遍历每个语料的候选词集,如果候选词集中只有一个词语组合,则直接将当前词语组合中的所有词语加入词典中;
[0023]步骤S3.3:遍历每个语料中的所有词语组合,如果候选词集中有多个词语组合,计算词语组合中每个词语在语料库中的点互信息、左邻接熵和右邻接熵;
[0024]步骤S3.4:汇总每个语料中各词语组合内词的点互信息、左邻接熵和右邻接熵,得到每个语料中每个可能词组的组内平均点互信息、组内平均左邻接熵、组内平均右邻接熵;
[0025]步骤S3.5:遍历每个语料中的所有词语组合,筛选组内平均左邻接熵大于0且组内平均右邻接熵大于0的词语组合,若能筛选出一组,则这一组为最优可能的词语组合,若筛选出多组,则取筛选后的组合中邻邻接熵和右邻接熵和最大的一组作为最有可能的词语组合,若一组都没有筛选出来,则取当前词语组合中点互信息最大的一组作为最有可能的词语组合;
[0026]步骤S3.6:遍历每个语料中的所有词语组合,对选择的最有可能的词语组合进行局部修正,生成该语料的最终词语组合;
[0027]步骤S3.7:遍历每个语料的最终词语组合,将词语组合中的所有词语加入词典中,输出词典。
[0028]优选地,所述步骤S5采用:
[0029]步骤S5.1:基于正则表达式提取特定格式的词语,预处理后的文本数据中将提取到的词语替换为空字符;
[0030]步骤S5.2:根据地名词典,使用双向最大匹配算法,提取地名词语,预处理后的文本数据中将提取到的词语替换为空字符;
[0031]步骤S5.3:根据构建的领域词典,使用双向最大匹配算法,提取领域词语;
[0032]步骤S5.4:合并提取到的特定格式的词语、地名词语和领域词语作为该查询文本的关键词。
[0033]优选地,所述步骤S6采用:
[0034]步骤S6.1:遍历知识库数据中的所有记录,判断全部关键词是否均在当前记录中,筛选满足匹配条件的所有记录,生成候选匹配结果列表;
[0035]步骤S6.2:若候选匹配结果列表为空,则重新遍历知识库,根据应用场景定义最小匹配子集,判断最小匹配子集是否均在当前记录中,筛选满足匹配条件的所有记录,生成候选匹配结果列表;
[0036]步骤S6.3:输出最终生成的候选匹配结果列表,存在列表为空为一条知识库记录都没匹配到的情况。
[0037]优选地,所述步骤S7采用:
[0038]步骤S7.1:若候选匹配结果列表为空,则返回匹配结果为空;若候选匹配结果数量大于限定阈值,同样返回匹配结果为空;若候选匹配结果只有一个则直接返回该记录为最优匹配结果;
[0039]步骤S7.2:计算查询文本同候选匹配结果列表中的文本的差异度,过滤差异度大于一定阈值的候选匹配结果,若过滤后候选匹配结果列表为空,则返回匹配结果为空;若过滤后候选匹配结果只有一个,则直接返回该记录为最优匹配结果;
[0040]步骤S7.3:计算查询文本同候选匹配结果列表中的文本的编辑距离作为相似度,取相似度最高的匹配结果为最优匹配结果。
[0041]根据本专利技术提供的一种基于领域知识库的短文本匹配系统,包括:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于领域知识库的短文本匹配方法,其特征在于,包括:步骤S1:构建金融产品领域知识库;步骤S2:从知识库中提取预设关键文本信息,并对提取的预设关键文本信息进行交叉拆分,构建最小粒度的文本语料库;步骤S3:对文本语料库进行自定义分词处理,构建领域词典;步骤S4:对交易数据中的文本数据进行预处理;步骤S5:基于构建的领域词典对预处理后的文本数据提取关键词;步骤S6:基于关键词使用多子集策略匹配知识库中的产品记录得到候选匹配结果列表;步骤S7:对匹配出的结果列表进行过滤和排序,筛选最为相似的产品记录作为最终匹配结果;所述金融产品领域知识库是包含多个金融产品的产品记录,每个产品记录包括:产品全称、产品简称、机构全称以及机构简称。2.根据权利要求1所述的基于领域知识库的短文本匹配方法,其特征在于,所述步骤S2采用:步骤S2.1:对知识库中的每条记录提取包含待查询词汇的文本数据,每条记录对应生成一个文本列表;步骤S2.2:遍历知识库每条记录的文本列表,对文本列表中的文本进行文本清洗;步骤S2.3:遍历知识库每条记录的文本列表,构建一个空的临时列表,使用正则表达式依次匹配文本列表中的文本,若能匹配上,则将所有匹配的结果保存到临时列表中,且使用匹配的结果对当前文本列表中的文本进行分割,将分割后的数据同样保存到临时列表中;若没有匹配上,则直接将当前文本保存到临时列表中,更新当前记录的文本列表为新构造的临时列表;步骤S2.4:基于当前临时列表中的文本依次和列表中的其他文本进行对比,并标记两个文本间字符重复位置,若连续重复字符数大于预设值,则以重复位置的开始点和结束点为分割点,对当前文本进行分割,每个文本最终被分割成1条或多条更细粒度的短文本;步骤S2.5:汇总所有分割后的文本并去重,生成语料库。3.根据权利要求1所述的基于领域知识库的短文本匹配方法,其特征在于,所述步骤S3采用:步骤S3.1:读取语料库数据,限定词语长度为大于等于2个字符且小于等于3个字符,遍历每个语料所有可能的词语组合方式,作为该语料的候选词集,每个语料对应一个候选词集;步骤S3.2:遍历每个语料的候选词集,如果候选词集中只有一个词语组合,则直接将当前词语组合中的所有词语加入词典中;步骤S3.3:遍历每个语料中的所有词语组合,如果候选词集中有多个词语组合,计算词语组合中每个词语在语料库中的点互信息、左邻接熵和右邻接熵;步骤S3.4:汇总每个语料中各词语组合内词的点互信息、左邻接熵和右邻接熵,得到每个语料中每个可能词组的组内平均点互信息、组内平均左邻接熵、组内平均右邻接熵;步骤S3.5:遍历每个语料中的所有词语组合,筛选组内平均左邻接熵大于0且组内平均
右邻接熵大于0的词语组合,若能筛选出一组,则这一组为最优可能的词语组合,若筛选出多组,则取筛选后的组合中邻邻接熵和右邻接熵和最大的一组作为最有可能的词语组合,若一组都没有筛选出来,则取当前词语组合中点互信息最大的一组作为最有可能的词语组合;步骤S3.6:遍历每个语料中的所有词语组合,对选择的最有可能的词语组合进行局部修正,生成该语料的最终词语组合;步骤S3.7:遍历每个语料的最终词语组合,将词语组合中的所有词语加入词典中,输出词典。4.根据权利要求1所述的基于领域知识库的短文本匹配方法,其特征在于,所述步骤S5采用:步骤S5.1:基于正则表达式提取特定格式的词语,预处理后的文本数据中将提取到的词语替换为空字符;步骤S5.2:根据地名词典,使用双向最大匹配算法,提取地名词语,预处理后的文本数据中将提取到的词语替换为空字符;步骤S5.3:根据构建的领域词典,使用双向最大匹配算法,提取领域词语;步骤S5.4:合并提取到的特定格式的词语、地名词语和领域词语作为该查询文本的关键词。5.根据权利要求1所述的基于领域知识库的短文本匹配方法,其特征在于,所述步骤S6采用:步骤S6.1:遍历知识库数据中的所有记录,判断全部关键词是否均在当前记录中,筛选满足匹配条件的所有记录,生成候选匹配结果列表;步骤S6.2:若候选匹配结果列表为空,则重新遍历知识库,根据应用场景定义最小匹配子集,判断最小匹配子集是否均在当前记录中,筛选满足匹配条件的所有记录,生成候选匹配结果列表;步骤S6.3:输出最终生成的候选匹配结果列表,存在列表为空为一条知识库记录都没匹配到的情况。6.根据权利要求1所述的基于领域知识库的短文本匹配方法,其特征在于,所述步骤S7采用:步骤S7.1:若候选匹配结果列表为空,则返回匹配结果为空;若候选匹配结果数量大于限定阈值,同样返回匹配结果为空;若候选匹配结果只有一个则直接返回该记录为最优匹配结果;步骤S7.2:计算查询文本同候选匹配结果列表中的文本的差异度,过滤差异度大于一定阈值的候选匹配结果,若过滤后候选匹配结果列表为空,则返回匹配结果为空;若过滤后候选匹配结果只有一个,则直接返回该记录为最优匹配结果;步骤S7.3:计算查询文本同候选匹配结果列表中的文本的编辑...

【专利技术属性】
技术研发人员:郭闯蔡晓华杨光辉
申请(专利权)人:上海天旦网络科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1