一种文本相似度匹配及计算方法、系统和装置制造方法及图纸

技术编号:27368280 阅读:24 留言:0更新日期:2021-02-19 13:52
本申请涉及一种文本相似度匹配及计算方法、系统和装置。本申请包括采集待处理文本数据T和待处理文本数据T1,对文本数据T1进行分词,获取文本数据T1的特征词及权重数据;获取文本数据T1对应的n位特征值S;将特征值S均分为k等分,得到数组P1,并将特征向量数组P1逐一与特征向量数组P对比,根据匹配命中的特征值召回原文本内容T2;获取文本数据T1和文本数据T2的分词和权重结果;对分词结果进行向量化处理,分别获取本文数据T1的特征向量V1和本文数据T2的特征向量V2;计算特征向量V1和特征向量V2的余弦值,根据余弦值得到本文数据T1与被匹配文本数据T2的相似度值,具有的适应不同的数据量和提高计算速度效果。据量和提高计算速度效果。据量和提高计算速度效果。

【技术实现步骤摘要】
一种文本相似度匹配及计算方法、系统和装置


[0001]本申请涉及文本相似度匹配的领域,尤其是涉及一种文本相似度匹配及计算方法、系统和装置。

技术介绍

[0002]目前常用的距离和相似度计算方法包括闵可夫斯基距离、欧几里得距离、曼哈顿距离、切比雪夫距离、马氏距离、余弦相似度、皮尔逊相关系数、汉明距离、杰卡德相似系数、编辑距离、DTW 距离、KL 散度等,而现有相似度匹配技术对于自然语言文本处理存在处理速度慢,对于长文本或短文本适配性不佳等问题。
[0003]其中,余弦定理和汉明距离都能实现文本相似度的计算。余弦相似度算法是基于余弦定理在向量中的应用,生成的向量数组大小与文本特征词数量呈线性相关,导致向量维度很高,计算速度比较慢,而由于要对整篇文章实时计算特征向量,难以实现面向基于大量样本的相似度计算需求;基于汉明距离的SimHash算法则事先把每篇文章降维到一个局部哈希数字,计算相似度的时候只需要计算对应的hash值,因此速度比较快;但是SimHash算法对短文本误判率较高,存在召回率与准确度之间的矛盾,仅适用于大于500字以上的文本内容使用。

技术实现思路

[0004]为了适应不同的数据量和提高计算速度,本申请提供一种文本相似度匹配及计算方法、系统和装置。
[0005]第一方面,本申请提供的一种文本相似度匹配及计算方法,采用如下的技术方案:一种文本相似度匹配及计算方法,包括:采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数据T对应的特征向量数组P;对所述特征向量数组P分类储存,建立所述文本数据T与所述特征向量之间的对应关系;获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数据T1的特征词及权重数据;对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S;将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3
……
pk],并将所述特征向量数组P1逐一与所述特征向量数组P对比,根据匹配命中的特征值召回原文本内容T2;将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果;对分词结果进行向量化处理,分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2;计算所述特征向量V1和所述特征向量V2的余弦值,即根据所述余弦值得到所述本文数
据T1与被所述被匹配文本数据T2的相似度值。
[0006]通过采用上述技术方案,在获取到两组文本的特征值后,若两组n位特征值中存在k个相同的值,即两组特征值的海明距离为k,k即为相似度容忍度,k值越大,检索出的相似文本越多;根据第二抽屉原理,对两组文本的特征值进行k等分后得到的向量数组P和P1中,必定至少存在一组x,y,使得px=py。由此可将原本需要逐一进行的相似度值计算操作,转换为较易于实现的查询操作,即通过查找k等分后符合相等条件的所有向量数组P,并根据查询结果对原文本进行找回,即可在海量数据中按照所设置的相似度容忍度实现相似文本查找,再此基础上对返回的符合海明距离的特征值对应的找回文本进行实时的预先相似度计算;以上方法既发挥了Simhash算法将文本内容转化为特征值后便于存储和对比的优势,又利用余弦相似度对于相似文本实时计算的高准确率特性,实现了高效率的大数据量调价下相似文本实时查询及高精度相似度计算。
[0007]本专利技术在一较佳示例中可以进一步配置为:所述对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S包括:获取所述分词结果的特征向量,为每一个所述特征向量设置1到5等5个级别的权重;通过hash函数计算所述各个特征向量的hash值,所述hash值为二进制数01组成的n-bit签名;在所述hash值的基础上,给所述所有特征向量进行加权;将所述各个特征向量和所述加权结果累加,获取序列串;对所述序列串进行降维,若大于0则置1,若小于0则置0,从而获取所述本文数据T1对应的n位特征值S。
[0008]通过采用上述技术方案,对分词结果进行降维,使数据更简便,从而使计算速度更快,得到的结果更为准确。
[0009]本专利技术在一较佳示例中可以进一步配置为:所述将所述特征向量数组P1逐一与所述特征向量数组P对比包括:将所述特征向量数组P1逐一与所述特征向量P对比;若无匹配数据,则对所述本文数据T1进行加权处理,以提高关键词权重;对所述加权处理过后的文本数据T1进行降维,并再次逐一与所述特征向量数组P对比。
[0010]通过采用上述技术方案,对于Simhash不适用的短文本内容,则可在设置合理k值的基础上,对原文本分词结果进行加权处理,通过提高关键词在生成特征向量时的TF-IDF权重,实现短文本对于Simhash方法的适配。
[0011]本专利技术在一较佳示例中可以进一步配置为:当将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3
……
pk]时,所述方法还包括:将所述数组P1按照文本标识分类储存,以填充数据库中的文本内容。
[0012]通过采用上述技术方案,将每次检索的文本填充至数据库中,以使数据库的文本内容更为丰富,从而提高计算准确率。
[0013]第二方面,本申请提供的一种文本相似度匹配及计算系统,采用如下的技术方案:一种文本相似度匹配及计算系统,包括:采集装置,采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数
据T对应的特征向量数组P;储存装置,对所述特征向量数组P分类储存,建立所述文本数据T与所述特征向量之间的对应关系;第一获取装置,获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数据T1的特征词及权重数据;降维装置,对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S;匹配装置,将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3
……
pk],将所述特征向量数组P1逐一与所述特征向量数组P对比,根据匹配命中的特征值召回原文本内容T2;第二获取装置,将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果;第三获取装置,对分词结果进行向量化处理,分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2;计算装置,计算所述特征向量V1和所述特征向量V2的余弦值,即根据所述余弦值得到所述本文数据T1与被所述被匹配文本数据T2的相似度值。
[0014]通过采用上述技术方案,在获取到两组文本的特征值后,若两组n位特征值中存在k个相同的值,即两组特征值的海明距离为k,k即为相似度容忍度,k值越大,检索出的相似文本越多;根据第二抽屉原理,对两组文本的特征值进行k等分后得到的向量数组P和P1中,必定至少存在一组x,y,使得px=py。由此可将原本需要逐一进行的相似度值计算操作,转换为较易于实现的查询操作,即通过查找k等分后符合相等条件的所有向量数组P,并根据查询结果对原文本进行找回,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本相似度匹配及计算方法,其特征在于,包括:采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数据T对应的特征向量数组P;对所述特征向量数组P分类储存,建立所述文本数据T与所述特征向量之间的对应关系;获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数据T1的特征词及权重数据;对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S;将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3
……
pk],并将所述特征向量数组P1逐一与所述特征向量数组P对比,根据匹配命中的特征值召回原文本内容T2;将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果;对分词结果进行向量化处理,分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2;计算所述特征向量V1和所述特征向量V2的余弦值,根据所述余弦值得到所述本文数据T1与所述被匹配文本数据T2的相似度值。2.根据权利要求1所述的方法,其特征在于,所述对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S包括:获取所述分词结果的特征向量,为每一个所述特征向量设置1到5等5个级别的权重;通过hash函数计算所述各个特征向量的hash值,所述hash值为二进制数01组成的n-bit签名;在所述hash值的基础上,给所述所有特征向量进行加权;将所述各个特征向量和所述加权结果累加,获取序列串;对所述序列串进行降维,若大于0则置1,若小于0则置0,从而获取所述本文数据T1对应的n位特征值S。3.根据权利要求2所述的方法,其特征在于,所述将所述特征向量数组P1逐一与所述特征向量数组P对比包括:将所述特征向量数组P1逐一与所述特征向量P对比;若无匹配数据,则对所述本文数据T1进行加权处理,以提高关键词权重;对所述加权处理过后的文本数据T1进行降维,并再次逐一与所述特征向量数组P对比。4.根据权利要求1所述的方法,其特征在于,当将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3
……
pk]时,所述方法还包括:将所述数组P1按照文本标识分类储存,以填充数据库中的文本内容。5.一种文本相似度匹配及计算系统,其特征在于,包括:采集装置,采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数据T对应的特征向量数组P;储存装置,对所述特征向量数组P分类储存,建立所述文本数据T与所述特征向量之间的对应关系;第一获取装置,获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数
据T1的特征词及权重数据;降维装置,对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S;匹配装置,将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3
……
pk],将所述特征向量数组P1逐一与所述...

【专利技术属性】
技术研发人员:康维孔泽平周珞陈光林胡梓钦
申请(专利权)人:湖南红网新媒体集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1