一种文本相似度匹配及计算方法、系统和装置制造方法及图纸

技术编号：27368280 阅读：41 留言：0更新日期：2021-02-19 13:52

本申请涉及一种文本相似度匹配及计算方法、系统和装置。本申请包括采集待处理文本数据T和待处理文本数据T1，对文本数据T1进行分词，获取文本数据T1的特征词及权重数据；获取文本数据T1对应的n位特征值S；将特征值S均分为k等分，得到数组P1，并将特征向量数组P1逐一与特征向量数组P对比，根据匹配命中的特征值召回原文本内容T2；获取文本数据T1和文本数据T2的分词和权重结果；对分词结果进行向量化处理，分别获取本文数据T1的特征向量V1和本文数据T2的特征向量V2；计算特征向量V1和特征向量V2的余弦值，根据余弦值得到本文数据T1与被匹配文本数据T2的相似度值，具有的适应不同的数据量和提高计算速度效果。据量和提高计算速度效果。据量和提高计算速度效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本相似度匹配及计算方法、系统和装置

[0001]本申请涉及文本相似度匹配的领域，尤其是涉及一种文本相似度匹配及计算方法、系统和装置。

技术介绍

[0002]目前常用的距离和相似度计算方法包括闵可夫斯基距离、欧几里得距离、曼哈顿距离、切比雪夫距离、马氏距离、余弦相似度、皮尔逊相关系数、汉明距离、杰卡德相似系数、编辑距离、DTW 距离、KL 散度等，而现有相似度匹配技术对于自然语言文本处理存在处理速度慢，对于长文本或短文本适配性不佳等问题。
[0003]其中，余弦定理和汉明距离都能实现文本相似度的计算。余弦相似度算法是基于余弦定理在向量中的应用，生成的向量数组大小与文本特征词数量呈线性相关，导致向量维度很高，计算速度比较慢，而由于要对整篇文章实时计算特征向量，难以实现面向基于大量样本的相似度计算需求；基于汉明距离的SimHash算法则事先把每篇文章降维到一个局部哈希数字，计算相似度的时候只需要计算对应的hash值，因此速度比较快；但是SimHash算法对短文本误判率较高，存在召回率与准确度之间的矛盾，仅适用于大于500字以上的文本内容使用。

技术实现思路

[0004]为了适应不同的数据量和提高计算速度，本申请提供一种文本相似度匹配及计算方法、系统和装置。
[0005]第一方面，本申请提供的一种文本相似度匹配及计算方法，采用如下的技术方案：一种文本相似度匹配及计算方法，包括：采集待处理文本数据T，对所述文本数据T进行向量化处理，得到所述文本数据T对应的特征向量数组P；对所述特征向量数组...

【技术保护点】

【技术特征摘要】
1.一种文本相似度匹配及计算方法，其特征在于，包括：采集待处理文本数据T，对所述文本数据T进行向量化处理，得到所述文本数据T对应的特征向量数组P；对所述特征向量数组P分类储存，建立所述文本数据T与所述特征向量之间的对应关系；获取待处理文本数据T1，对所述文本数据T1进行分词，获取所述文本数据T1的特征词及权重数据；对分词结果进行降维处理，获取所述文本数据T1对应的n位特征值S；将所述特征值S均分为k等分，得到数组P1=[p1，p2，p3
……
pk]，并将所述特征向量数组P1逐一与所述特征向量数组P对比，根据匹配命中的特征值召回原文本内容T2；将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理，分别获取所述文本数据T1和所述文本数据T2的分词和权重结果；对分词结果进行向量化处理，分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2；计算所述特征向量V1和所述特征向量V2的余弦值，根据所述余弦值得到所述本文数据T1与所述被匹配文本数据T2的相似度值。2.根据权利要求1所述的方法，其特征在于，所述对分词结果进行降维处理，获取所述文本数据T1对应的n位特征值S包括：获取所述分词结果的特征向量，为每一个所述特征向量设置1到5等5个级别的权重；通过hash函数计算所述各个特征向量的hash值，所述hash值为二进制数01组成的n-bit签名；在所述hash值的基础上，给所述所有特征向量进行加权；将所述各个特征向量和所述加权结果累加，获取序列串；对所述序列串进行降维，若大于0则置1，若小于0则置0，从而获取所述本文数据T1对应的n位特征值S。3.根据权利要求2所述的方法，其特征在于，所述将所述特征向量数组P1逐一与所述特征向量数组P对比包括：将所述特征向量数组P1逐一与所述特征向量P对比；若无匹配数据，则对所述本文数据T1进行加权处理，以提高关键词权重；对所述加权处理过后的文本数据T1进行降维，并再次逐一与所述特征向量数组P对比。4.根据权利要求1所述的方法，其特征在于，当将所述特征值S均分为k等分，得到数组P1=[p1，p2，p3
……
pk]时，所述方法还包括：将所述数组P1按照文本标识分类储存，以填充数据库中的文本内容。5.一种文本相似度匹配及计算系统，其特征在于，包括：采集装置，采集待处理文本数据T，对所述文本数据T进行向量化处理，得到所述文本数据T对应的特征向量数组P；储存装置，对所述特征向量数组P分类储存，建立所述文本数据T与所述特征向量之间的对应关系；第一获取装置，获取待处理文本数据T1，对所述文本数据T1进行分词，获取所述文本数
据T1的特征词及权重数据；降维装置，对分词结果进行降维处理，获取所述文本数据T1对应的n位特征值S；匹配装置，将所述特征值S均分为k等分，得到数组P1=[p1，p2，p3
……
pk],将所述特征向量数组P1逐一与所述...

【专利技术属性】
技术研发人员：康维，孔泽平，周珞，陈光林，胡梓钦，
申请(专利权)人：湖南红网新媒体集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人