一种基于改进Simhash算法的大数据文本去重技术制造技术

技术编号:30700567 阅读:58 留言:0更新日期:2021-11-06 09:36
本发明专利技术公开了一种基于改进Simhash算法的大数据文本去重技术,涉及自然语言处理领域,包括以下步骤:(1)采用分词工具进行分词;(2)对分好的关键词赋予相应的权重;(3)通过关键词权重计算文档内容签名与文章摘要签名;(4)计算找出相似文档。本发明专利技术采用经典的Simhash算法为基础,提出了一种用于大数据文本去重的改进Simhash算法。首先选择了更好的分词工具,分词更加准确,也在权重计算阶段考虑词性和词长,在签名值匹配阶段采用桶排序的思想,进行二次哈希。最后,根据文章内容和摘要内容的特征向量,提出了一个全新计算Simhash签名值汉明距离比较的计算公式。非常适合进行大数据文本去重的工作,提高了准确率与召回率,也提升了去重速度。了去重速度。

【技术实现步骤摘要】
一种基于改进Simhash算法的大数据文本去重技术


[0001]本专利技术公开了一种基于改进Simhash算法的大数据文本去重技术,涉及自然语言处理领域。

技术介绍

[0002]21世纪以来,人类活动产生了大量数据,网络与大数据的发展也让越来越多的科研人员对大数据进行研究,而在研究大数据时,首先就应该对大量的数据进行预处理,数据去重技术就是数据预处理的第一步。通过该技术可以去除大量重复数据,从而可以大大加快数据查询速度,降低存储空间,节约存储开支。重复数据去重技术可以查找出数据中的重复部分并去除,传输并存储去重结果数据,并使用指针来将存储的数据对象指向重复数据,来达到删除重复数据甚至相同的数据文档只有一份以节约存储空间的目的。通常情况下,文档数据的签名值可以使用哈希函数计算得出,但是使用普通的哈希函数会存在碰撞问题,就是即使是不同的文档也会出现相同的哈希签名值。针对目前数据去重算法存在的问题,本专利技术引进了基于单词词性和单词长度计算特征权值的TF

IDF技术,提高最后生成的Simhash签名值的精度。之后改进了签名值的检索过程,是签名值的分布均匀,提高检索效率,然后提出了一个全新的签名值计算公式,计算出文章最后的签名值,比较文档的相似程度。为大数据文本去重提供技术支持。

技术实现思路

[0003]为了解决当前大数据时代产生的大量数据冗余和重复等问题,本专利技术公开了一种基于改进Simhash算法的大数据文本去重技术。
[0004]为此,本专利技术提供了如下技术方案:1.一种基于改进Simhash算法的大数据文本去重技术,主要包括以下步骤:(1)采用分词工具进行分词;(2)对分好的关键词赋予相应的权重;(3)通过关键词权重计算文档内容签名与文章摘要签名;(4)计算找出相似文档。
[0005]2.根据权利要求1所述的一种基于改进Simhash算法的大数据文本去重技术,其特征在于:所述步骤(1)中,选用了中国科学院计算机研究所经过十几年研发的NLPIR

ICTCLAS分词系统,该系统在ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)分词系统的基础上,内核升级10余次,用户超过30万。功能强大,主要包括中英文分词;词性标注;命名实体识别;新词识别;关键词提取,分词速度和精度也都有很大的提升。
[0006]3.根据权利要求1所述的一种基于改进Simhash算法的大数据文本去重技术,其特征在于:所述步骤(2)中,对TF

IDF算法做出了改进,不完全将逆文件频率作为关键词权重的评判标准,同时引入了对关键词词性与关键词长度的评判标准,让分词后的更重要的关
键词拥有更高的权重。
[0007]4.根据权利要求1所述的一种基于改进Simhash算法的大数据文本去重技术,其特征在于:所述步骤(3)中,根据生成的关键词词频和文本段首句生成文章摘要,然后分别计算文章摘要和文章内容的签名值,签名值计算采用传统Simhash算法的签名值计算方法,分好的关键词权重特征值进行哈希,哈希结果加权在降维,最后得出文章摘要和文章内容的签名值。
[0008]5.根据权利要求1所述的一种基于改进Simhash算法的大数据文本去重技术,其特征在于:所述步骤(4)中,提出了一种全新的文档签名值计算方法,对文档内容的签名值和文章摘要的签名值进行海明距离的比较,在签名值进行比较的过程中,本专利技术也进行了优化,采用二次哈希让数据分布的更均匀,最后得到两篇文档的最终的汉明距离。
[0009]改进内容1.本专利技术是一种基于改进Simhash算法的大数据文本去重技术,为现在的大数据时代所产生的大量重复数据提供一个更加高效更加准确的去重方法。
[0010]2.本专利技术改变了传统的Simhash算法的分词技术与词频计算权重的方式,采用中国科学院计算机研究所研发的NLPIR

ICTCLAS分词系统,在中文分词领域更加快速和准确,在计算关键词权重的过程中引入了关键词词频和关键词词性作为参数,使签名值计算更加精确。
[0011]3.本专利技术提出了对Simhash签名值匹配新的改进方法,那就是判断各个桶中签名值的分布是否均匀,对不均匀的桶的哈希过后的签名值数据在进行第二次的哈希操作,第二次进行哈希的结果存在在一个桶中的数据进行海明距离的比较,这样虽然增加了算法啊占用空间,但是能减少哈希值的对比次数,提高算法效率。
[0012]4.本专利技术根据文章摘要的概念,提出了一种全新的文档签名值计算方法,文章摘要是通过关键词词频和文本段首句生成的。然后使用改进后的TF

IDF算法分别计算出文档内容和文章摘要的主题词权重。分别输入改进的Simhash签名值计算方法计算出属于文档内容和文章摘要的签名值,然后对文档内容的签名值和文章摘要的签名值进行海明距离的比较,最后得到两篇文档的最终的汉明距离,使去重结果更加准确。
附图说明
[0013]图1为本专利技术实施方式中的一种基于改进Simhash算法的大数据文本去重技术流程图。
[0014]图2为本专利技术指纹权重变化对算法效果的影响结果图。
[0015]图3为本专利技术实施方式中的准确率对比结果图。
[0016]图4为本专利技术实施方式中的召回率对比结果图。
[0017]图5为本专利技术实施方式中的执行时间对比结果图。
具体实施方式:
为了使本专利技术的实施例中的技术方案能够清楚和完整地描述,以下结合实施例中的附图,对本专利技术进行进一步的详细说明。
[0019]本专利技术实施例基于改进Simhash算法的大数据文本去重技术的流程,如图1所示,
包括以下步骤。
[0020]步骤1获取重复文本数据集的过程如下:在搜狗新闻数据:https://www.sogou.com/labs/resource/ca.php,数据5000条中文新闻文本数据,分十大类别:'汽车','财经','科技','健康','体育','教育','文化','军事','娱乐','时尚',各500条相似数据,并混入2000条不相关数据。
[0021]步骤2文本集合进行分词及特征权值的计算过程如下:步骤2

1选用了中国科学院计算机研究所经过十几年研发的NLPIR

ICTCLAS分词系统,功能强大,主要包括中英文分词;词性标注;命名实体识别;新词识别;关键词提取。是当前使用人数最多也最知名的汉语分词工具。该分词系统还具有高效的词语提取功能,能自动过滤不常用词,大大提高了海量数据预处理速度与精度;步骤2

2对于词频权重计算的TF

IDF算法,计算关键词权重时只依据关键词出现的次数,虽然经过分词工具处理的关键词条已经去除了大部分的无用词,但是在计算逆向文件频率时,会认为出现次数多的关键词不重要,出现次数少的关键词重要,但在实际中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进Simhash算法的大数据文本去重技术,主要包括以下步骤:(1)采用分词工具进行分词;(2)对分好的关键词赋予相应的权重;(3)通过关键词权重计算文档内容签名与文章摘要签名;(4)计算找出相似文档。2.根据权利要求1所述的一种基于改进Simhash算法的大数据文本去重技术,其特征在于:所述步骤(1)中,选用了中国科学院计算机研究所经过十几年研发的NLPIR

ICTCLAS分词系统,该系统在ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)分词系统的基础上,内核升级10余次,用户超过30万。功能强大,主要包括中英文分词;词性标注;命名实体识别;新词识别;关键词提取,分词速度和精度也都有很大的提升。3.根据权利要求1所述的一种基于改进Simhash算法的大数据文本去重技术,其特征在于:所述步骤(2)中...

【专利技术属性】
技术研发人员:梁超张宇
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1