一种基于改进Simhash算法的大数据文本去重技术制造技术

技术编号：30700567 阅读：58 留言：0更新日期：2021-11-06 09:36

本发明专利技术公开了一种基于改进Simhash算法的大数据文本去重技术，涉及自然语言处理领域，包括以下步骤：(1)采用分词工具进行分词；(2)对分好的关键词赋予相应的权重；(3)通过关键词权重计算文档内容签名与文章摘要签名；(4)计算找出相似文档。本发明专利技术采用经典的Simhash算法为基础，提出了一种用于大数据文本去重的改进Simhash算法。首先选择了更好的分词工具，分词更加准确，也在权重计算阶段考虑词性和词长，在签名值匹配阶段采用桶排序的思想，进行二次哈希。最后，根据文章内容和摘要内容的特征向量，提出了一个全新计算Simhash签名值汉明距离比较的计算公式。非常适合进行大数据文本去重的工作，提高了准确率与召回率，也提升了去重速度。了去重速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进Simhash算法的大数据文本去重技术

[0001]本专利技术公开了一种基于改进Simhash算法的大数据文本去重技术，涉及自然语言处理领域。

技术介绍

[0002]21世纪以来，人类活动产生了大量数据，网络与大数据的发展也让越来越多的科研人员对大数据进行研究，而在研究大数据时，首先就应该对大量的数据进行预处理，数据去重技术就是数据预处理的第一步。通过该技术可以去除大量重复数据，从而可以大大加快数据查询速度，降低存储空间，节约存储开支。重复数据去重技术可以查找出数据中的重复部分并去除，传输并存储去重结果数据，并使用指针来将存储的数据对象指向重复数据，来达到删除重复数据甚至相同的数据文档只有一份以节约存储空间的目的。通常情况下，文档数据的签名值可以使用哈希函数计算得出，但是使用普通的哈希函数会存在碰撞问题，就是即使是不同的文档也会出现相同的哈希签名值。针对目前数据去重算法存在的问题，本专利技术引进了基于单词词性和单词长度计算特征权值的TF
‑
IDF技术，提高最后生成的Simhash签名值的精度。之后改进了签名值的检索过程，是签名值的分布均匀，提高检索效率，然后提出了一个全新的签名值计算公式，计算出文章最后的签名值，比较文档的相似程度。为大数据文本去重提供技术支持。

技术实现思路

[0003]为了解决当前大数据时代产生的大量数据冗余和重复等问题，本专利技术公开了一种基于改进Simhash算法的大数据文本去重技术。
[0004]为此，本专利技术提供了如下技术方案：1.一...

【技术保护点】

【技术特征摘要】
1.一种基于改进Simhash算法的大数据文本去重技术，主要包括以下步骤：(1)采用分词工具进行分词；(2)对分好的关键词赋予相应的权重；(3)通过关键词权重计算文档内容签名与文章摘要签名；(4)计算找出相似文档。2.根据权利要求1所述的一种基于改进Simhash算法的大数据文本去重技术，其特征在于：所述步骤(1)中，选用了中国科学院计算机研究所经过十几年研发的NLPIR
‑
ICTCLAS分词系统，该系统在ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)分词系统的基础上，内核升级10余次，用户超过30万。功能强大，主要包括中英文分词；词性标注；命名实体识别；新词识别；关键词提取，分词速度和精度也都有很大的提升。3.根据权利要求1所述的一种基于改进Simhash算法的大数据文本去重技术，其特征在于：所述步骤(2)中...

【专利技术属性】
技术研发人员：梁超，张宇，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人