一种信息全文检索的数据去重清理方法及系统技术方案

技术编号:21913911 阅读:36 留言:0更新日期:2019-08-21 12:24
本发明专利技术涉及一种信息全文检索的数据去重清理方法及系统,包括:对采集的初始的检索数据中的每个数据单元进行去格式处理,以获取无格式的纯文本内容的检索数据;对每个数据单元进行摘要计算,以获取每个数据单元的摘要码,并根据每个数据单元的摘要码对无格式的纯文本内容的检索数据进行去重处理,以获取经过去重处理的检索数据;按照预设的合法性筛查策略对所述经过去重处理的检索数据中的每个数据单元进行合法性筛查,以获取合法的检索数据加入到索引库。本发明专利技术在去重时采用双重摘要次第比对的排重方式,达到了效率与准确性的同时提升;通过计算数据单元的敏感度值,以量化的方式标记文档数据的威胁程度,保证了检索系统的安全和政治方向的正确。

A Data Re-Cleaning Method and System for Full-Text Information Retrieval

【技术实现步骤摘要】
一种信息全文检索的数据去重清理方法及系统
本专利技术涉及数据处理
,并且更具体地,涉及一种信息全文检索的数据去重清理方法及系统。
技术介绍
针对业界现主流的全文检索系统的数据采集方式,一般都用爬虫采集与数据库直接采集两种方式。数据库直接采集一般用于现有可控的应用,数据规范集中,重复数据与非法数据较少。爬虫采集范围较广,不可控数据较多,获取到的数据格式较为规整但内容相对庞杂,存在大量的重复数据和不符合相关法律法规的数据,这就需要对采集的数据进行清理与筛选。一个全文搜索由搜索器、索引器、检索器和用户接口四个部分组成。作为全文检索的重要组成部分,搜集器的功能是在网域中搜集同步信息,并对数据进行去重和清理,以提供准确安全的数据搜索源。现阶段已有检索系统大部分搜集器的爬虫采集部分,根据一定的采集规则,采集过来的数据,不处理直接入检索库。数据重复率高、非法数据较多。对数据质量有要求的检索系统,现行的去重过程一般采取两种方式:(1)以资源的实际访问地址为条件,进行实体数据去重。即url唯一性;(2)全文内容匹配率比对,匹配率高的做剔除处理。内容合法性清理一般采取以下方式:以固定的敏感词库为基础,入检索库时,将匹配到的敏感词的文档做剔除处理。但是上述方案均存在缺点:对于去重过程来说,第一种的方式在一定程度上过滤了物理重复、盗链和循环获取风险。但对于诸如通稿、拷贝之类的逻辑重复却未做处理,库中还会相当的逻辑重复数据;第二种的方式避免了逻辑重复,但由于是全文匹配,效率较慢、批量更新索引的事务执行时间会大大延长。对于合法性处理的方式来说,相当程度上保证数据合法性,然而处理方式过于粗暴。容易误删、多删。因此,需要一种高效、准确地数据去重清理方法,以最大程度的保证数据的准确合法。
技术实现思路
本专利技术提出一种信息全文检索的数据去重清理方法及系统,以解决如何高效、准确地对采集的数据进行去重清理的问题。为了解决上述问题,根据本专利技术的一个方面,提供了一种信息全文检索的数据去重清理方法,其特征在于,所述方法包括:对采集的初始的检索数据中的每个数据单元进行去格式处理,以获取无格式的纯文本内容的检索数据;对所述无格式的纯文本内容的检索数据中的每个数据单元进行摘要计算,以获取每个数据单元的摘要码,并根据所述每个数据单元的摘要码对所述无格式的纯文本内容的检索数据进行去重处理,以获取经过去重处理的检索数据;按照预设的合法性筛查策略对所述经过去重处理的检索数据中的每个数据单元进行合法性筛查,以获取合法的检索数据加入到索引库。优选地,其中利用爬虫程序进行数据采集,以获取初始的检索数据。优选地,其中所述对采集的初始的检索数据中的每个数据单元进行去格式处理,以获取无格式的纯文本内容的检索数据,包括:对采集的初始的检索数据中的每个数据单元按照预设的信息类别进行分隔,以获取无格式的纯文本内容的检索数据;其中,所述预设的信息类别包括:格式描述符、空格、特殊符号和正文。优选地,其中所述对所述无格式的纯文本内容的检索数据中的每个数据单元进行摘要计算,以获取每个数据单元的摘要码,并根据所述每个数据单元的摘要码对所述无格式的纯文本内容的检索数据进行去重处理,以获取经过去重处理的检索数据,包括:对所述无格式的纯文本内容的检索数据中的每个数据单元进行CRC摘要计算和MD5摘要计算,以获取每个数据单元的CRC摘要码和MD5摘要码;依次判断每个数据单元的CRC摘要码是否在备选库中;其中,若该数据单元的CRC摘要码不在备选库中,则将该数据单元存入数据库;若某个数据单元的CRC摘要码在备选库中,则判断该数据单元的MD5摘要码是否在备选库中;若该数据单元的MD5摘要码不在备选库中,则将该数据单元存入备选库;反之,直接舍弃该数据单元;将备选库中的数据单元作为经过去重处理的检索数据。优选地,其中所述预设的合法性筛查策略,包括:计算每个数据单元的敏感度值,并分别判断每个数据单元的词敏感度是否大于预设敏感度阈值,若是,则舍弃该数据单元,即该数据单元不加入索引库;反之,则确定该数据单元为合法的检索数据。优选地,其中所述计算每个数据单元的敏感度,包括:根据每个数据单元中的不同敏感度级别的敏感词的敏感度级别的权重和对应的匹配度级别的权重,确定每个数据单元的敏感度值;其中,所述敏感度级别包括:高敏感度级、中敏感度级和低敏感度级;所述匹配度级别包括:高匹配度级、中匹配度级和低匹配度级。优选地,其中所述方法还包括:将获取的合法的检索数据的数据单元中的敏感词替换为预设符号加入到索引库,以降低将敏感词作为查询条件时的搜索命中率。根据本专利技术的另一个方面,提供了一种信息全文检索的数据去重清理系统,其特征在于,所述系统包括:数据预处理模块,用于对采集的初始的检索数据中的每个数据单元进行去格式处理,以获取无格式的纯文本内容的检索数据;数据去重处理模块,用于对所述无格式的纯文本内容的检索数据中的每个数据单元进行摘要计算,以获取每个数据单元的摘要码,并根据所述每个数据单元的摘要码对所述无格式的纯文本内容的检索数据进行去重处理,以获取经过去重处理的检索数据;数据合法性筛查模块,用于按照预设的合法性筛查策略对所述经过去重处理的检索数据中的每个数据单元进行合法性筛查,以获取合法的检索数据加入到索引库。优选地,其中所述系统还包括:数据采集模块,用于利用爬虫程序进行数据采集,以获取初始的检索数据。优选地,其中所述数据预处理模块,对采集的初始的检索数据中的每个数据单元进行去格式处理,以获取无格式的纯文本内容的检索数据,包括:对采集的初始的检索数据中的每个数据单元按照预设的信息类别进行分隔,以获取无格式的纯文本内容的检索数据;其中,所述预设的信息类别包括:格式描述符、空格、特殊符号和正文。优选地,其中所述数据去重处理模块,包括:摘要码计算子模块,用于对所述无格式的纯文本内容的检索数据中的每个数据单元进行CRC摘要计算和MD5摘要计算,以获取每个数据单元的CRC摘要码和MD5摘要码;判断子模块,用于依次判断每个数据单元的CRC摘要码是否在备选库中;其中,若该数据单元的CRC摘要码不在备选库中,则将该数据单元存入数据库;若某个数据单元的CRC摘要码在备选库中,则判断该数据单元的MD5摘要码是否在备选库中;若该数据单元的MD5摘要码不在备选库中,则将该数据单元存入备选库;反之,直接舍弃该数据单元;去重处理数据确定子模块,用于将备选库中的数据单元作为经过去重处理的检索数据。优选地,其中所述数据合法性筛查模块中的预设的合法性筛查策略,包括:计算每个数据单元的敏感度值,并分别判断每个数据单元的词敏感度是否大于预设敏感度阈值,若是,则舍弃该数据单元,即该数据单元不加入索引库;反之,则确定该数据单元为合法的检索数据。优选地,其中利用如下方式计算每个数据单元的敏感度:根据每个数据单元中的不同敏感度级别的敏感词的敏感度级别的权重和对应的匹配度级别的权重,确定每个数据单元的敏感度值;其中,所述敏感度级别包括:高敏感度级、中敏感度级和低敏感度级;所述匹配度级别包括:高匹配度级、中匹配度级和低匹配度级。优选地,其中所述系统还包括:敏感词替换模块,用于将获取的合法的检索数据的数据单元中的敏感词替换为预设符号加入到索引库,以降低将敏感词作为查询条本文档来自技高网
...

【技术保护点】
1.一种信息全文检索的数据去重清理方法,其特征在于,所述方法包括:对采集的初始的检索数据中的每个数据单元进行去格式处理,以获取无格式的纯文本内容的检索数据;对所述无格式的纯文本内容的检索数据中的每个数据单元进行摘要计算,以获取每个数据单元的摘要码,并根据所述每个数据单元的摘要码对所述无格式的纯文本内容的检索数据进行去重处理,以获取经过去重处理的检索数据;按照预设的合法性筛查策略对所述经过去重处理的检索数据中的每个数据单元进行合法性筛查,以获取合法的检索数据加入到索引库。

【技术特征摘要】
1.一种信息全文检索的数据去重清理方法,其特征在于,所述方法包括:对采集的初始的检索数据中的每个数据单元进行去格式处理,以获取无格式的纯文本内容的检索数据;对所述无格式的纯文本内容的检索数据中的每个数据单元进行摘要计算,以获取每个数据单元的摘要码,并根据所述每个数据单元的摘要码对所述无格式的纯文本内容的检索数据进行去重处理,以获取经过去重处理的检索数据;按照预设的合法性筛查策略对所述经过去重处理的检索数据中的每个数据单元进行合法性筛查,以获取合法的检索数据加入到索引库。2.根据权利要求1所述的方法,其特征在于,所述对采集的初始的检索数据中的每个数据单元进行去格式处理,以获取无格式的纯文本内容的检索数据,包括:对采集的初始的检索数据中的每个数据单元按照预设的信息类别进行分隔,以获取无格式的纯文本内容的检索数据;其中,所述预设的信息类别包括:格式描述符、空格、特殊符号和正文。3.根据权利要求1所述的方法,其特征在于,所述对所述无格式的纯文本内容的检索数据中的每个数据单元进行摘要计算,以获取每个数据单元的摘要码,并根据所述每个数据单元的摘要码对所述无格式的纯文本内容的检索数据进行去重处理,以获取经过去重处理的检索数据,包括:对所述无格式的纯文本内容的检索数据中的每个数据单元进行CRC摘要计算和MD5摘要计算,以获取每个数据单元的CRC摘要码和MD5摘要码;依次判断每个数据单元的CRC摘要码是否在备选库中;其中,若该数据单元的CRC摘要码不在备选库中,则将该数据单元存入数据库;若某个数据单元的CRC摘要码在备选库中,则判断该数据单元的MD5摘要码是否在备选库中;若该数据单元的MD5摘要码不在备选库中,则将该数据单元存入备选库;反之,直接舍弃该数据单元;将备选库中的数据单元作为经过去重处理的检索数据。4.根据权利要求1所述的方法,其特征在于,所述预设的合法性筛查策略,包括:计算每个数据单元的敏感度值,并分别判断每个数据单元的词敏感度是否大于预设敏感度阈值,若是,则舍弃该数据单元,即该数据单元不加入索引库;反之,则确定该数据单元为合法的检索数据。5.根据权利要求4所述的方法,其特征在于,所述计算每个数据单元的敏感度,包括:根据每个数据单元中的不同敏感度级别的敏感词的敏感度级别的权重和对应的匹配度级别的权重,确定每个数据单元的敏感度值;其中,所述敏感度级别包括:高敏感度级、中敏感度级和低敏感度级;所述匹配度级别包括:高匹配度级、中匹配度级和低匹配度...

【专利技术属性】
技术研发人员:何宬呈赵鑫
申请(专利权)人:华迪计算机集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1