一种整合重复记录的方法及系统技术方案

技术编号:13739898 阅读:69 留言:0更新日期:2016-09-22 16:23
本发明专利技术提供了一种整合重复记录的方法及系统,所述方法包括以下步骤:S1:抓取目标网络的网页内容,并将从所述网页内容中提取的标题和正文存储于数据库中,同时将当前提取的标题和正文作为当前的目标标题和目标正文;S2:基于所述数据库中的数据对所述目标标题进行重复度查询,根据该查询结果选择执行步骤S3;S3:基于所述数据库对所述目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。本发明专利技术能够快速实现对抓取信息进行查重,并可以消除重复记录。

【技术实现步骤摘要】

本专利技术涉及实现资讯采集系统中重复新闻、相似新闻的合并处理,特别涉及一种整合重复记录的方法及系统
技术介绍
对于资讯新闻由于其存在多数据来源、对相同事件的新闻报道。并且,对于非同一时间对多个来源的新闻进行抓取,存在新闻标题重复、新闻正文内容相似的情况。相似重复新闻指数据集中多条新闻内容描述相同,但因内容语法、语义、拼写导致系统不能正确识别的相似新闻。检查相似重复新闻是检测并最大限度的减少这些语法语义拼写不同但内容相似的新闻。一般不同来源对同一新闻的描述存在相似新闻的占比重较大。因此,检测和消除相似重复新闻是数据加工的重点和难点之一,也是保证数据质量的关键因素,影响日常的资讯采集工作受到加工流程的高度重视。而目前通常采用人工的方式对新闻数据进行查重处理,而由人工对新闻进行去重、相似新闻合并会比较麻烦,并且还具有工作效率不高的特点。
技术实现思路
本专利技术所要解决的技术问题是提供一种能够快速对抓取信息进行查重,并可以消除重复记录的整合重复记录的方法和系统。为了解决上述技术问题,本专利技术提供了如下的技术方案:一种整合重复记录的方法,其包括以下步骤:S1:抓取目标网络的网页内容,并将从所述网页内容中提取的标题和正文存储于数据库中,同时将当前提取的标题和正文作为当前的目标标题和目标正文;S2:基于所述数据库中的数据对所述目标标题进行重复度查询,根据该查询结果选择执行步骤S3;S3:基于所述数据库对所述目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。作为优选,在所述步骤S2还进一步包括:S21:对所述目标标题进行去除干扰字符处理;S22:对去除了干扰字符的目标标题进行重复度查询处理。作为优选,所述步骤S2中,当所述数据库中存在与目标标题重复度大于第一预定值的第一标题时,将所述目标标题与第一标题合并处理,并删除对所述目标正文的存储;否则,执行步骤S3。作为优选,所述步骤S2中,基于所述数据库中第一时间范围内的标题对所述目标标题进行重复度查询。作为优选,所述第一标题为多个。作为优选,在所述步骤S3中,当所述数据库中存在与所述目标正文的重复度大于第二预定值的第二正文时,删除所述第二正文的存储,并将所述目标标题与所述第二正文对应的标题合并处理;否则,正常存储所述目标标题和目标正文。作为优选,所述步骤S3中,基于所述数据库中第二时间范围内的正文内容对所述目标正文进行重复度查询。作为优选,所述步骤S3中目标正文的重复度查询的步骤包括:S31:去除所述目标正文中的干扰字符;S32:将去除干扰字符的正文进行划分,以划分出多个分句;S33:进一步划分所述分句,直至将所述分句划分为分词单元;S34:比较所述分词单元与数据库中的正文信息的分词单元,并基于该比较结果选择整合所述网页内容在所述数据库中的存储。本专利技术还提供了一种整合重复记录的系统,其应用如上所述的整合重复记录的方法,且所述系统包括:抓取模块,其用于抓取目标网络的网页内容,并将从所述网页内容中提取的标题和正文存储于数据库中,并将当前的标题和正文作为当前的目标标题和目标正文;第一查询模块,其基于所述数据库中的数据对所述目标标题进行重复度查询,第二查询模块,其基于所述数据库对所述目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。作为优选,所述第一查询模块进一步配置为当所述数据库中存在与所目标标题重复度大于第一预定值的第一标题时,将所述目标标题与第一标题合并处理,并删除对所述目标正文的存储。本专利技术具备的有益效果在于,1、本专利技术在于有效去除标题重复新闻、新闻内容相似情况进行分析处理,由此提高系统的采集效率;2、本专利技术通过两方面对网页内容进行相似度进行处理,第一:对标题进行去除标签、特殊字符、全角字符再进行相似度判断。第二:对标题相似度不相同的新闻再进行正文分词判断,由此可大幅度降低相同标题、相似内容的人工处理及处理数量。3、本专利技术最终将信息处理的部分由数据中心采集系统实现,从而在降底人工干预,高性能判断来提高对新闻资讯的采集过程。附图说明图1为本专利技术实施例中的一种整合重复记录的方法的流程图;图2为本专利技术实施例中的一种整合重复记录的系统的原理框图。附图标记说明具体实施方式下面结合附图,对本专利技术的具体实施例进行详细的描述,但不作为本专利技术的限定。本专利技术实施例提供了一种用于消除从网页中抓取的内容的重复信息的方法,即一种整合重复记录的方法,通过本实施例的所述方法可以大大减少人工的工作量,同时由于不需要通过人工的方式进行筛选检查等操作,则大大提高了工作效率。如图1所示,为本专利技术实施例中的一种整合重复记录的方法,其包括以下步骤:S1:抓取目标网络的网页内容,并将从网页内容中提取的标题和正文存储于数据库中,同时将当前抓取的标题和正文作为当前的目标标题和目标正文;此处的抓取目标网络的网页内容可以通过现有技术手段进行实施,并作为本专利技术的重点,即通过现有技术的各种方式都可以实现该步骤S1。S2:基于数据库中之前存储的数据信息对目标标题进行重复度查询,根据该查询结果选择执行步骤S3;S3:基于数据库对目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。根据上述配置,本专利技术实施例可以有效的去除标题重复的网页新闻、以及对新闻内容相似情况进行分析处理,由此提高系统的采集效率,本实施例中虽然以网页新闻为例,但是也可以是其他的任意的网页内容,如技术刊物、微博论坛等内容。另外,本实施例中,在步骤S2还可以进一步包括:S21:对所述目标标题进行去除干扰字符处理;该干扰字符可以包括标签、特殊字符、全角字符等。S22:对去除了干扰字符的目标标题进行重复度查询处理。具体的,当数据库中存在与目标标题重复度大于第一预定值的第一标题时,将目标标题与第一标题合并处理,并删除对所述目标正文的存储;否则,执行步骤S3。本实施例中即使新正文内容完全不同也优先按标题重复度去重。另外,虽然本实施了中采用删除目标正文的方式进行去重,但是也可以通过合并目标正文与和第一标题对应的正文的方式进行去重。同时,在本专利技术另一优选实施例中,在步骤S2中,可以基于数据库中第一时间范围内的标题对所述目标标题进行重复度查询。本实施例中的第一时间范围和第一预定值可以预设的任意值,但是优选的第一预定值应当为一较大的值,而第一时间范围可以是以天、月、小时和年为单位的任意时间范围,可以根据不同的资讯内容进行自定义,如本实施例中的第一预定值可以是80%-90%中的任意值,第一时间范围可以是7天至30天中的一个值。并且,本实施例中的第一标题可以是多个,当判断出在大于第一预定值的重复度的第一标题时,可以将该目标标题与各第一标题进行相关联的存储。另外,本实施例中,在所述步骤S3中,当所述数据库中存在于所述目标正文的重复度大于第二预定值的第二正文时,删除所述第二正文的存储,并将所述目标标题与所述第二正文对应的标题合并处理;否则,正常存储所述目标标题和目标正文。同样的,在另一优选实施例中,所述步骤S3中,可以基于所述数据库中第二时间范围内的正文内容对所述目标正文进行重复度查询。本实施例中的第二时间范围和第二预定值可以预设的任意值,但是优选的第二预定值应当为一较大的值,而第二时间范围可本文档来自技高网...

【技术保护点】
一种整合重复记录的方法,其特征在于,包括以下步骤:S1:抓取目标网络的网页内容,并将从所述网页内容中提取的标题和正文存储于数据库中,同时将当前提取的标题和正文作为当前的目标标题和目标正文;S2:基于所述数据库中的数据对所述目标标题进行重复度查询,根据该查询结果选择执行步骤S3;S3:基于所述数据库对所述目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。

【技术特征摘要】
1.一种整合重复记录的方法,其特征在于,包括以下步骤:S1:抓取目标网络的网页内容,并将从所述网页内容中提取的标题和正文存储于数据库中,同时将当前提取的标题和正文作为当前的目标标题和目标正文;S2:基于所述数据库中的数据对所述目标标题进行重复度查询,根据该查询结果选择执行步骤S3;S3:基于所述数据库对所述目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。2.根据权利要求1所述的方法,其特征在于,在所述步骤S2还进一步包括:S21:对所述目标标题进行去除干扰字符处理;S22:对去除了干扰字符的目标标题进行重复度查询处理。3.根据权利要求1所述的方法,其特征在于,所述步骤S2中,当所述数据库中存在与目标标题重复度大于第一预定值的第一标题时,将所述目标标题与第一标题合并处理,并删除对所述目标正文的存储;否则,执行步骤S3。4.根据权利要求3所述的方法,其特征在于,所述步骤S2中,基于所述数据库中第一时间范围内的标题对所述目标标题进行重复度查询。5.根据权利要求2所述的方法,其特征在于,所述第一标题为多个。6.根据权利要求1所述的方法,其特征在于,在所述步骤S3中,当所述数据库中存在与所述目标正文的重复度大于第二预定值的第二正文时,删除所述目标正文,并将所述目标标题与所述第二正文对应的标题合并处理;否...

【专利技术属性】
技术研发人员:鄢坤易君黄俊
申请(专利权)人:优品财富管理有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1