网络文本处理方法及装置制造方法及图纸

技术编号:11022917 阅读:79 留言:0更新日期:2015-02-11 12:02
本发明专利技术公开了一种网络文本处理方法及装置。该网络文本处理方法包括:获取网络发布的第一网络文本和第二网络文本;计算第一网络文本与第二网络文本的相似度;判断相似度是否大于预设阈值;如果相似度大于预设阈值,则确定第一网络文本与第二网络文本存在转载关系;以及如果相似度不大于预设阈值,则确定第一网络文本与第二网络文本不存在转载关系。通过本发明专利技术解决了相关技术中无法确定未标识转载来源的网络文本的转载关系的问题,进而达到了提高网络文本传播路径分析的准确性的效果。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种网络文本处理方法及装置。该网络文本处理方法包括:获取网络发布的第一网络文本和第二网络文本;计算第一网络文本与第二网络文本的相似度;判断相似度是否大于预设阈值;如果相似度大于预设阈值,则确定第一网络文本与第二网络文本存在转载关系;以及如果相似度不大于预设阈值,则确定第一网络文本与第二网络文本不存在转载关系。通过本专利技术解决了相关技术中无法确定未标识转载来源的网络文本的转载关系的问题,进而达到了提高网络文本传播路径分析的准确性的效果。【专利说明】网络文本处理方法及装置
本专利技术涉及互联网领域,具体而言,涉及一种网络文本处理方法及装置。
技术介绍
随着社会化媒体营销渠道的发展,商家们逐渐开始重视用户在网络渠道上发出的言论,通过分析人们发出的这些言论来提高自己商业效益。同时也对网络上的负面言论设置警报,可及时发现对于品牌或商家有威胁的公关危机,并且分析这些负面言论的传播形式与途径,进行追根述源的剖析。基于上述原因,判断文章或言论的传播途径变得尤为重要。现在存在的对传播途径的分析仅仅停留在用网络爬虫抓取网页上的文章,通过网络爬虫抓取到的表示转发来源的标志词(如,此文章转自:新浪)来判断文章的转发源头。 上述方法有很大的局限性,一旦网站上没有标记文章的转摘出处时,就无从判断文章的转发源头。但是,如果在不同网站上采集到内容完全相同的多篇文章,则可以通过查看文章内容是否完全相同来查看是否是转载关系,但这种方法也有很大的局限性,该方法仅仅能对文章内容完全相同的情况给予判断,但现在的网络媒体大多会对原文稍作修改,再进行发布,而该方法无法对这类情况进行文章传播路径的分析。 针对相关技术中无法确定未标识转载来源的网络文本的转载关系的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种网络文本处理方法及装置,以解决相关技术中无法确定未标识转载来源的网络文本的转载关系的问题。 为了实现上述目的,根据本专利技术的一个方面,提供了一种网络文本处理方法。 根据本专利技术的网络文本处理方法包括:获取网络发布的第一网络文本和第二网络文本;计算第一网络文本与第二网络文本的相似度;判断相似度是否大于预设阈值;如果相似度大于预设阈值,则确定第一网络文本与第二网络文本存在转载关系;以及如果相似度不大于预设阈值,则确定第一网络文本与第二网络文本不存在转载关系。 进一步地,获取网络发布的第一网络文本和第二网络文本包括:由第一目标网站抓取文本数据,得到第一网络文本;由第二目标网站抓取文本数据,得到第二网络文本,在获取第一网络文本和第二网络文本之后,方法还包括:将第一网络文本和第二网络文本存储至目标数据库,计算第一网络文本与第二网络文本的相似度包括:从目标数据库中取出第一网络文本和第二网络文本;计算取出的第一网络文本与第二网络文本的相似度。 进一步地,计算第一网络文本与第二网络文本的相似度包括:对第一网络文本进行分词,得到第一分词集合,对第二网络文本进行分词,得到第二分词集合;统计第一分词集合与第二分词集合中相同词语的个数;统计第一分词集合与第二分词集合中相同词语组合的个数,其中,相同词语组合中的组合词语的顺序相同;以及根据第一分词集合与第二分词集合中相同词语的个数和第一分词集合与第二分词集合中相同词语组合的个数计算第一网络文本与第二网络文本的相似度。 进一步地,根据第一分词集合与第二分词集合中相同词语的个数和第一分词集合与第二分词集合中相同词语组合的个数计算第一网络文本与第二网络文本的相似度包括:统计第一分词集合与第二分词集合中词语的总数;计算第一分词集合与第二分词集合中相同词语的个数与第一分词集合与第二分词集合中词语的总数的比值,得到第一比值;统计相同词语两两组合的总数;计算相同词语组合的个数与相同词语两两组合的总数的比值,得到第二比值;以及通过第一比值和第二比值计算第一网络文本与第二网络文本的相似度。 进一步地,在确定第一网络文本与第二网络文本存在转载关系后,方法包括:获取第一网络文本的发布时间和发布网站;获取第二网络文本的发布时间和发布网站;以及如果第一网络文本的发布时间晚于第二网络文本的发布时间,则确定第一网络文本的发布网站转载自第二网络文本的发布网站,如果第一网络文本的发布时间早于第二网络文本的发布时间,则确定第二网络文本的发布网站转载自第一网络文本的发布网站。 为了实现上述目的,根据本专利技术的另一方面,提供了一种网络文本处理装置。 根据本专利技术的网络文本处理装置包括:获取单元,用于获取网络发布的第一网络文本和第二网络文本;计算单元,用于计算第一网络文本与第二网络文本的相似度;判断单元,用于判断相似度是否大于预设阈值;以及确定单元,用于当相似度大于预设阈值时,则确定第一网络文本与第二网络文本存在转载关系,当相似度不大于预设阈值时,则确定第一网络文本与第二网络文本不存在转载关系。 进一步地,获取单元包括:第一抓取模块,用于由第一目标网站抓取文本数据,得到第一网络文本;第二抓取模块,用于由第二目标网站抓取文本数据,得到第二网络文本,该装置还包括:存储模块,用于在获取第一网络文本和第二网络文本之后,将第一网络文本和第二网络文本存储至目标数据库,计算单元包括:取出模块,用于从目标数据库中取出第一网络文本和第二网络文本;第一计算模块,用于计算取出的第一网络文本与第二网络文本的相似度。 进一步地,计算单元包括:分词模块,用于对第一网络文本进行分词,得到第一分词集合,对第二网络文本进行分词,得到第二分词集合;第一统计模块,用于统计第一分词集合与第二分词集合中相同词语的个数;第二统计模块,用于统计第一分词集合与第二分词集合中相同词语组合的个数,其中,相同词语组合中的组合词语的顺序相同;以及第二计算模块,用于根据第一分词集合与第二分词集合中相同词语的个数和第一分词集合与第二分词集合中相同词语组合的个数计算第一网络文本与第二网络文本的相似度。 进一步地,第二计算模块包括:第一统计子模块,用于统计第一分词集合与第二分词集合中词语的总数;第一计算子模块,用于计算第一分词集合与第二分词集合中相同词语的个数与第一分词集合与第二分词集合中词语的总数的比值,得到第一比值;第二统计子模块,用于统计第一分词集合与第二分词集合中相同词语两两组合的总数;第二计算子模块,用于计算相同词语组合的个数与相同词语两两组合的总数的比值,得到第二比值;以及第三计算子模块,用于通过第一比值和第二比值计算第一网络文本与第二网络文本的相似度。 进一步地,在确定单元确定第一网络文本与第二网络文本存在转载关系后,该装置包括:第一获取单元,用于获取第一网络文本的发布时间和发布网站;第二获取单元,用于获取第二网络文本的发布时间和发布网站;以及第一确定单元,用于当第一网络文本的发布时间晚于第二网络文本的发布时间时,确定第一网络文本的发布网站转载自第二网络文本的发布网站,当第一网络文本的发布时间早于第二网络文本的发布时间时,确定第二网络文本的发布网站转载自第一网络文本的发布网站。 通过本专利技术,采用计算第一网络文本与第二网络文本的相似度,并通过判断该相似度是否大于预设阈值来确定第一网络文本与第二网络文本文档来自技高网
...

【技术保护点】
一种网络文本处理方法,其特征在于,包括:获取网络发布的第一网络文本和第二网络文本;计算所述第一网络文本与所述第二网络文本的相似度;判断所述相似度是否大于预设阈值;如果所述相似度大于所述预设阈值,则确定所述第一网络文本与所述第二网络文本存在转载关系;以及如果所述相似度不大于所述预设阈值,则确定所述第一网络文本与所述第二网络文本不存在转载关系。

【技术特征摘要】

【专利技术属性】
技术研发人员:余德乐陈俊宏杨韬
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1