网络文本处理方法及装置制造方法及图纸

技术编号：11022917 阅读：88 留言：0更新日期：2015-02-11 12:02

本发明专利技术公开了一种网络文本处理方法及装置。该网络文本处理方法包括：获取网络发布的第一网络文本和第二网络文本；计算第一网络文本与第二网络文本的相似度；判断相似度是否大于预设阈值；如果相似度大于预设阈值，则确定第一网络文本与第二网络文本存在转载关系；以及如果相似度不大于预设阈值，则确定第一网络文本与第二网络文本不存在转载关系。通过本发明专利技术解决了相关技术中无法确定未标识转载来源的网络文本的转载关系的问题，进而达到了提高网络文本传播路径分析的准确性的效果。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种网络文本处理方法及装置。该网络文本处理方法包括：获取网络发布的第一网络文本和第二网络文本；计算第一网络文本与第二网络文本的相似度；判断相似度是否大于预设阈值；如果相似度大于预设阈值，则确定第一网络文本与第二网络文本存在转载关系；以及如果相似度不大于预设阈值，则确定第一网络文本与第二网络文本不存在转载关系。通过本专利技术解决了相关技术中无法确定未标识转载来源的网络文本的转载关系的问题，进而达到了提高网络文本传播路径分析的准确性的效果。【专利说明】网络文本处理方法及装置
本专利技术涉及互联网领域，具体而言，涉及一种网络文本处理方法及装置。
技术介绍
随着社会化媒体营销渠道的发展，商家们逐渐开始重视用户在网络渠道上发出的言论，通过分析人们发出的这些言论来提高自己商业效益。同时也对网络上的负面言论设置警报，可及时发现对于品牌或商家有威胁的公关危机，并且分析这些负面言论的传播形式与途径，进行追根述源的剖析。基于上述原因，判断文章或言论的传播途径变得尤为重要。现在存在的对传播途径的分析仅仅停留在用网络爬虫抓取网页上的文章，通过网络爬虫抓取到的表示转发来源的标志词(如，此文章转自:新浪)来判断文章的转发源头。上述方法有很大的局限性，一旦网站上没有标记文章的转摘出处时，就无从判断文章的转发源头。但是，如果在不同网站上采集到内容完全相同的多篇文章，则可以通过查看文章内容是否完全相同来查看是否是转载关系，但这种方法也有很大的局限性，该方法仅仅能对文章内容完全相同的情况给予判断，但现在的网络媒体大多会对原文稍作修改，再...

【技术保护点】
一种网络文本处理方法，其特征在于，包括：获取网络发布的第一网络文本和第二网络文本；计算所述第一网络文本与所述第二网络文本的相似度；判断所述相似度是否大于预设阈值；如果所述相似度大于所述预设阈值，则确定所述第一网络文本与所述第二网络文本存在转载关系；以及如果所述相似度不大于所述预设阈值，则确定所述第一网络文本与所述第二网络文本不存在转载关系。

【技术特征摘要】

【专利技术属性】
技术研发人员：余德乐，陈俊宏，杨韬，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人