文档相似度计算方法及相似文档全网检索跟踪方法技术

技术编号：13970796 阅读：107 留言：0更新日期：2016-11-10 08:39

本发明专利技术涉及一种文档相似度计算方法及相似文档全网检索跟踪方法。本发明专利技术的目的是提供一种文档相似度计算方法及相似文档全网检索跟踪方法。本发明专利技术的技术方案是：一种文档相似度计算方法，其特征在于：S01、文档分解：对原创文档和目标文档分别进行切词处理，得到各自的分词集合；S02、预处理与特征加权：利用TF‑IDF技术对每个分词计算权重，提取核心关键词；利用Word2vec挖掘文档中不同分词之间的关联程度，对每篇文档进行语义分析；S03、向量空间模型与余弦相似度算法：利用向量空间中两个向量夹角的余弦值作为衡量两篇文档的相似程度，余弦值在0～1之间，余弦值越大说明两篇文档越相似。本发明专利技术适用于新闻资讯转载跟踪与传播力统计。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种文档相似度计算方法及相似文档全网检索跟踪方法。适用于新闻资讯转载跟踪与传播力统计。
技术介绍
传统媒体作为新闻资讯的主要生产者，贡献了80％以上的原创新闻，但是限于其传播平台的限制，原创文档被大量的门户及一些新媒体转载，新媒体在转载这些文档过程中，实现了流量和影响力的倍增效果，同时也实现了较好的经济效益，而作为原创文档的作者，却没有从中得到利益。然而通过法律途径解决版权问题的过程中，要去发现被转载的文档等同于大海捞针，需要消耗大量的人力，而且对取证也有难度。同时，媒体也希望通过所有转载他的媒体，分析其传播力，目前媒体并没有很好的办法去统计其所有传播路径，只能靠人工去统计，这个统计量是十分巨大的。目前，中国是世界上使用社交媒体比例最高的国家，平均每人每天有5.8小时的时间上网。在以前，大众得知信息来源于电视、报纸、杂志和广播，而今天大众更多的是通过微博、微信、QQ、论坛等社交软件获得信息。截止今年第一季度末，新浪微博月活跃用户达到2.6亿，微信每月活跃用户已达到5.49亿。微博、微信成为碎片时间的最佳运用工具。今天来看，在移动互联网时代，有内容、形式、社交，而且是强关系社交，大众媒体的影响力慢慢在下降，而新媒体的影响力在不断地加深，这是移动互联网的时代。当每一个个体都具有传播能力时，传统的媒体结构就开始瓦解，消费者得知讯息的管道也不再大幅度地依赖大众媒体，“自媒体”年代诞生。所以这是一个普通人可以创造奇迹的时代，也是消费者获得主权的时代，所以也是大家尤其是媒体人机会最多的时代。在自媒体快速发展的今天，针对自媒体个人的版权保护，更加显得重要...

【技术保护点】
一种文档相似度计算方法，其特征在于：S01、文档分解：对原创文档和目标文档分别进行切词处理，得到各自的分词集合；S02、预处理与特征加权：利用TF‑IDF技术对每个分词计算权重，提取核心关键词；利用Word2vec挖掘文档中不同分词之间的关联程度，对每篇文档进行语义分析；S03、向量空间模型与余弦相似度算法：把原创文档和目标文档简化为两个以关键词权重为分量的N维向量；文档余弦相似度算法是基于向量模型，利用向量空间中两个向量夹角的余弦值作为衡量两篇文章的相似程度，余弦值在0～1之间，余弦值越大说明两篇文档越相似。

【技术特征摘要】
1.一种文档相似度计算方法，其特征在于：S01、文档分解：对原创文档和目标文档分别进行切词处理，得到各自的分词集合；S02、预处理与特征加权：利用TF-IDF技术对每个分词计算权重，提取核心关键词；利用Word2vec挖掘文档中不同分词之间的关联程度，对每篇文档进行语义分析；S03、向量空间模型与余弦相似度算法：把原创文档和目标文档简化为两个以关键词权重为分量的N维向量；文档余弦相似度算法是基于向量模型，利用向量空间中两个向量夹角的余弦值作为衡量两篇文章的相似程度，余弦值在0～1之间，余弦值越大说明两篇文档越相似。2.根据权利要求1所述的文档相似度计算方法，其特征在于：步骤S01包括数据准备，通过ETL数据清洗系统清洗文档的干扰信息，并对文档进行结构化处理，分解成最小单位结构；基础建设，以ElasticSearch搜索引擎为基础构件建设全文索引，并采用中文分词库中的细颗粒度分词创建索引。3.根据...

【专利技术属性】
技术研发人员：姚洲鹏，
申请(专利权)人：杭州凡闻科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人