一种基于信息指纹的相似信息识别方法技术

技术编号:9406226 阅读:113 留言:0更新日期:2013-12-05 06:07
本发明专利技术公开了一种基于信息指纹的相似信息识别方法,该方法首先对文档的文本进行中文分词,然后统计词频,取出词频靠前的词,作为特征值;再根据提取出来的特征值计算出文档的信息指纹,最后比对两篇文档的信息指纹,若比对结果大于阀值,则判断为相似文章。该方法可避免现有技术中需要根据两篇文档中的所有信息对应进行计算比较,大大减低计算复杂度。由于文档的信息指纹具有唯一性,在多篇文档判断相似性时,只需相互间比对信息指纹即可,可有效提高工作效率。

【技术实现步骤摘要】

【技术保护点】
一种基于信息指纹的相似信息识别方法,其特征在于:所述的方法包括以下步骤:对文档的文本进行中文分词;统计词频,取出词频靠前的词,作为特征值;根据提取出来的特征值计算出文档的信息指纹;比对两篇文档的信息指纹,若比对结果大于阀值,则判断为相似文章。

【技术特征摘要】

【专利技术属性】
技术研发人员:戴森
申请(专利权)人:广州一呼百应网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1