多标杆确定文章相关性的方法和装置制造方法及图纸

技术编号:14626787 阅读:90 留言:0更新日期:2017-02-12 15:53
本发明专利技术提供一种基于多标杆确定文章相关性的方法和装置,方法包括:将第一文章与预设的多个标杆文章进行比较,得到第一文章与多个标杆文章的第一距离集合;将第二文章与多个标杆文章进行比较,得到第二文章与多个标杆文章的第二距离集合;基于第一距离集合与第二距离集合确定第一文章与第二文章之间的相关度。根据本发明专利技术,多个标杆文章的存在,使得得到的第一距离集合、第二距离集合更能反映第一文章、第二文章的特点,进而根据第一距离集合、第二距离集合计算的相关度更加准确。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体而言,涉及一种多标杆确定文章相关性的方法和装置
技术介绍
在互联网领域内,当新的文章出现时,需要将其和已有的文章进行比较,确定新的文章和已有的哪些文章是相关文章关系,以便于在用户查看文章时将相关文章一起推荐给用户。由于已有文章的数量庞大,而每个新的文章都需要与所有已有文章进行比较,导致计算量非常巨大,计算文章相关性的效率非常低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的多标杆确定文章相关性的方法和装置。依据本专利技术的一种基于多标杆确定文章相关性的方法,包括:将第一文章与预设的多个标杆文章进行比较,得到所述第一文章与所述多个标杆文章的第一距离集合;将第二文章与所述多个标杆文章进行比较,得到所述第二文章与所述多个标杆文章的第二距离集合;基于所述第一距离集合与所述第二距离集合确定所述第一文章与所述第二文章之间的相关度。可选地,前述的方法,基于所述第一距离集合与所述第二距离集合确定所述第一文章与所述第二文章之间的相关度,具体包括:计算所述第一距离集合与所述第二距离集合的距离差,根据所述距离差确定所述第一文章与所述第二文章的相关度。可选地,前述的方法,在将第一文章与预设的多个标杆文章进行比较之前,还包括:识别所述第一文章的类型,并从预设的标杆文章集合中选择具有相对应类型的所述多个标杆文章。可选地,前述的方法,在将第一文章与预设的多个标杆文章进行比较之前,还包括:获取所述第一文章中的关键词,并从预设的标杆文章集合中选择具有所述关键词的所述多个标杆文章。可选地,前述的方法,将第一文章与预设的多个标杆文章进行比较,得到所述第一文章与所述多个标杆文章的第一距离集合,具体包括:获取所述第一文章的特征属性,并根据述第一文章的特征属性生成所述第一文章对应的向量,将所述第一文章对应的向量与预设的所述多个标杆文章对应的向量进行比较;将第二文章与所述多个标杆文章进行比较,得到所述第二文章与所述多个标杆文章的第二距离集合,具体包括:获取所述第二文章的特征属性,并根据述第二文章的特征属性生成所述第二文章对应的向量,并将所述第二文章对应的向量与所述多个标杆文章对应的向量进行比较。可选地,前述的方法,获取所述第一文章的特征属性,具体包括:对所述第一文章进行分词得到多个词,计算所述第一文章的多个词的词频,作为所述第一文章的特征属性;获取所述第二文章的特征属性,具体包括:对所述第二文章进行分词得到多个词,计算所述第二文章的多个词的词频,作为所述第二文章的特征属性。可选地,前述的方法,还包括:在所述距离差均位于预设区间时,将所述第二文章设置为所述第一文章的相关文章,以用于在需推送所述第一文章的相关文章时推送所述第二文章。依据本专利技术的一种基于多标杆确定文章相关性的装置,包括:第一比较模块,用于将第一文章与预设的多个标杆文章进行比较,得到所述第一文章与所述多个标杆文章的第一距离集合;第二比较模块,用于将第二文章与所述多个标杆文章进行比较,得到所述第二文章与所述多个标杆文章的第二距离集合;相关度确定模块,用于基于所述第一距离集合与所述第二距离集合确定所述第一文章与所述第二文章之间的相关度。可选地,前述的装置,所述相关度确定模块计算所述第一距离集合与所述第二距离集合的距离差,根据所述距离差确定所述第一文章与所述第二文章的相关度。可选地,前述的装置,还包括:第一选择模块,用于识别所述第一文章的类型,并从预设的标杆文章集合中选择具有相对应类型的所述多个标杆文章。可选地,前述的装置,还包括:第二选择模块,用于获取所述第一文章中的关键词,并从预设的标杆文章集合中选择具有所述关键词的所述多个标杆文章。可选地,前述的装置,所述第一比较模块获取所述第一文章的特征属性,并根据述第一文章的特征属性生成所述第一文章对应的向量,将所述第一文章对应的向量与预设的所述多个标杆文章对应的向量进行比较;所述第二比较模块获取所述第二文章的特征属性,并根据述第二文章的特征属性生成所述第二文章对应的向量,并将所述第二文章对应的向量与所述多个标杆文章对应的向量进行比较。可选地,前述的装置,所述第一比较模块对所述第一文章进行分词得到多个词,计算所述第一文章的多个词的词频,作为所述第一文章的特征属性;所述第二比较模块对所述第二文章进行分词得到多个词,计算所述第二文章的多个词的词频,作为所述第二文章的特征属性。可选地,前述的装置,还包括:设置模块,用于在所述距离差均位于预设区间时,将所述第二文章设置为所述第一文章的相关文章,以用于在需推送所述第一文章的相关文章时推送所述第二文章。根据以上技术方案,本专利技术的基于多标杆确定文章相关性的方法和装置至少具有以下优点:根据本专利技术的技术方案,当需要分析多个文章之间的相关性时,不必进行多个文章之间的对比,而是进行多个文章与标杆文章之间的比较,如果两个文章与标杆文章之间的距离相似,则说明两个文章之间具有一定的类似程度;由于多个标杆文章是固定的,而其他文章不需要进行互相之间的对比,只需要进行与标杆文章的对比,即可确定多个文章之间的相关性,所以根据本专利技术的技术方案获取相关文章的效率非常高;多个标杆文章的存在,使得得到的第一距离集合、第二距离集合更能反映第一文章、第二文章的特点,进而根据第一距离集合、第二距离集合计算的相关度更加准确。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术的一个实施例的基于多标杆确定文章相关性的方法的流程图;图2示出了根据本专利技术的一个实施例的基于多标杆确定文章相关性的装置的框图;图3示出了根据本专利技术的一个实施例的基于多标杆确定文章相关性的装置的框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不本文档来自技高网...
多标杆确定文章相关性的方法和装置

【技术保护点】
一种基于多标杆确定文章相关性的方法,其特征在于,包括:将第一文章与预设的多个标杆文章进行比较,得到所述第一文章与所述多个标杆文章的第一距离集合;将第二文章与所述多个标杆文章进行比较,得到所述第二文章与所述多个标杆文章的第二距离集合;基于所述第一距离集合与所述第二距离集合确定所述第一文章与所述第二文章之间的相关度。

【技术特征摘要】
1.一种基于多标杆确定文章相关性的方法,其特征在于,包括:
将第一文章与预设的多个标杆文章进行比较,得到所述第一文章与所述
多个标杆文章的第一距离集合;
将第二文章与所述多个标杆文章进行比较,得到所述第二文章与所述多
个标杆文章的第二距离集合;
基于所述第一距离集合与所述第二距离集合确定所述第一文章与所述第
二文章之间的相关度。
2.根据权利要求1所述的方法,其特征在于,基于所述第一距离集合与
所述第二距离集合确定所述第一文章与所述第二文章之间的相关度,具体包
括:
计算所述第一距离集合与所述第二距离集合的距离差,根据所述距离差
确定所述第一文章与所述第二文章的相关度。
3.根据权利要求1-2任一项所述的方法,其特征在于,在将第一文章与
预设的多个标杆文章进行比较之前,还包括:
识别所述第一文章的类型,并从预设的标杆文章集合中选择具有相对应
类型的所述多个标杆文章。
4.根据权利要求1-3任一项所述的方法,其特征在于,在将第一文章与
预设的多个标杆文章进行比较之前,还包括:
获取所述第一文章中的关键词,并从预设的标杆文章集合中选择具有所
述关键词的所述多个标杆文章。
5.根据权利要求1-4任一项所述的方法,其特征在于,将第一文章与预
设的多个标杆文章进行比较,得到所述第一文章与所述多个标杆文章的第一
距离集合,具体包括:
获取所述第一文章的特征属性,并根据述第一文章的特征属性生成所述
第一文章对应的向量,将所述第一文章对应的向量与预设的所述多个标杆文

\t章对应的向量进行比较;
将第二文章与所述多个标杆文章进行比较,得到所述第二文章与所述多
个标杆文章的第二距离集合,具体包括:...

【专利技术属性】
技术研发人员:张伸正魏少俊陈培军
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1