获取文章的方法和装置及电子设备制造方法及图纸

技术编号:24168966 阅读:28 留言:0更新日期:2020-05-16 02:19
本发明专利技术提供了获取文章的方法和装置及电子设备,包括:获取指定调性的关键词;根据关键词进行搜索,得到关键词对应的文章;将文章进行分词处理,得到文章的分词文件;其中,分词文件包括文章的多个单词序列;将分词文件中的每个单词序列分别与指定调性的关键词进行比对,计算单词序列与关键词的相似度;选取相似度最高的指定数量的单词序列作为目标关键词;继续根据目标关键词进行搜索,得到目标关键词对应的文章,直至文章的数量达到预设阈值,并将搜索到的文章存储至文章数据库。本申请通过爬虫技术自动获取用户指定调性的文章,且,具有高效性,提高了用户的体验度。

【技术实现步骤摘要】
获取文章的方法和装置及电子设备
本专利技术涉及爬虫
,尤其是涉及获取文章的方法和装置及电子设备。
技术介绍
目前,互联网文章种类丰富,内容新颖,数据量巨大,各种新兴媒体网站层出不穷,各类媒体内容形式也各不相同,不同用户具有不同的阅读需求,即每个用户偏向阅读特定调性的文章和媒体,如何自动向用户推送特定调性的文章也成为众多媒体软件的主要任务。现有的方法主要通过Word2Ve工具得到用户特定调性的文章,该方法虽然可以得到用户特定调性的文章,但具有低效性的缺点,从而给用户造成不好的阅读体验。
技术实现思路
有鉴于此,本专利技术的目的在于提供获取文章的方法和装置及电子设备,通过爬虫技术自动获取用户指定调性的文章,且,具有高效性,从而提高了用户的体验度。第一方面,本专利技术实施例提供了一种获取文章的方法,应用于服务器,所述方法包括:获取指定调性的关键词;根据所述关键词进行搜索,得到所述关键词对应的文章;将所述文章进行分词处理,得到所述文章的分词文件;其中,所述分词文件包括所述文章的多个单词序列;将所述分词文件中的每个所述单词序列分别与指定调性的所述关键词进行比对,计算所述单词序列与所述关键词的相似度;选取相似度最高的指定数量的所述单词序列作为目标关键词;继续根据所述目标关键词进行搜索,得到所述目标关键词对应的文章,直至所述文章的数量达到预设阈值,并将搜索到的所述文章存储至文章数据库。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述将所述分词文件中的每个所述单词序列分别与指定调性的所述关键词进行比对,计算所述单词序列与所述关键词的相似度的步骤包括:将所述分词文件输入至预先训练好的单词训练模型,以输出每个所述单词序列的单词向量;通过所述单词向量与指定调性的所述关键词的关键词向量,分别计算所述单词序列与所述关键词的相似度。结合第一方面的第一种可能的实施方式,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,将所述分词文件输入至预先训练好的单词训练模型之后,所述方法还包括:通过预先训练好的所述单词训练模型输出所述分词文件对应文章的文章向量;根据所述文章向量计算搜索到的所述文章与所述文章数据库中已存储的文章的相似度,以对搜索到的所述文章进行重复性判断。结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,所述根据所述关键词进行搜索,得到所述关键词对应的文章的步骤包括:获取用户输入的指定网站地址;在所述指定网站地址对应的网站上根据所述关键词进行搜索,以得到所述关键词对应的文章。结合第一方面的第三种可能的实施方式,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,所述在所述指定网站地址对应的网站上根据所述关键词进行搜索,以得到所述关键词对应的文章的步骤还包括:将所述关键词输入至预设的爬虫程序;通过所述爬虫程序在所述指定网站地址对应的网站上根据所述关键词进行搜索,以得到所述关键词对应的文章。第二方面,本专利技术实施例还提供一种获取文章的装置,应用于服务器,所述装置包括:获取模块,用于获取指定调性的关键词;第一搜索模块,用于根据所述关键词进行搜索,得到所述关键词对应的文章;处理模块,用于将所述文章进行分词处理,得到所述文章的分词文件;其中,所述分词文件包括所述文章的多个单词序列;计算模块,用于将所述分词文件中的每个所述单词序列分别与指定调性的所述关键词进行比对,计算所述单词序列与所述关键词的相似度;选取模块,用于选取相似度最高的指定数量的所述单词序列作为目标关键词;第二搜索模块,用于继续根据所述目标关键词进行搜索,得到所述目标关键词对应的文章,直至所述文章的数量达到预设阈值,并将搜索到的所述文章存储至文章数据库。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,所述计算模块还包括:将所述分词文件输入至预先训练好的单词训练模型,以输出每个所述单词序列的单词向量;通过所述单词向量与指定调性的所述关键词的关键词向量,分别计算所述单词序列与所述关键词的相似度。结合第二方面的第一种可能的实施方式,本专利技术实施例提供了第二方面的第二种可能的实施方式,其中,将所述分词文件输入至预先训练好的单词训练模型之后,所述装置还包括:通过预先训练好的所述单词训练模型输出所述分词文件对应文章的文章向量;根据所述文章向量计算搜索到的所述文章与所述文章数据库中已存储的文章的相似度,以对搜索到的所述文章进行重复性判断。第三方面,本专利技术实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的获取文章的方法的步骤。第四方面,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面所述的获取文章的方法的步骤。本专利技术实施例带来了以下有益效果:本专利技术实施例提供了获取文章的方法和装置及电子设备,包括:获取指定调性的关键词;根据关键词进行搜索,得到关键词对应的文章;将文章进行分词处理,得到文章的分词文件;其中,分词文件包括文章的多个单词序列;将分词文件中的每个单词序列分别与指定调性的关键词进行比对,计算单词序列与关键词的相似度;选取相似度最高的指定数量的单词序列作为目标关键词;继续根据目标关键词进行搜索,得到目标关键词对应的文章,直至文章的数量达到预设阈值,并将搜索到的文章存储至文章数据库。本申请通过爬虫技术自动获取用户指定调性的文章,且,具有高效性,提高了用户的体验度。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种获取文章的方法的流程图;图2为本专利技术实施例提供的另一种获取文章的方法的流程图;图3为本专利技术实施例提供的另一种获取文章的方法的流程图;图4为本专利技术实施例提供的另一种获取文章的方法的流程图;图5为本专利技术实施例提供的一种获取文章的装置的示意图。图标:10-获取模块;20-第一搜索模块;30-处理模块;40-计算模块;50-选取模块;60-第二搜索模块。具体实施方式...

【技术保护点】
1.一种获取文章的方法,其特征在于,应用于服务器,所述方法包括:/n获取指定调性的关键词;/n根据所述关键词进行搜索,得到所述关键词对应的文章;/n将所述文章进行分词处理,得到所述文章的分词文件;其中,所述分词文件包括所述文章的多个单词序列;/n将所述分词文件中的每个所述单词序列分别与指定调性的所述关键词进行比对,计算所述单词序列与所述关键词的相似度;/n选取相似度最高的指定数量的所述单词序列作为目标关键词;/n继续根据所述目标关键词进行搜索,得到所述目标关键词对应的文章,直至所述文章的数量达到预设阈值,并将搜索到的所述文章存储至文章数据库。/n

【技术特征摘要】
1.一种获取文章的方法,其特征在于,应用于服务器,所述方法包括:
获取指定调性的关键词;
根据所述关键词进行搜索,得到所述关键词对应的文章;
将所述文章进行分词处理,得到所述文章的分词文件;其中,所述分词文件包括所述文章的多个单词序列;
将所述分词文件中的每个所述单词序列分别与指定调性的所述关键词进行比对,计算所述单词序列与所述关键词的相似度;
选取相似度最高的指定数量的所述单词序列作为目标关键词;
继续根据所述目标关键词进行搜索,得到所述目标关键词对应的文章,直至所述文章的数量达到预设阈值,并将搜索到的所述文章存储至文章数据库。


2.根据权利要求1所述的获取文章的方法,其特征在于,所述将所述分词文件中的每个所述单词序列分别与指定调性的所述关键词进行比对,计算所述单词序列与所述关键词的相似度的步骤包括:
将所述分词文件输入至预先训练好的单词训练模型,以输出每个所述单词序列的单词向量;
通过所述单词向量与指定调性的所述关键词的关键词向量,分别计算所述单词序列与所述关键词的相似度。


3.根据权利要求2所述的获取文章的方法,其特征在于,将所述分词文件输入至预先训练好的单词训练模型之后,所述方法还包括:
通过预先训练好的所述单词训练模型输出所述分词文件对应文章的文章向量;
根据所述文章向量计算搜索到的所述文章与所述文章数据库中已存储的文章的相似度,以对搜索到的所述文章进行重复性判断。


4.根据权利要求1所述的获取文章的方法,其特征在于,所述根据所述关键词进行搜索,得到所述关键词对应的文章的步骤包括:
获取用户输入的指定网站地址;
在所述指定网站地址对应的网站上根据所述关键词进行搜索,以得到所述关键词对应的文章。


5.根据权利要求4所述的获取文章的方法,其特征在于,所述在所述指定网站地址对应的网站上根据所述关键词进行搜索,以得到所述关键词对应的文章的步骤还包括:
将所述关键词输入至预设的爬虫程序;
通过所述爬虫程...

【专利技术属性】
技术研发人员:徐磊袁力邸烁胡坤歌
申请(专利权)人:北京阿尔山区块链联盟科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1