标题生成方法、装置、设备及介质制造方法及图纸

技术编号:33634922 阅读:16 留言:0更新日期:2022-06-02 01:45
本申请涉及人工智能技术领域,具体公开了一种标题生成方法、装置、设备及介质,所述标题生成方法通过提取原始文章中的关键词,得到关键词集合;将关键词集合中的关键词和预设知识图谱的图谱节点进行匹配,根据匹配成功的图谱节点得到备选词集合;获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,以及根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值;根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列;根据备选词序列获取原始文章中各个词的注意力特征,根据注意力特征生成标题信息。使得生成标题信息在能够反映出原始文本的核心内容的前提下,还能够保证生成的标题满足用户的偏好。足用户的偏好。足用户的偏好。

【技术实现步骤摘要】
标题生成方法、装置、设备及介质


[0001]本申请涉及人工智能
,具体而言,涉及一种标题生成方法、装置、设备及介质。

技术介绍

[0002]近年来,随着互联网技术的不断发展,用户对网络阅读的需求量呈指数增长,其网络阅读的内容包括新闻、电子书等等。在用户阅读的过程中,阅读的文章所对应的标题起着至关重要的作用。一个好质量的标题不仅要通顺,同时还要求标题与文章的相关性以及标题是否满足用户的喜好,这样才能吸引用户的阅读兴趣。好的标题不仅能准确描述对应的文本信息,另外还可以通过热点词汇增加曝光率、点击量。
[0003]那么如何使生成的标题同时满足用户的喜好以及标题与文章的相关性,是本领域技术人员需要关注的重点。

技术实现思路

[0004]为解决上述技术问题,本申请的实施例提供了一种标题生成方法、装置、设备及介质,以使生成的标题可以在满足用户的喜好的同时,还可以保证标题与文章的相关性。
[0005]第一方面,本申请提供一种标题生成方法,包括:提取原始文章中的关键词,得到关键词集合;将关键词集合中的关键词和预设知识图谱的图谱节点进行匹配,根据匹配成功的图谱节点得到备选词集合;获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,以及根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值;根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列;根据备选词序列获取原始文章中各个词的注意力特征,以根据注意力特征生成标题信息。
[0006]根据本专利技术优选实施例,获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,包括:统计第一预设时间段内所有用户的历史浏览记录,得到每个备选词的全局热度值;以及统计第一预设时间段内目标用户的历史浏览记录,得到每个备选词的目标热度值;根据每个备选词的全局热度值以及目标热度值,得到每个备选词当前的第一热度值。
[0007]根据本专利技术优选实施例,根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值,包括:根据历史热度统计记录,获取每个备选词在第二预设时间段内的多个第一热度值;其中,每个第一热度值中包含有对应的时间信息;根据多个第一热度值的时间信息,计算相邻时间对应的第一热度值之间的热度差值;根据热度差值以及当前时间对应的第一热度值,得到每个备选词的第二热度值。
[0008]根据本专利技术优选实施例,根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列,包括:根据第一预设权重参数对每个备选词的第一热度值进行加权处理,得到加权处理后的第一热度加权值,以及根据第二预设权重参数对每个备选词的第二热度值进行加权处理,得到加权处理后的第二热度加权值;将第一热度加权值以及第二热
度加权值进行求和处理,得到每个备选词的综合热度值;根据每个备选词的综合热度值对每个备选词进行排序,得到备选词序列。
[0009]根据本专利技术优选实施例,根据备选词序列获取原始文章中各个词的注意力特征,包括:根据原始文章中各个词的相对位置信息,得到原始文章中各个词的自注意力系数,以及根据排序后的备选词,得到原始文章中各个词的重要系数;根据原始文章中各个词的自注意力系数以及原始文章中各个词的重要系数,得到原始文章中各个词的注意力特征。
[0010]根据本专利技术优选实施例,根据原始文章中各个词的相对位置信息,得到原始文章中各个词的自注意力系数,包括:将原始文章中各个词输入前向的自注意力网络,得到原始文章中各个词的第一自注意力向量;将原始文章中各个词输入后向的自注意力网络,得到原始文章中各个词的第二自注意力向量;将第一自注意力向量和第二自注意力向量进行融合,获得原始文章中各个词的自注意力系数。
[0011]根据本专利技术优选实施例,原始文章包括原始正文信息以及原始标题信息,提取原始文章中的关键词,得到关键词集合,包括:对原始正文信息以及原始标题信息执行分词以及去停用词中的至少一种预处理操作,得到原始正文信息对应的正文词汇以及原始标题信息对应的标题关键词;获取正文词汇的词频逆文本频率值,根据正文词汇的词频逆文本频率值对正文词汇进行筛选,得到原始正文信息对应的正文关键词;对标题关键词以及正文关键词进行拼接,得到关键词集合。
[0012]第二方面,本申请提供一种标题生成装置,包括:关键词提取模块,用于提取原始文章中的关键词,得到关键词集合;知识图谱匹配模块,用于将关键词集合中的关键词和预设知识图谱的图谱节点进行匹配,根据匹配成功的图谱节点得到备选词集合;热度计算模块,用于获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,以及根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值;排序模块,用于根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列;标题生成模块,用于根据备选词序列获取原始文章中各个词的注意力特征,以根据注意力特征生成标题信息。
[0013]第三方面,本申请提供一种计算机设备,计算机设备包括存储器和处理器;存储器,用于存储计算机程序;处理器,用于执行的计算机程序并在执行的计算机程序时实现上述标题生成方法的步骤。
[0014]第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时使处理器实现上述标题生成方法的步骤。
[0015]本申请实施例公开的标题生成方法、装置、设备及介质,通过提取原始文章中的关键词,得到关键词集合;将关键词集合中的关键词和预设知识图谱进行匹配,得到备选词集合;获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,以及根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值;根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列;根据备选词序列获取原始文章中各个词的注意力特征,以根据注意力特征生成标题信息。由于在获取标题信息时,不仅考虑到了原始文章本身的信息,而且还考虑到了原始文章中各个词汇的当前热度以及热度变化趋势,在标题生成过程中提取用户对于不同词汇的喜爱程度的信息,使得生成标题信息在能够反映出原始文本的核心内容的前提下,还能够保证生成的标题满足用户的偏好。
附图说明
[0016]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0017]图1是本申请实施例提供的标题生成方法的应用环境示意图;
[0018]图2是本申请实施例提供的标题生成方法的流程图;
[0019]图3是本申请实施例提供的标题生成方法的数据流程示意图;
[0020]图4是本申请实施例提供的标题生成装置的示意性框图;
[0021]图5是本申请实施例提供的计算机设备的示意性框图。
具体实施方式
[0022]这里将详细地对示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标题生成方法,其特征在于,所述方法包括:提取原始文章中的关键词,得到关键词集合;将所述关键词集合中的关键词和预设知识图谱的图谱节点进行匹配,根据匹配成功的图谱节点得到备选词集合;获取所述备选词集合中每个备选词的当前热度,得到所述每个备选词的第一热度值,以及根据所述每个备选词的第一热度值的变化趋势,得到所述每个备选词的第二热度值;根据所述第一热度值以及所述第二热度值对所述每个备选词进行排序,得到备选词序列;根据所述备选词序列获取所述原始文章中各个词的注意力特征,以根据所述注意力特征生成标题信息。2.根据权利要求1所述的方法,其特征在于,所述获取所述备选词集合中每个备选词的当前热度,得到所述每个备选词的第一热度值,包括:统计第一预设时间段内所有用户的历史浏览记录,得到所述每个备选词的全局热度值;以及统计第一预设时间段内目标用户的历史浏览记录,得到所述每个备选词的目标热度值;根据所述每个备选词的全局热度值以及目标热度值,得到所述每个备选词当前的第一热度值。3.根据权利要求1所述的方法,其特征在于,所述根据所述每个备选词的第一热度值的变化趋势,得到所述每个备选词的第二热度值,包括:根据历史热度统计记录,获取所述每个备选词在第二预设时间段内的多个第一热度值;其中,每个第一热度值中包含有对应的时间信息;根据所述多个第一热度值的时间信息,计算相邻时间对应的第一热度值之间的热度差值;根据所述热度差值以及当前时间对应的第一热度值,得到所述每个备选词的第二热度值。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述第一热度值以及所述第二热度值对所述每个备选词进行排序,得到备选词序列,包括:根据第一预设权重参数对所述每个备选词的第一热度值进行加权处理,得到加权处理后的第一热度加权值,以及根据第二预设权重参数对所述每个备选词的第二热度值进行加权处理,得到加权处理后的第二热度加权值;将所述第一热度加权值以及所述第二热度加权值进行求和处理,得到所述每个备选词的综合热度值;根据所述每个备选词的综合热度值对所述每个备选词进行排序,得到所述备选词序列。5.根据权利要求1所述的方法,其特征在于,所述根据所述备选词序列获取所述原始文章中各个词的注意力特征,包括:根据所述原始文章中各个词的相对位置信息,得到所述原始文章中各个词的自注意力系数,以及根据所述排序后的备选词,得到所述原始文章中各个词的重...

【专利技术属性】
技术研发人员:孙梓淇张智
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1