关键短语提取方法、装置及可读存储介质制造方法及图纸

技术编号:37103928 阅读:21 留言:0更新日期:2023-04-01 05:03
本公开涉及一种关键短语提取方法,包括:获取待处理文本,并根据所述待处理文本得到候选关键文本集合,根据候选关键文本集合中的每个组合文本的重要度权重值、语义权重值和长度权重值,生成所述候选关键文本集合中的所述每个组合文本的复合权重值,根据所述候选关键文本集合中的所述每个组合文本的复合权重值,提取所述待处理文本对应的关键短语。通过本公开可以通过综合多种权重提取与原文档的语义匹配度高的关键短语。配度高的关键短语。配度高的关键短语。

【技术实现步骤摘要】
关键短语提取方法、装置及可读存储介质


[0001]本公开涉及人工智能领域,尤其涉及一种关键短语提取方法、装置及可读存储介质。

技术介绍

[0002]关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。
[0003]现有的关键词提取技术中,当前常用的方法包括基于统计特征提取关键词、基于词图模型提取关键词和基于主题模型提取关键词,这些当前常用的关键词提取方案要么只能提取单个关键词,要么可以提取短语,但是提取的短语和文档的主题相关性差,提取的关键词不能体现文档主旨。

技术实现思路

[0004]为克服相关技术中存在的问题,本公开提供一种关键短语提取方法、装置、电子设备及可读存储介质。
[0005]本公开的第一方面实施例提供一种关键短语提取方法,所述方法包括:
[0006]获取待处理文本,并根据所述待处理文本得到候选关键文本集合;
[0007]根据所述候选关键文本集合中的每个组合文本的重要度权重值、语义权重值和长度权重值,生成所述候选关键文本集合中的所述每个组合文本的复合权重值;
[0008]根据所述候选关键文本集合中的所述每个组合文本的复合权重值,提取所述待处理文本对应的关键短语。
[0009]可选地,所述根据所述候选关键文本集合中的每个组合文本的重要度权重值、语义权重值和长度权重值,得到所述候选关键文本集合中的所述每个组合文本的复合权重值,包括:
[0010]计算所述候选关键文本集合中的所述每个组合文本的重要度权重值、语义权重值和长度权重值;
[0011]根据所述每个组合文本的所述重要度权重值与所述长度权重值生成第一计算值,并根据所述每个组合文本的所述语义权重值与语义权重调节因子生成第二计算值,以及根据所述第一计算值和所述第二计算值得到所述每个组合文本的复合权重值。
[0012]可选地,计算所述候选关键文本集合中的所述每个组合文本的重要度权重值,包括:
[0013]对于所述每个组合文本,执行重要度计算操作,以得到所述每个组合文本的重要度权重值,其中,所述重要度计算操作包括:
[0014]计算所述组合文本中每个词语的重要度值;
[0015]计算所述组合文本中所述每个词语的重要度值的平均值,其中,根据所述重要度
值的平均值生成所述组合文本的所述重要度权重值。
[0016]可选地,计算所述候选关键文本集合中的所述每个组合文本的语义权重值,包括:
[0017]对于所述每个组合文本,执行语义权重计算操作,以得到所述每个组合文本的语义权重值,其中,所述语义权重计算操作包括:
[0018]将所述组合文本输入特征提取模型,得到所述组合文本的第一表征向量;
[0019]将所述待处理文本输入所述特征提取模型,得到所述待处理文本的第二表征向量;
[0020]计算所述第一表征向量与所述第二表征向量的文本相似度,以得到所述组合文本的所述语义权重值。
[0021]可选地,计算所述候选关键文本集合中的所述每个组合文本的长度权重值,包括:
[0022]对于所述每个组合文本,执行长度权重计算操作,得到每个组合文本的长度权重值,其中,所述长度权重计算操作包括:
[0023]获取所述组合文本的长度,其中,所述组合文本的长度是所述组合文本包括的词语总数;
[0024]根据所述组合文本的长度和预设长度权重计算规则计算所述组合文本的长度权重值。
[0025]可选地,所述根据所述组合文本的长度和预设长度权重计算规则计算所述组合文本的长度权重值包括:
[0026]当所述组合文本t
i
的长度f
i
为第一预设数值范围时,所述组合文本的长度权重值z
i
为1;
[0027]当所述组合文本t
i
的长度f
i
为第二预设数值范围时,所述组合文本的长度权重值z
i

[0028]当所述组合文本t
i
的长度f
i
为第三预设数值范围时,所述组合文本的长度权重值z
i

[0029]可选地,所述根据所述每个组合文本的所述重要度权重值与所述长度权重值生成第一计算值,并根据所述每个组合文本的所述语义权重值与语义权重调节因子生成第二计算值,以及根据所述第一计算值和所述第二计算值得到所述每个组合文本的复合权重值,包括:
[0030]计算所述每个组合文本的所述重要度权重值与所述长度权重值的积,得到所述第一计算值;
[0031]计算所述每个组合文本的所述语义权重值与所述语义权重调节因子的积,得到所述第二计算值;
[0032]计算所述第一计算值和所述第二计算值的和,得到所述每个组合文本的所述复合权重值。
[0033]可选地,所述根据所述每个组合文本的复合权重值,提取所述待处理文本对应的关键短语,包括:
[0034]将所述候选关键文本集合中组合文本的复合权重值最大的预设数量个组合文本
作为所述待处理文本的关键短语;
[0035]按预设形式输出所述待处理文本的所述关键短语。
[0036]本公开的第二方面实施例提供一种关键短语提取装置,包括:
[0037]获取模块,用于获取待处理文本,并根据所述待处理文本得到候选关键文本集合;
[0038]复合权重值生成模块,用于根据候选关键文本集合中的每个组合文本的重要度权重值、语义权重值和长度权重值,生成所述候选关键文本集合中的所述每个组合文本的复合权重值;
[0039]关键短语生成模块,用于根据所述候选关键文本集合中的所述每个组合文本的复合权重值,生成所述待处理文本对应的关键短语。
[0040]本公开的第三方面实施例提供一种电子设备,包括:
[0041]处理器;
[0042]用于存储处理器可执行指令的存储器;
[0043]其中,所述处理器被配置为执行所述关键短语提取方法。
[0044]本公开的第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现所述关键短语提取方法的步骤。
[0045]本公开实施例提供的技术方案可以包括以下有益效果:
[0046]本公开实施例通过获取待处理文本,并根据所述待处理文本得到候选关键文本集合,根据候选关键文本集合中的每个组合文本的重要度权重值、语义权重值和长度权重值,生成所述候选关键文本集合中的所述每个组合文本的复合权重值,根据所述候选关键文本集合中的所述每个组合文本的复合权重值,提取所述待处理文本对应的关键短语,可以通过综合多种权重提取与原文档的语义匹配度高的关键短语。
[0047]应当理解的是,以上的一般描述和后文特征的细节描述仅是示例性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键短语提取方法,其特征在于,所述方法包括:获取待处理文本,并根据所述待处理文本得到候选关键文本集合;根据所述候选关键文本集合中的每个组合文本的重要度权重值、语义权重值和长度权重值,生成所述候选关键文本集合中的所述每个组合文本的复合权重值;根据所述候选关键文本集合中的所述每个组合文本的复合权重值,提取所述待处理文本对应的关键短语。2.如权利要求1所述的方法,其特征在于,所述根据候选关键文本集合中的每个组合文本的重要度权重值、语义权重值和长度权重值,得到所述候选关键文本集合中的所述每个组合文本的复合权重值,包括:计算所述候选关键文本集合中的所述每个组合文本的重要度权重值、语义权重值和长度权重值;根据所述每个组合文本的所述重要度权重值与所述长度权重值生成第一计算值,并根据所述每个组合文本的所述语义权重值与语义权重调节因子生成第二计算值,以及根据所述第一计算值和所述第二计算值得到所述每个组合文本的复合权重值。3.如权利要求2所述的方法,其特征在于,所述计算所述候选关键文本集合中的所述每个组合文本的重要度权重值,包括:对于所述每个组合文本,执行重要度计算操作,以得到所述每个组合文本的重要度权重值,其中,所述重要度计算操作包括:计算所述组合文本中每个词语的重要度值;计算所述组合文本中所述每个词语的重要度值的平均值,其中,根据所述重要度值的平均值生成所述组合文本的所述重要度权重值。4.如权利要求2所述的方法,其特征在于,所述计算所述候选关键文本集合中的所述每个组合文本的语义权重值,包括:对于所述每个组合文本,执行语义权重计算操作,以得到所述每个组合文本的语义权重值,其中,所述语义权重计算操作包括:将所述组合文本输入特征提取模型,得到所述组合文本的第一表征向量;将所述待处理文本输入所述特征提取模型,得到所述待处理文本的第二表征向量;计算所述第一表征向量与所述第二表征向量的文本相似度,以得到所述组合文本的所述语义权重值。5.如权利要求2所述的关键短语提取方法,其特征在于,所述计算所述候选关键文本集合中的所述每个组合文本的长度权重值,包括:对于所述每个组合文本,执行长度权重计算操作,得到每个组合文本的长度权重值,其中,所述长度权重计算操作包括:获取所述组合文本的长度,其中,所述组合文本的长度是所述组合文本包括的词语总数;根据所述组合文本的长度和预设长度权重计算规则计算所述组合文本的长度权重值。6.如权利要求5所述的关键短语提取方法,其特征在于,所述根据所述组合文本的长度和预设长度权重计算规则计算所述组合文本的长度权重值包括:当所述组合文本t...

【专利技术属性】
技术研发人员:王立可
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1