【技术实现步骤摘要】
关键短语提取方法、装置及可读存储介质
[0001]本公开涉及人工智能领域,尤其涉及一种关键短语提取方法、装置及可读存储介质。
技术介绍
[0002]关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。
[0003]现有的关键词提取技术中,当前常用的方法包括基于统计特征提取关键词、基于词图模型提取关键词和基于主题模型提取关键词,这些当前常用的关键词提取方案要么只能提取单个关键词,要么可以提取短语,但是提取的短语和文档的主题相关性差,提取的关键词不能体现文档主旨。
技术实现思路
[0004]为克服相关技术中存在的问题,本公开提供一种关键短语提取方法、装置、电子设备及可读存储介质。
[0005]本公开的第一方面实施例提供一种关键短语提取方法,所述方法包括:
[0006]获取待处理文本,并根据所述待处理文本得到候选关键文本集合;
[0007]根据所述候选关键文本集合中的每个组合文本的重要度权重值、语义权重值和长度权重值,生成所述候选关键文本集合中的所述每个组合文本的复合权重值;
[0008]根据所述候选关键文本集合中的所述每个组合文本的复合权重值,提取所述待处理文本对应的关键短语。
[0009]可选地,所述根据所述候选关键文本集合中的每个组合文本的重要度权重值、语义权重值和长度权重值,得到所述候选关键文本 ...
【技术保护点】
【技术特征摘要】
1.一种关键短语提取方法,其特征在于,所述方法包括:获取待处理文本,并根据所述待处理文本得到候选关键文本集合;根据所述候选关键文本集合中的每个组合文本的重要度权重值、语义权重值和长度权重值,生成所述候选关键文本集合中的所述每个组合文本的复合权重值;根据所述候选关键文本集合中的所述每个组合文本的复合权重值,提取所述待处理文本对应的关键短语。2.如权利要求1所述的方法,其特征在于,所述根据候选关键文本集合中的每个组合文本的重要度权重值、语义权重值和长度权重值,得到所述候选关键文本集合中的所述每个组合文本的复合权重值,包括:计算所述候选关键文本集合中的所述每个组合文本的重要度权重值、语义权重值和长度权重值;根据所述每个组合文本的所述重要度权重值与所述长度权重值生成第一计算值,并根据所述每个组合文本的所述语义权重值与语义权重调节因子生成第二计算值,以及根据所述第一计算值和所述第二计算值得到所述每个组合文本的复合权重值。3.如权利要求2所述的方法,其特征在于,所述计算所述候选关键文本集合中的所述每个组合文本的重要度权重值,包括:对于所述每个组合文本,执行重要度计算操作,以得到所述每个组合文本的重要度权重值,其中,所述重要度计算操作包括:计算所述组合文本中每个词语的重要度值;计算所述组合文本中所述每个词语的重要度值的平均值,其中,根据所述重要度值的平均值生成所述组合文本的所述重要度权重值。4.如权利要求2所述的方法,其特征在于,所述计算所述候选关键文本集合中的所述每个组合文本的语义权重值,包括:对于所述每个组合文本,执行语义权重计算操作,以得到所述每个组合文本的语义权重值,其中,所述语义权重计算操作包括:将所述组合文本输入特征提取模型,得到所述组合文本的第一表征向量;将所述待处理文本输入所述特征提取模型,得到所述待处理文本的第二表征向量;计算所述第一表征向量与所述第二表征向量的文本相似度,以得到所述组合文本的所述语义权重值。5.如权利要求2所述的关键短语提取方法,其特征在于,所述计算所述候选关键文本集合中的所述每个组合文本的长度权重值,包括:对于所述每个组合文本,执行长度权重计算操作,得到每个组合文本的长度权重值,其中,所述长度权重计算操作包括:获取所述组合文本的长度,其中,所述组合文本的长度是所述组合文本包括的词语总数;根据所述组合文本的长度和预设长度权重计算规则计算所述组合文本的长度权重值。6.如权利要求5所述的关键短语提取方法,其特征在于,所述根据所述组合文本的长度和预设长度权重计算规则计算所述组合文本的长度权重值包括:当所述组合文本t...
【专利技术属性】
技术研发人员:王立可,
申请(专利权)人:北京小米松果电子有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。