【技术实现步骤摘要】
标签挖掘方法、装置、电子设备及存储介质
[0001]本公开涉及数据处理
,尤其涉及智能搜索、大数据等领域。
技术介绍
[0002]随着计算机技术的发展,各个领域中存在大量的文档。为便于管理文档,一般都会对文档设置标签。基于标签可对文档进行分类、检索等。由于文档过多,可能存在文档的标签与文档内容不符的情况,因此,如何获取文档的标签是一个问题。
技术实现思路
[0003]本公开提供了一种标签挖掘方法、装置、电子设备及存储介质。
[0004]根据本公开的一方面,提供了一种标签挖掘方法,包括:
[0005]基于目标文本的句子权重,从目标文本中筛选出关键句子,得到关键句子集合;
[0006]基于关键句子集合,确定候选标签集合;
[0007]确定候选标签集合中各候选标签的多个特征信息;
[0008]基于各候选标签的多个特征信息,从候选标签集合中筛选出目标文本的标签。
[0009]根据本公开的另一方面,提供了一种标签挖掘装置,包括:
[0010]句子筛选模块,用于基于目标文本的句子权重,从目标文本中筛选出关键句子,得到关键句子集合;
[0011]标签获取模块,用于基于关键句子集合,确定候选标签集合;
[0012]特征获取模块,用于确定候选标签集合中各候选标签的多个特征信息;
[0013]标签筛选模块,用于基于各候选标签的多个特征信息,从候选标签集合中筛选出目标文本的标签。
[0014]根据本公开的另一方面,提供了一种电子设 ...
【技术保护点】
【技术特征摘要】
1.一种标签挖掘方法,包括:基于目标文本的句子权重,从所述目标文本中筛选出关键句子,得到关键句子集合;基于所述关键句子集合,确定候选标签集合;确定所述候选标签集合中各候选标签的多个特征信息;基于各候选标签的多个特征信息,从所述候选标签集合中筛选出所述目标文本的标签。2.根据权利要求1所述的方法,其中,所述基于目标文本的句子权重,从所述目标文本中筛选出关键句子,得到关键句子集合,包括:基于预设采样率对所述目标文本中的句子进行采样;基于采样到的句子和指定句子,构建第一句子集合;所述指定句子用于描述所述目标文本的核心内容;对所述第一句子集合中的各句子进行分词处理,得到第一特征词集合;基于所述第一特征词集合,确定所述目标文本的多个句子的句子权重;从所述目标文本的多个句子中,筛选句子权重大于权重阈值句子,构建所述关键句子集合。3.根据权利要求2所述的方法,其中,所述基于所述第一特征词集合,确定所述目标文本的多个句子的句子权重,包括:基于所述目标文本中未采样到的句子,构建第二句子集合;以所述第一特征词集合为分词词典,对所述第二句子集合中的句子进行分词处理,得到第二特征词集合;基于文本的排序方法处理所述第一特征词集合和所述第二特征词集合,以得到所述目标文本的句子间的相似度矩阵;基于网页排名方法处理所述相似度矩阵,得到所述目标文本的多个句子的句子权重。4.根据权利要求2所述的方法,其中,所述指定句子包括所述目标文本的标题。5.根据权利要求1
‑
4中任一项所述的方法,其中,所述基于所述关键句子集合,确定候选标签集合,包括:对所述关键句子集合进行分词处理,得到候选分词集合;对所述候选分词集合中的词进行随机组合,得到扩展词;基于所述扩展词和所述候选分词集合,构建所述候选标签集合。6.根据权利要求1
‑
5中任一项所述的方法,针对每个候选标签,所述候选标签的多个特征信息,包括以下中的至少一种:第一特征,基于无监督的关键词提取方法确定的所述候选标签的分值;第二特征,用于表示所述候选标签与指定句子之间的相似度;所述指定句子用于描述所述目标文本的核心内容;第三特征,用于表示所述候选标签的权重。7.根据权利要求6所述的方法,在各候选标签的多个特征信息包括第一特征的情况下,针对每个候选标签,确定所述候选标签的所述第一特征,包括:获取所述候选标签的多个预设子特征信息;基于多个所述预设子特征信息计算联合计算指标,以得到所述第一特征。
8.根据权利要求6所述的方法,在各候选标签的多个特征信息包括第二特征的情况下,针对每个候选标签,确定所述候选标签的所述第二特征,包括:获取所述指定句子的句子特征;确定所述指定句子的句子特征和所述候选标签的词嵌入特征之间的相似度,得到所述第二特征。9.根据权利要求6所述的方法,在各候选标签的多个特征信息包括第三特征的情况下,针对每个候选标签,确定所述候选标签的所述第三特征,包括:基于无监督的关键词提取方法,提取所述候选标签的多个统计特征,得到统计特征集合;将所述候选标签的统计特征集合,以及所述第二特征输入权重预测模型,得到所述第三特征;其中,所述权重预测模型是基于二分类训练得到的,在训练阶段所述权重预测模型基于预测的权重对输入样本进行分类,二分类的类别包括对文本重要,和对文本不重要。10.根据权利要求1
‑
9中任一项所述的方法,其中,所述基于各候选标签的多个特征信息,从所述候选标签集合中筛选出所述目标文本的标签,包括:将所述多个特征信息分别跟相应的阈值进行比较;选择各特征信息均大于相应阈值的候选标签作为所述目标文本的标签。11.一种标签挖掘装置,包括:句子筛选模块,用于基于目标文本的句子权重,从所述目标文本中筛选出关键句子,得到关键句子集合;标签获取模块,用于基于所述关键句子集合,确定候选标签集合;特征获取模块,用于确定所述候选标签集合中各候选标签的多个特征信息;标签筛选模块,用于基于各候选标签的多个特征信息,从所述候选标签集合中筛选出所述目标文...
【专利技术属性】
技术研发人员:付宇,薛璐影,白云龙,吴广发,
申请(专利权)人:百度中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。