标签提取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:34946313 阅读:19 留言:0更新日期:2022-09-17 12:22
本发明专利技术提供一种标签提取方法、装置、电子设备和存储介质,所述方法包括:基于样本文本之间的语义相似度,确定多个候选话题簇;基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。本发明专利技术提供的标签提取方法、装置、电子设备和存储介质,基于能够从语义层面表征样本文本之间相似程度的语义相似度以及能够刻画各候选话题簇主题特征信息的关键词语义进行标签提取,提高了标签提取的准确度,同时本发明专利技术自动进行标签提取,提高了标签提取效率。提高了标签提取效率。提高了标签提取效率。

【技术实现步骤摘要】
标签提取方法、装置、电子设备和存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种标签提取方法、装置、电子设备和存储介质。

技术介绍

[0002]随着信息技术的不断发展,各个类型的文本都开始以计算机可读形式存在,因此如何在海量信息当中,快速并准确的提取对用户有用的信息是一个重要的问题。标签提取就是一种解决上述问题的有效手段,标签是对文章、音乐、商品等事物信息的精炼,使用户能够方便、快捷的了解事物的主题信息,从而提高信息访问的效率。
[0003]目前,关于标签提取的技术主要包括人工整理提取和关键词提取。人工整理提取主要依赖具有相关业务知识储备的专业人士,人工从文本中提炼相应的标签,但该方法效率较低,且可能由于人工失误造成提取标签不准确的问题。关键词提取主要依赖机器学习从文本中提取关键词作为标签,但所提取出的关键词通常都是单独的分词,使得标签无法准确表征文本的主题信息。

技术实现思路

[0004]本专利技术提供一种标签提取方法、装置、电子设备和存储介质,用以解决现有技术中标签提取准确率较低的缺陷。
[0005]本专利技术提供一种标签提取方法,包括:
[0006]基于样本文本之间的语义相似度,确定多个候选话题簇;
[0007]基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;
[0008]对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。
[0009]根据本专利技术提供的一种标签提取方法,所述样本文本包括携带话题类别标签的第一样本文本和未携带话题类别标签的第二样本文本;
[0010]所述基于样本文本之间的语义相似度,确定多个候选话题簇,包括:
[0011]基于所述第一样本文本携带的话题类别标签,确定多个初始话题簇,所述初始话题簇的数量基于所述话题类别标签的种类数量确定;
[0012]基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新所述多个初始话题簇,得到所述多个候选话题簇。
[0013]根据本专利技术提供的一种标签提取方法,所述基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新所述多个初始话题簇,得到所述多个候选话题簇,包括:
[0014]基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,确定所述第二样本文本与各初始话题簇之间的平均语义相似度;
[0015]在所述平均语义相似度大于阈值的情况下,将所述第二样本文本添加至对应的初
始话题簇,以更新对应的初始话题簇;
[0016]在所述平均语义相似度小于等于所述阈值的情况,基于所述第二样本文本构建新增的初始话题簇;
[0017]将更新完成的初始话题簇确定为候选话题簇。
[0018]根据本专利技术提供的一种标签提取方法,所述基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇,包括:
[0019]基于各候选话题簇的关键词语义,确定各候选话题簇的语义表示;
[0020]基于各候选话题簇的语义表示,确定各候选话题簇之间的语义相似度,并基于各候选话题簇之间的语义相似度对各候选话题簇进行话题聚类,得到各话题簇。
[0021]根据本专利技术提供的一种标签提取方法,所述基于各候选话题簇的关键词语义,确定各候选话题簇的语义表示,包括:
[0022]基于各候选话题簇中各分词的出现频次,确定各候选话题簇的关键词;
[0023]基于分词权重,对各候选话题簇的关键词语义特征向量进行加权求和,确定各候选话题簇的语义表示;所述分词权重基于各关键词的出现频次确定。
[0024]根据本专利技术提供的一种标签提取方法,所述对各话题簇中的样本文本进行标签提取,得到各话题簇的标签,包括:
[0025]对各话题簇中的样本文本进行语义理解,基于语义理解得到的语义信息生成文本片段,并以所述文本片段作为各话题簇的语义文本标签;
[0026]基于所述语义文本标签,或基于要素文本标签和所述语义文本标签,确定各话题簇的标签;所述要素文本标签是对各话题簇中的样本文本进行要素抽取后得到的关键词。
[0027]根据本专利技术提供的一种标签提取方法,所述得到各话题簇的标签,之后还包括:
[0028]基于所述标签与各话题簇中的样本文本之间的语义相似度,确定所述标签与各话题簇的相关度;
[0029]在所述相关度小于预设相关度的情况下,删除所述标签。
[0030]根据本专利技术提供的一种标签提取方法,所述得到各话题簇的标签,之后还包括:
[0031]基于新增文本与各话题簇中的样本文本之间的语义相似度,确定所述新增文本与各话题簇的话题相似度;
[0032]在所述话题相似度大于预设相似度的情况下,将对应话题簇的标签作为所述新增文本的标签;
[0033]在所述话题相似度小于等于所述预设相似度的情况下,基于所述新增文本构建新增的话题簇。
[0034]本专利技术还提供一种标签提取装置,包括:
[0035]确定单元,用于基于样本文本之间的语义相似度,确定多个候选话题簇;
[0036]聚类单元,用于基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;
[0037]提取单元,用于对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。
[0038]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述标签提取方
法。
[0039]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述标签提取方法。
[0040]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述标签提取方法。
[0041]本专利技术提供的标签提取方法、装置、电子设备和存储介质,由于样本文本之间的语义相似度用于从语义层面表征样本文本之间的相似程度,即考虑了样本文本的上下文信息,从而能够从样本文本全局判断样本文本之间的相似程度,进而能够准确对样本文本进行聚类,得到对应的候选话题簇。此外,基于能够刻画各候选话题簇主题特征信息的关键词语义,对各候选话题簇进一步聚类,以使得话题类别相似的候选话题簇聚为一类,从而准确得到若干个话题簇,进而实现准确得到各话题簇的标签。
附图说明
[0042]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0043]图1是本专利技术提供的标签提取方法的流程示意图;
[0044]图2是本专利技术提供的标签提取方法中步骤110的实施方式的流程示意图;
[0045]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签提取方法,其特征在于,包括:基于样本文本之间的语义相似度,确定多个候选话题簇;基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。2.根据权利要求1所述的标签提取方法,其特征在于,所述样本文本包括携带话题类别标签的第一样本文本和未携带话题类别标签的第二样本文本;所述基于样本文本之间的语义相似度,确定多个候选话题簇,包括:基于所述第一样本文本携带的话题类别标签,确定多个初始话题簇,所述初始话题簇的数量基于所述话题类别标签的种类数量确定;基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新所述多个初始话题簇,得到所述多个候选话题簇。3.根据权利要求2所述的标签提取方法,其特征在于,所述基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新所述多个初始话题簇,得到所述多个候选话题簇,包括:基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,确定所述第二样本文本与各初始话题簇之间的平均语义相似度;在所述平均语义相似度大于阈值的情况下,将所述第二样本文本添加至对应的初始话题簇,以更新对应的初始话题簇;在所述平均语义相似度小于等于所述阈值的情况,基于所述第二样本文本构建新增的初始话题簇;将更新完成的初始话题簇确定为候选话题簇。4.根据权利要求1所述的标签提取方法,其特征在于,所述基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇,包括:基于各候选话题簇的关键词语义,确定各候选话题簇的语义表示;基于各候选话题簇的语义表示,确定各候选话题簇之间的语义相似度,并基于各候选话题簇之间的语义相似度对各候选话题簇进行话题聚类,得到各话题簇。5.根据权利要求4所述的标签提取方法,其特征在于,所述基于各候选话题簇的关键词语义,确定各候选话题簇的语义表示,包括:基于各候选话题簇中各分词的出现频次,确定各候选话题簇的关键词;基于分词权重,...

【专利技术属性】
技术研发人员:谭昶洪源陈士星张友国吕军胡少云刘江刘芳范磊
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1