基于语义相似模型的标签生成方法、系统、装置和介质制造方法及图纸

技术编号:33333759 阅读:58 留言:0更新日期:2022-05-08 09:15
本申请涉及一种基于语义相似模型的标签生成方法、系统、装置和介质,其中,该方法包括:将待标注文本进行分词得到若干文本词汇,并计算其词向量;对文本词汇进行层次聚类,得到预设个数的词簇集合;根据词簇集合中文本词汇的词向量,计算词簇集合的中心点向量;根据中心点向量和词簇集合中文本词汇的词向量,从词向量中得出各个词簇集合的核心语义关键词;分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成待标注文本的标签,通过本申请,解决了文本标签生成不灵活、可扩展性差的问题,兼顾了模型准确率与模型预测时间之间的平衡,实现了较强的可扩展性,能覆盖到较广范围的具体项目的实际应用中。到较广范围的具体项目的实际应用中。到较广范围的具体项目的实际应用中。

【技术实现步骤摘要】
基于语义相似模型的标签生成方法、系统、装置和介质


[0001]本申请涉及自然语言处理领域,特别是涉及一种基于语义相似模型的标签生成方法、系统、装置和介质。

技术介绍

[0002]文本标签生成技术主要是应用于文本分类或者为文本打上相应的标签,该技术的实现一般基于关键词规则匹配与机器学习模型。
[0003]目前,一般关键词规则匹配使用范围窄,可扩展性差;同时,一般机器学习模型的标签生成准确率与模型预测时间需要平衡,以及需要考虑到使用范围的扩展性。本专利技术的目的是解决上述两个问题,本专利技术平衡了标签生成的准确率与模型预测时间,具有使用范围广,可扩展性强的特点。
[0004]目前针对相关技术中文本标签生成不灵活、可扩展性差的问题,尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种基于语义相似模型的标签生成方法、系统、装置和介质,以至少解决相关技术中文本标签生成不灵活、可扩展性差的问题。
[0006]第一方面,本申请实施例提供了一种基于语义相似模型的标签生成方法,所述方法包括:将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词;分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成所述待标注文本的标签。
[0007]在其中一些实施例中,根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词包括:通过算法公式从所述词向量中计算出各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的中心点向量,Vl为所述词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数;Min表示取最小值。
[0008]在其中一些实施例中,根据词簇集合中文本词汇的词向量,计算所述词簇集合的
中心点向量包括:通过算法公式计算出所述词簇集合的中心点向量V_CENTER,其中,Vi为所述词簇集合中第i个文本词汇的词向量,Wj为词向量第j维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数。
[0009]在其中一些实施例中,分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离包括:通过算法公式计算出所述核心语义关键词与预设标签列表中标签分类词的相似距离,其中,Vl为所述待标注文本中第l个核心语义关键词的词向量,V_LABEL_j为预设标签列表中第j个标签分类词的词向量,Wi为词向量第i维的数值,N为词向量的维度,K为所述核心语义关键词的个数。
[0010]在其中一些实施例中,生成所述待标注文本的标签包括:依次判断所述相似距离是否小于预设阈值,若是,则将所述相似距离对应的标签分类词与所述待标注文本关联,根据所述标签分类词生成所述待标注文本的标签。
[0011]在其中一些实施例中,将待标注文本进行分词,得到若干文本词汇包括:通过预设分词工具对待标注文本进行分词,得到若干文本词汇,其中,所述预设分词工具包括THULAC分词工具和jieba分词工具。
[0012]在其中一些实施例中,计算所述文本词汇的词向量包括:通过预设词嵌入算法计算所述文本词汇的词向量,其中,所述词嵌入算法包括Word2Vec算法和BERT算法。
[0013]第二方面,本申请实施例提供了一种基于语义相似模型的标签生成系统,所述系统包括分词嵌入模块、层次聚类模块、关键词模块和标签生成模块;所述分词嵌入模块用于将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;所述层次聚类模块用于初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;所述关键词模块用于根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词;所述标签生成模块用于分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成所述待标注文本的标签。
[0014]第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于语义相似模型的标签生成方法。
[0015]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第二方面所述的基于语义相似模型的标签生成方
等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
[0023]本申请实施例提供了一种基于语义相似模型的标签生成方法,图1是根据本申请实施例的基于语义相似模型的标签生成方法的步骤流程图,如图1所示,该方法包括以下步骤:步骤S102,将待标注文本进行分词,得到若干文本词汇,计算文本词汇的词向量;具体地,通过预设分词工具对待标注文本进行分词,得到若干文本词汇,通过预设词嵌入算法计算文本词汇的词向量,其中,预设分词工具包括但不限于THULAC分词工具和jieba分词工具;词嵌入算法包括但不限于Word2Vec算法和BERT算法。
[0024]优选地,假设输入待标注文本“原神 一起去新天地冒险吧 立即下载 原神”,采用分词工具(如THULAC、jieba分词、哈工大的LTP等)得到若干文本词汇“原神 | 一起 | 去 | 新天地 | 冒险 | 吧 | 立即 | 下载 | 原神”,再通过词嵌入算法(如Bert、word2vec等)得到各个文本词汇的词向量如下:原神:[0.42469802
ꢀ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义相似模型的标签生成方法,其特征在于,所述方法包括:将待标注文本进行分词,得到若干文本词汇,计算所述文本词汇的词向量;初始化设置所述文本词汇为若干初始集合,根据所述文本词汇的词向量,搜寻距离最近的两个初始集合进行聚类合并,得到若干词簇集合,继续将所述初始集合和所述词簇集合进行所述聚类合并,直至得到预设个数的词簇集合;根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量;根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词;分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离,生成所述待标注文本的标签。2.根据权利要求1所述的方法,其特征在于,根据所述中心点向量和词簇集合中文本词汇的词向量,从所述词向量中得出各个词簇集合的核心语义关键词包括:通过算法公式从所述词向量中计算出各个词簇集合的核心语义关键词V_SELECT,其中,V_CENTER为词簇集合的中心点向量,Vl为所述词簇集合中第l个文本词汇的词向量,Wi为词向量第i维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数;Min表示取最小值。3.根据权利要求1所述的方法,其特征在于,根据词簇集合中文本词汇的词向量,计算所述词簇集合的中心点向量包括:通过算法公式计算出所述词簇集合的中心点向量V_CENTER,其中,Vi为所述词簇集合中第i个文本词汇的词向量,Wj为词向量第j维的数值,N为词向量的维度,L为所述词簇集合中的文本词汇个数。4.根据权利要求1所述的方法,其特征在于,分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离包括:通过算法公式计算出所述核心语义关键词与预设标签列表中标签分类词的相似距离,其中,Vl为所述待标注文本中第l个核心语义关键词的词向量,V_LABEL_j为预设标签列表中第j个标签分类词的词向量,Wi为词向量第i维的数值,N为词向量的维度,K为所述核心语义关键词的个数。5...

【专利技术属性】
技术研发人员:周泽伟杨红飞程东
申请(专利权)人:杭州费尔斯通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1