基于语义相似模型的标签生成方法、系统、装置和介质制造方法及图纸

技术编号：33333759 阅读：58 留言：0更新日期：2022-05-08 09:15

本申请涉及一种基于语义相似模型的标签生成方法、系统、装置和介质，其中，该方法包括：将待标注文本进行分词得到若干文本词汇，并计算其词向量；对文本词汇进行层次聚类，得到预设个数的词簇集合；根据词簇集合中文本词汇的词向量，计算词簇集合的中心点向量；根据中心点向量和词簇集合中文本词汇的词向量，从词向量中得出各个词簇集合的核心语义关键词；分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离，生成待标注文本的标签，通过本申请，解决了文本标签生成不灵活、可扩展性差的问题，兼顾了模型准确率与模型预测时间之间的平衡，实现了较强的可扩展性，能覆盖到较广范围的具体项目的实际应用中。到较广范围的具体项目的实际应用中。到较广范围的具体项目的实际应用中。

全部详细技术资料下载

【技术实现步骤摘要】
基于语义相似模型的标签生成方法、系统、装置和介质

[0001]本申请涉及自然语言处理领域，特别是涉及一种基于语义相似模型的标签生成方法、系统、装置和介质。

技术介绍

[0002]文本标签生成技术主要是应用于文本分类或者为文本打上相应的标签，该技术的实现一般基于关键词规则匹配与机器学习模型。
[0003]目前，一般关键词规则匹配使用范围窄，可扩展性差；同时，一般机器学习模型的标签生成准确率与模型预测时间需要平衡，以及需要考虑到使用范围的扩展性。本专利技术的目的是解决上述两个问题，本专利技术平衡了标签生成的准确率与模型预测时间，具有使用范围广，可扩展性强的特点。
[0004]目前针对相关技术中文本标签生成不灵活、可扩展性差的问题，尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种基于语义相似模型的标签生成方法、系统、装置和介质，以至少解决相关技术中文本标签生成不灵活、可扩展性差的问题。
[0006]第一方面，本申请实施例提供了一种基于语义相似模型的标签生成方法，所述方法包括：将待标注文本进行分词，得到若干文本词汇，计算所述文本词汇的词向量；初始化设置所述文本词汇为若干初始集合，根据所述文本词汇的词向量，搜寻距离最近的两个初始集合进行聚类合并，得到若干词簇集合，继续将所述初始集合和所述词簇集合进行所述聚类合并，直至得到预设个数的词簇集合；根据词簇集合中文本词汇的词向量，计算所述词簇集合的中心点向量；根据所述中心点向量和词簇集合中文本词汇的词向量，从所述词向量中...

【技术保护点】

【技术特征摘要】
1.一种基于语义相似模型的标签生成方法，其特征在于，所述方法包括：将待标注文本进行分词，得到若干文本词汇，计算所述文本词汇的词向量；初始化设置所述文本词汇为若干初始集合，根据所述文本词汇的词向量，搜寻距离最近的两个初始集合进行聚类合并，得到若干词簇集合，继续将所述初始集合和所述词簇集合进行所述聚类合并，直至得到预设个数的词簇集合；根据词簇集合中文本词汇的词向量，计算所述词簇集合的中心点向量；根据所述中心点向量和词簇集合中文本词汇的词向量，从所述词向量中得出各个词簇集合的核心语义关键词；分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离，生成所述待标注文本的标签。2.根据权利要求1所述的方法，其特征在于，根据所述中心点向量和词簇集合中文本词汇的词向量，从所述词向量中得出各个词簇集合的核心语义关键词包括：通过算法公式从所述词向量中计算出各个词簇集合的核心语义关键词V_SELECT，其中，V_CENTER为词簇集合的中心点向量，Vl为所述词簇集合中第l个文本词汇的词向量，Wi为词向量第i维的数值，N为词向量的维度，L为所述词簇集合中的文本词汇个数；Min表示取最小值。3.根据权利要求1所述的方法，其特征在于，根据词簇集合中文本词汇的词向量，计算所述词簇集合的中心点向量包括：通过算法公式计算出所述词簇集合的中心点向量V_CENTER，其中，Vi为所述词簇集合中第i个文本词汇的词向量，Wj为词向量第j维的数值，N为词向量的维度，L为所述词簇集合中的文本词汇个数。4.根据权利要求1所述的方法，其特征在于，分别计算所述核心语义关键词与预设标签列表中各个标签分类词的相似距离包括：通过算法公式计算出所述核心语义关键词与预设标签列表中标签分类词的相似距离，其中，Vl为所述待标注文本中第l个核心语义关键词的词向量，V_LABEL_j为预设标签列表中第j个标签分类词的词向量，Wi为词向量第i维的数值，N为词向量的维度，K为所述核心语义关键词的个数。5...

【专利技术属性】
技术研发人员：周泽伟，杨红飞，程东，
申请(专利权)人：杭州费尔斯通科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人