基于降噪邻域聚合的文本细粒度类别发现方法及相关装置制造方法及图纸

技术编号:39735722 阅读:15 留言:0更新日期:2023-12-17 23:37
本发明专利技术属于自然语言处理领域,公开了一种基于降噪邻域聚合的文本细粒度类别发现方法及相关装置,包括:迭代更新步骤预设次数,将最终的文本特征提取器作为优化文本特征提取器;采用优化文本特征提取器依次提取各文本的特征,得到若干优化文本特征;并将若干优化文本特征进行聚类得到若干聚类簇,以及获取各聚类簇的簇标签并将各聚类簇的簇标签作为各聚类簇中各文本的细粒度类别

【技术实现步骤摘要】
基于降噪邻域聚合的文本细粒度类别发现方法及相关装置


[0001]本专利技术属于自然语言处理领域,涉及一种基于降噪邻域聚合的文本细粒度类别发现方法及相关装置


技术介绍

[0002]细粒度类别发现主要用于对文本的细粒度分析

由于文本的细粒度标签的获取成本相对较高,标签的质量也相对较差,因此,细粒度类别发现旨在利用相对容易获取的粗粒度标签
(
如运动
)
作为监督信号,通过表示学习和聚类的方式自动地发现文本所属的潜在的细粒度类别
(
如篮球
)
,达到降低标注成本的目的

[0003]现阶段,细粒度类别发现模型都是基于单个文本的对比学习来对输入文本的特征进行建模

比如,有学者利用了预训练语言模型的层次化建模特征以及加权自对比学习来调控样本的特征表示,从而使得不同的细粒度类别间具有可区分性

有学者利用了粗粒度分类器中包含的先验信息作为约束来调整输入样本的特征表示

还有学者则利用细粒度类别的标签名称为输入样本生成伪标签,并使用自训练的方法对输入样本的特征表示进行学习

[0004]尽管上述方法在细粒度类别发现任务中都取得了不错的效果,但其仍存在如下的缺点:上述方法仅仅关注了单个文本的特征表示学习,而忽略了对多个文本间的语义特征关系进行建模,这使得上述方法无法学习到文本间的相对关系以及紧凑的细粒度类别表示,导致不同的细粒度类别间的可区分性较差,从而影响最终聚类的性能,最终导致文本不能准确的划分到正确的细粒度类别


技术实现思路

[0005]本专利技术的目的在于克服上述现有技术的缺点,提供一种基于降噪邻域聚合的文本细粒度类别发现方法及相关装置

[0006]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0007]本专利技术第一方面,提供一种基于降噪邻域聚合的文本细粒度类别发现方法,包括:
[0008]迭代更新步骤预设次数,将最终的文本特征提取器作为优化文本特征提取器;
[0009]采用优化文本特征提取器依次提取各文本的特征,得到若干优化文本特征;并将若干优化文本特征进行聚类得到若干聚类簇,以及获取各聚类簇的簇标签并将各聚类簇的簇标签作为各聚类簇中各文本的细粒度类别;
[0010]其中,更新步骤包括:
[0011]通过动量特征提取器提取所有文本的动量特征,得到动量集合;以及使用文本特征提取器依次提取各文本的特征,得到若干文本特征;
[0012]遍历各文本特征,从动量集合中选取与当前文本特征相似度前预设数量高的动量特征并组合,得到各文本特征的初始近邻集合;利用粗粒度标签约束过滤初始近邻集合中与文本特征具有不同粗粒度标签的动量特征,得到各文本特征的一次过滤近邻集合;利用
互为近邻约束过滤一次过滤近邻集合中与文本特征不是互为近邻的动量特征,得到各文本特征的二次过滤近邻集合;利用排序统计量约束过滤二次过滤近邻集合中与文本特征对应的文本的
n
阶排序统计量不同的动量特征,得到各文本特征的最终近邻集合;其中,
n
为排序统计量的阶数;
[0013]根据动量集合和各文本特征的最终近邻集合,使用多正样本对比学习更新文本特征提取器的参数以及动量特征提取器的参数

[0014]可选的,所述从动量集合中选取与当前文本特征相似度前预设数量高的动量特征包括:
[0015]通过下式得到当前文本特征与动量集合中各动特征之间的相似度:
[0016][0017]其中,
sim(q
i
,h
l
)

q
i

h
l
之间的相似度,
sim
表示余弦相似度函数,
q
i
为第
i
个文本的文本特征,
h
l
为第
l
个文本的动量特征,
||||
表示
L2
归一化操作,
T
表示向量的转置;
[0018]根据当前文本特征与动量集合中各动特征之间的相似度,从动量集合中选取与当前文本特征相似度前预设数量高的动量特征

[0019]可选的,所述利用粗粒度标签约束过滤初始近邻集合中与文本特征具有不同粗粒度标签的动量特征包括:
[0020]通过下式过滤初始近邻集合中与文本特征具有不同粗粒度标签的动量特征:
[0021][0022]其中,为第
i
个文本的文本特征的一次过滤近邻集合,
h
j
为第
j
个文本的动量特征,为第
i
个文本的文本特征的初始近邻集合,
c
i
为第
i
个文本的文本特征的粗粒度标签,
c
j
为第
j
个文本的动量特征的粗粒度标签,

符号表示元素属于某个集合,

符号表示两个集合的交集;
[0023]所述利用互为近邻约束过滤一次过滤近邻集合中与文本特征不是互为近邻的动量特征,得到各文本特征的二次过滤近邻集合包括:
[0024]通过下式过滤一次过滤近邻集合中与文本特征不是互为近邻的动量特征:
[0025][0026]其中,为第
i
个文本的文本特征的二次过滤近邻集合,
h
i
为第
i
个文本的动量特征,为第
j
个文本的文本特征的一次过滤近邻集合;
[0027]所述利用排序统计量约束过滤二次过滤近邻集合中与文本特征对应的文本的
n
阶排序统计量不同的动量特征包括:
[0028]通过下式过滤二次过滤近邻集合中与文本特征对应的文本的
n
阶排序统计量不同的动量特征:
[0029][0030]其中,为第
i
个文本的文本特征的最终近邻集合,
top
n

n
阶排序统计量函数,
n
阶排序统计量函数用于返回输入特征最大的
n
维元素对应的索引序号

[0031]可选的,所述根据动量集合和各文本特征的最终近邻集合,更新文本特征提取器的参数以及动量特征提取器的参数包括:
[0032]采用多正样本对比学习作为自监督损失函数,遍历各文本特征,将当前文本特征的最终近邻集合中的全部动量特征作为正文本,以及将动量集合中的全部动量特征作为负文本进行对比学习,使用反向传播算法更新文本特征提取器的参数,并使用指数平均移动的方式来更新动量特征提取器的参数

[0033]可选的,所述自监督损失函数具体为:...

【技术保护点】

【技术特征摘要】
1.
一种基于降噪邻域聚合的文本细粒度类别发现方法,其特征在于,包括:迭代更新步骤预设次数,将最终的文本特征提取器作为优化文本特征提取器;采用优化文本特征提取器依次提取各文本的特征,得到若干优化文本特征;并将若干优化文本特征进行聚类得到若干聚类簇,以及获取各聚类簇的簇标签并将各聚类簇的簇标签作为各聚类簇中各文本的细粒度类别;其中,更新步骤包括:通过动量特征提取器提取所有文本的动量特征,得到动量集合;以及使用文本特征提取器依次提取各文本的特征,得到若干文本特征;遍历各文本特征,从动量集合中选取与当前文本特征相似度前预设数量高的动量特征并组合,得到各文本特征的初始近邻集合;利用粗粒度标签约束过滤初始近邻集合中与文本特征具有不同粗粒度标签的动量特征,得到各文本特征的一次过滤近邻集合;利用互为近邻约束过滤一次过滤近邻集合中与文本特征不是互为近邻的动量特征,得到各文本特征的二次过滤近邻集合;利用排序统计量约束过滤二次过滤近邻集合中与文本特征对应的文本的
n
阶排序统计量不同的动量特征,得到各文本特征的最终近邻集合;其中,
n
为排序统计量的阶数;根据动量集合和各文本特征的最终近邻集合,使用多正样本对比学习更新文本特征提取器的参数以及动量特征提取器的参数
。2.
根据权利要求1所述的基于降噪邻域聚合的文本细粒度类别发现方法,其特征在于,所述从动量集合中选取与当前文本特征相似度前预设数量高的动量特征包括:通过下式得到当前文本特征与动量集合中各动特征之间的相似度:其中,
sim(q
i
,h
l
)

q
i

h
l
之间的相似度,
sim
表示余弦相似度函数,
q
i
为第
i
个文本的文本特征,
h
l
为第
l
个文本的动量特征,
||||
表示
L2
归一化操作,
T
表示向量的转置;根据当前文本特征与动量集合中各动特征之间的相似度,从动量集合中选取与当前文本特征相似度前预设数量高的动量特征
。3.
根据权利要求1所述的基于降噪邻域聚合的文本细粒度类别发现方法,其特征在于,所述利用粗粒度标签约束过滤初始近邻集合中与文本特征具有不同粗粒度标签的动量特征包括:通过下式过滤初始近邻集合中与文本特征具有不同粗粒度标签的动量特征:其中,为第
i
个文本的文本特征的一次过滤近邻集合,
h
j
为第
j
个文本的动量特征,为第
i
个文本的文本特征的初始近邻集合,
c
i
为第
i
个文本的文本特征的粗粒度标签,
c
j
为第
j
个文本的动量特征的粗粒度标签,

符号表示元素属于某个集合,

符号表示两个集合的交集;所述利用互为近邻约束过滤一次过滤近邻集合中与文本特征不是互为近邻的动量特征,得到各文本特征的二次过滤近邻集合包括:
通过下式过滤一次过滤近邻集合中与文本特征不是互为近邻的动量特征:其中,为第
i
个文本的文本特征的二次过滤近邻集合,
h
i
为第
i
个文本的动量特征,为第
j
个文本的文本特征的一次过滤近邻集合;所述利用排序统计量约束过滤二次过滤近邻集合中与文本特征对应的文本的
n
阶排序统计量不同的动量特征包括:通过下式过滤二次过滤近邻集合中与文本特征对应的文本的
n
阶排序统计量不同的动量特征:其中,为第
i
个文本的文本特征的最终近邻集合,
top
n

n
阶排序统计量函数,
n
阶排序统计量函数用于返回输入特征最大的
...

【专利技术属性】
技术研发人员:田锋安文斌施文楷陈妍武亚强
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1