多标签文本分类方法以及系统技术方案

技术编号:32131049 阅读:13 留言:0更新日期:2022-01-29 19:30
本发明专利技术公开了一种多标签文本分类方法以及系统,包括:S1.采集已知标签类别的文本信息;S2.根据文本的标签类别,确定文本的标签集合序列;S3.对文本各级标签下一级的所有标签进行标签重新分类处理,得到处理后的标签;S4.将处理后的标签对应的文本信息输入到网络模型进行网络训练,得到训练好的网络模型;S5.将未知标签类别的待测文本信息输入到训练好的网络模型,输出待测文本的各级标签类别。本发明专利技术能够得到分类效果更好的网络模型,实现了对多标签文本的准确分类,分类结果更加可靠。分类结果更加可靠。

【技术实现步骤摘要】
多标签文本分类方法以及系统


[0001]本专利技术涉及文本分类领域,具体涉及一种多标签文本分类方法以及系统。

技术介绍

[0002]在人们生活中常常会存在一些多标签现象,比如,一个人有多个身份,如父亲、儿子、老师等,一段文字也可能属于多个种类,如人文、文化等。因此,多标签文本分类的技术被广泛于新闻分类、情感分类、舆情分析等。
[0003]文本分类是指一种有监督的文本分类过程,在获取数据后,根据文本的内容和确定的该文本的标签,对模型进行训练;之后应用模型对未知标签的文本进行标签预测,以获得该文本可能属于的类别。
[0004]但是多标签文本分类与早期的二分类、多分类又存在一些差异,由于多标签文本本身所具有的复杂性,增加了文本分类的难度,同级标签之间又存在一定的相似性,所以不利于模型的训练,而不同级别标签之间的相异性在达到一定程度后,同样也会影响模型的训练效果,使得现有的多标签文本分类效果差、分类准确率低、误差大。

技术实现思路

[0005]有鉴于此,本专利技术的目的是克服现有技术中的缺陷,提供多标签文本分类方法以及系统,能够得到分类效果更好的网络模型,实现了对多标签文本的准确分类,分类结果更加可靠。
[0006]本专利技术的多标签文本分类方法,包括如下步骤:
[0007]S1.采集已知标签类别的文本信息;
[0008]S2.根据文本的标签类别,确定文本的标签集合序列(L1,L2,...,L
i
,...,L
n
);其中,L
i
为第i级标签集合,n为标签集合个数;
[0009]S3.对文本各级标签下一级的所有标签进行标签重新分类处理,得到处理后的标签;
[0010]S4.将处理后的标签对应的文本信息输入到网络模型进行网络训练,得到训练好的网络模型;
[0011]S5.将未知标签类别的待测文本信息输入到训练好的网络模型,输出待测文本的各级标签类别。
[0012]进一步,对文本各级标签下一级的所有标签进行标签重新分类处理,具体包括:
[0013]S21.从标签集合L
n
‑1中获取一个标签L
n

1,k
,并将标签集合L
n
‑1中除去标签L
n

1,k
的剩余标签作为标签集合其中,标签L
n

1,k
为标签集合L
n
‑1中的标签k;
[0014]S22.计算标签L
n

1,k
下所有第n级标签对应的文本分别与标签集合中每个标签对应文本的相似度,得到相似度集合S
n

1,k,n

[0015]S23.计算标签L
n

1,k
对应的文本分别与标签集合中每个标签对应文本的相
似度,得到相似度集合S
n

1,k

[0016]S24.判断相似度集合S
n

1,k,n
中相似度的最大值是否小于相似度集合S
n

1,k
中相似度的最小值,若是,则将标签L
n

1,k
下所有第n级标签变更为第n

1级标签;若否,则不做处理;
[0017]S25.对标签集合中的所有标签分别按照步骤S21

S24进行类推,实现第n

1级下所有第n级标签的标签重新分类;
[0018]S26.按照步骤S21

S25类推,分别实现各级标签下一级所有标签的标签重新分类。
[0019]进一步,所述处理后的标签对应的文本信息包括文本内容、文本标题以及文本标签等级。
[0020]进一步,所述网络模型包括n个网络检测模型;所述n个网络检测模型分别与n级标签一一对应;所述网络检测模型用于提取相应级别标签对应的文本特征,并进行网络训练。
[0021]进一步,所述n个网络检测模型中第i

1个网络检测模型的输出与第i个网络检测模型的输入连接,第i个网络检测模型的输出与第i+1个网络检测模型的输入连接;其中,1<i<n。
[0022]进一步,根据如下公式确定所述网络模型的损失函数Loss:
[0023][0024]其中,Loss
j
为第j个网络检测模型的损失函数;λ
j
为第j个网络检测模型损失函数的权重值。
[0025]进一步,根据如下方法更新第j个网络检测模型的损失函数Loss
j

[0026]根据网络的反向传播对网络模型的损失函数Loss进行更新,得到更新后的网络模型的损失函数Loss
new

[0027]以损失函数Loss
new
作为总函数,并按照损失函数Loss
j
在总函数中的权重占比,计算得到第j个网络检测模型新的损失函数Loss
j

new

[0028]一种多标签文本分类系统,包括标签规约单元以及标签类别推断单元;
[0029]所述标签规约单元用于获取已知标签类别的文本信息,按照设定的规约,计算各标签对应文本之间的相似度,并对各级标签下一级的所有标签进行标签重新分类处理,得到处理后的标签;
[0030]所述标签类别推断单元用于接收标签规约单元输出处理后的标签对应的文本信息,并提取文本特征进行网络模型训练,得到训练好的网络模型,将未知标签类别的待测文本信息输入到训练好的网络模型,输出待测文本的各级标签类别。
[0031]进一步,所述标签规约单元包括标签获取模块、文本获取模块、文本相似度计算模块以及标签重新分类模块;
[0032]所述标签获取模块用于获取文本对应的标签类别;
[0033]所述文本获取模块用于获取已知标签类别的文本信息;
[0034]所述文本相似度计算模块用于计算各标签对应文本之间的相似度;
[0035]所述标签重新分类模块用于对满足规约的标签进行标签重新分类处理,得到处理后的标签。
[0036]进一步,所述标签类别推断单元包括文本接收模块、网络训练模块以及标签类别
输出模块;
[0037]所述文本接收模块用于接收处理后的标签对应的文本信息以及未知标签类别的待测文本信息;
[0038]所述网络训练模块用于提取处理后的标签对应文本的特征信息并进行网络训练,得到训练好的网络模型;
[0039]所述标签类别输出模块用于将未知标签类别的待测文本信息输入到训练好的网络模型,输出待测文本的各级标签类别。
[0040]本专利技术的有益效果是:本专利技术公开的一种多标签文本分类方法以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多标签文本分类方法,其特征在于:包括如下步骤:S1.采集已知标签类别的文本信息;S2.根据文本的标签类别,确定文本的标签集合序列(L1,L2,...,L
i
,...,L
n
);其中,L
i
为第i级标签集合,n为标签集合个数;S3.对文本各级标签下一级的所有标签进行标签重新分类处理,得到处理后的标签;S4.将处理后的标签对应的文本信息输入到网络模型进行网络训练,得到训练好的网络模型;S5.将未知标签类别的待测文本信息输入到训练好的网络模型,输出待测文本的各级标签类别。2.根据权利要求1所述的多标签文本分类方法,其特征在于:对文本各级标签下一级的所有标签进行标签重新分类处理,具体包括:S21.从标签集合L
n
‑1中获取一个标签L
n

1,k
,并将标签集合L
n
‑1中除去标签L
n

1,k
的剩余标签作为标签集合其中,标签L
n

1,k
为标签集合L
n
‑1中的标签k;S22.计算标签L
n

1,k
下所有第n级标签对应的文本分别与标签集合中每个标签对应文本的相似度,得到相似度集合S
n

1,k,n
;S23.计算标签L
n

1,k
对应的文本分别与标签集合中每个标签对应文本的相似度,得到相似度集合S
n

1,k
;S24.判断相似度集合S
n

1,k,n
中相似度的最大值是否小于相似度集合S
n

1,k
中相似度的最小值,若是,则将标签L
n

1,k
下所有第n级标签变更为第n

1级标签;若否,则不做处理;S25.对标签集合中的所有标签分别按照步骤S21

S24进行类推,实现第n

1级下所有第n级标签的标签重新分类;S26.按照步骤S21

S25类推,分别实现各级标签下一级所有标签的标签重新分类。3.根据权利要求1所述的多标签文本分类方法,其特征在于:所述处理后的标签对应的文本信息包括文本内容、文本标题以及文本标签等级。4.根据权利要求1所述的多标签文本分类方法,其特征在于:所述网络模型包括n个网络检...

【专利技术属性】
技术研发人员:李文怡孔大明张展黄毅
申请(专利权)人:中冶赛迪技术研究中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1