多标签文本分类方法以及系统技术方案

技术编号：32131049 阅读：13 留言：0更新日期：2022-01-29 19:30

本发明专利技术公开了一种多标签文本分类方法以及系统，包括：S1.采集已知标签类别的文本信息；S2.根据文本的标签类别，确定文本的标签集合序列；S3.对文本各级标签下一级的所有标签进行标签重新分类处理，得到处理后的标签；S4.将处理后的标签对应的文本信息输入到网络模型进行网络训练，得到训练好的网络模型；S5.将未知标签类别的待测文本信息输入到训练好的网络模型，输出待测文本的各级标签类别。本发明专利技术能够得到分类效果更好的网络模型，实现了对多标签文本的准确分类，分类结果更加可靠。分类结果更加可靠。

全部详细技术资料下载

【技术实现步骤摘要】
多标签文本分类方法以及系统

[0001]本专利技术涉及文本分类领域，具体涉及一种多标签文本分类方法以及系统。

技术介绍

[0002]在人们生活中常常会存在一些多标签现象，比如，一个人有多个身份，如父亲、儿子、老师等，一段文字也可能属于多个种类，如人文、文化等。因此，多标签文本分类的技术被广泛于新闻分类、情感分类、舆情分析等。
[0003]文本分类是指一种有监督的文本分类过程，在获取数据后，根据文本的内容和确定的该文本的标签，对模型进行训练；之后应用模型对未知标签的文本进行标签预测，以获得该文本可能属于的类别。
[0004]但是多标签文本分类与早期的二分类、多分类又存在一些差异，由于多标签文本本身所具有的复杂性，增加了文本分类的难度，同级标签之间又存在一定的相似性，所以不利于模型的训练，而不同级别标签之间的相异性在达到一定程度后，同样也会影响模型的训练效果，使得现有的多标签文本分类效果差、分类准确率低、误差大。

技术实现思路

[0005]有鉴于此，本专利技术的目的是克服现有技术中的缺陷，提供多标签文本分类方法以及系统，能够得到分类效果更好的网络模型，实现了对多标签文本的准确分类，分类结果更加可靠。
[0006]本专利技术的多标签文本分类方法，包括如下步骤：
[0007]S1.采集已知标签类别的文本信息；
[0008]S2.根据文本的标签类别，确定文本的标签集合序列(L1,L2,...,L
i
,...,L
n
)；其中，L
...

【技术保护点】

【技术特征摘要】
1.一种多标签文本分类方法，其特征在于：包括如下步骤：S1.采集已知标签类别的文本信息；S2.根据文本的标签类别，确定文本的标签集合序列(L1,L2,...,L
i
,...,L
n
)；其中，L
i
为第i级标签集合，n为标签集合个数；S3.对文本各级标签下一级的所有标签进行标签重新分类处理，得到处理后的标签；S4.将处理后的标签对应的文本信息输入到网络模型进行网络训练，得到训练好的网络模型；S5.将未知标签类别的待测文本信息输入到训练好的网络模型，输出待测文本的各级标签类别。2.根据权利要求1所述的多标签文本分类方法，其特征在于：对文本各级标签下一级的所有标签进行标签重新分类处理，具体包括：S21.从标签集合L
n
‑1中获取一个标签L
n
‑
1,k
，并将标签集合L
n
‑1中除去标签L
n
‑
1,k
的剩余标签作为标签集合其中，标签L
n
‑
1,k
为标签集合L
n
‑1中的标签k；S22.计算标签L
n
‑
1,k
下所有第n级标签对应的文本分别与标签集合中每个标签对应文本的相似度，得到相似度集合S
n
‑
1,k,n
；S23.计算标签L
n
‑
1,k
对应的文本分别与标签集合中每个标签对应文本的相似度，得到相似度集合S
n
‑
1,k
；S24.判断相似度集合S
n
‑
1,k,n
中相似度的最大值是否小于相似度集合S
n
‑
1,k
中相似度的最小值，若是，则将标签L
n
‑
1,k
下所有第n级标签变更为第n
‑
1级标签；若否，则不做处理；S25.对标签集合中的所有标签分别按照步骤S21
‑
S24进行类推，实现第n
‑
1级下所有第n级标签的标签重新分类；S26.按照步骤S21
‑
S25类推，分别实现各级标签下一级所有标签的标签重新分类。3.根据权利要求1所述的多标签文本分类方法，其特征在于：所述处理后的标签对应的文本信息包括文本内容、文本标题以及文本标签等级。4.根据权利要求1所述的多标签文本分类方法，其特征在于：所述网络模型包括n个网络检...

【专利技术属性】
技术研发人员：李文怡，孔大明，张展，黄毅，
申请(专利权)人：中冶赛迪技术研究中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人