【技术实现步骤摘要】
多标签文本分类方法以及系统
[0001]本专利技术涉及文本分类领域,具体涉及一种多标签文本分类方法以及系统。
技术介绍
[0002]在人们生活中常常会存在一些多标签现象,比如,一个人有多个身份,如父亲、儿子、老师等,一段文字也可能属于多个种类,如人文、文化等。因此,多标签文本分类的技术被广泛于新闻分类、情感分类、舆情分析等。
[0003]文本分类是指一种有监督的文本分类过程,在获取数据后,根据文本的内容和确定的该文本的标签,对模型进行训练;之后应用模型对未知标签的文本进行标签预测,以获得该文本可能属于的类别。
[0004]但是多标签文本分类与早期的二分类、多分类又存在一些差异,由于多标签文本本身所具有的复杂性,增加了文本分类的难度,同级标签之间又存在一定的相似性,所以不利于模型的训练,而不同级别标签之间的相异性在达到一定程度后,同样也会影响模型的训练效果,使得现有的多标签文本分类效果差、分类准确率低、误差大。
技术实现思路
[0005]有鉴于此,本专利技术的目的是克服现有技术中的缺陷,提供多标签文本分类方法以及系统,能够得到分类效果更好的网络模型,实现了对多标签文本的准确分类,分类结果更加可靠。
[0006]本专利技术的多标签文本分类方法,包括如下步骤:
[0007]S1.采集已知标签类别的文本信息;
[0008]S2.根据文本的标签类别,确定文本的标签集合序列(L1,L2,...,L
i
,...,L
n
);其中,L
...
【技术保护点】
【技术特征摘要】
1.一种多标签文本分类方法,其特征在于:包括如下步骤:S1.采集已知标签类别的文本信息;S2.根据文本的标签类别,确定文本的标签集合序列(L1,L2,...,L
i
,...,L
n
);其中,L
i
为第i级标签集合,n为标签集合个数;S3.对文本各级标签下一级的所有标签进行标签重新分类处理,得到处理后的标签;S4.将处理后的标签对应的文本信息输入到网络模型进行网络训练,得到训练好的网络模型;S5.将未知标签类别的待测文本信息输入到训练好的网络模型,输出待测文本的各级标签类别。2.根据权利要求1所述的多标签文本分类方法,其特征在于:对文本各级标签下一级的所有标签进行标签重新分类处理,具体包括:S21.从标签集合L
n
‑1中获取一个标签L
n
‑
1,k
,并将标签集合L
n
‑1中除去标签L
n
‑
1,k
的剩余标签作为标签集合其中,标签L
n
‑
1,k
为标签集合L
n
‑1中的标签k;S22.计算标签L
n
‑
1,k
下所有第n级标签对应的文本分别与标签集合中每个标签对应文本的相似度,得到相似度集合S
n
‑
1,k,n
;S23.计算标签L
n
‑
1,k
对应的文本分别与标签集合中每个标签对应文本的相似度,得到相似度集合S
n
‑
1,k
;S24.判断相似度集合S
n
‑
1,k,n
中相似度的最大值是否小于相似度集合S
n
‑
1,k
中相似度的最小值,若是,则将标签L
n
‑
1,k
下所有第n级标签变更为第n
‑
1级标签;若否,则不做处理;S25.对标签集合中的所有标签分别按照步骤S21
‑
S24进行类推,实现第n
‑
1级下所有第n级标签的标签重新分类;S26.按照步骤S21
‑
S25类推,分别实现各级标签下一级所有标签的标签重新分类。3.根据权利要求1所述的多标签文本分类方法,其特征在于:所述处理后的标签对应的文本信息包括文本内容、文本标题以及文本标签等级。4.根据权利要求1所述的多标签文本分类方法,其特征在于:所述网络模型包括n个网络检...
【专利技术属性】
技术研发人员:李文怡,孔大明,张展,黄毅,
申请(专利权)人:中冶赛迪技术研究中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。