一种基于多源特征的文本分类方法、终端设备及存储介质技术

技术编号:33344621 阅读:15 留言:0更新日期:2022-05-08 09:36
本发明专利技术涉及一种基于多源特征的文本分类方法、终端设备及存储介质,该方法中包括:S1:接收文本并分词;S2:通过在LSTM网络中添加自注意力机制的方式,获取词注意力权重矩阵和字注意力权重矩阵;S3:构建关键词表,基于分词结果,从关键词表中查找核心关键词表;S4:采用N种关键词提取算法提取得到N个候选关键词表;S5:基于词注意力权重矩阵和字注意力权重矩阵,根据候选关键词表得到拓展关键词表和拓展关键字表;S6:将核心关键词表、拓展关键词表和拓展关键字表中的所有字和词作为关键词和关键字;S7:对关键词和关键字进行特征提取;S8:基于提取的特征,通过分类网络对文本的类别进行预测。本发明专利技术提高文本分类的准确率。本发明专利技术提高文本分类的准确率。本发明专利技术提高文本分类的准确率。

【技术实现步骤摘要】
一种基于多源特征的文本分类方法、终端设备及存储介质


[0001]本专利技术涉及文本分类领域,尤其涉及一种基于多源特征的文本分类方法、终端设备及存储介质。

技术介绍

[0002]近年来移动互联网发展飞速,截止2020年12月,中国网民的规模已达到9.89亿,其中手机网民占比为99.7%,即时通信类APP占手机网民的99.2%。以QQ、微信为代表的通讯软件已成为多数人日常工作和生活中不可或缺的一部分,同时也成为不法分子发布虚假消息、进行网络非法行为的工具。在电子取证领域,从手机中挖掘关键词,并对关键话题快速进行智能归类,为案件的侦破带来关键进展。
[0003]聊天话题的多样性、数据复杂性,聊天文本中口语化严重,不良信息专业术语众多,同时也充斥着影响基于多源特征的文本分类效果的噪声词汇,词汇信息的高度稀疏导致文本信息的挖掘面临巨大挑战。首先,单一的关键词抽取方法存在弊端,无法高效的从特定领域提取关键词,缺少对关键词的拓展;此外,关键词抽取作为文本挖掘领域的一项重要应用,包含一定的语义信息,对文本理解具有指导作用,现有使用字符的基于多源特征的文本分类方法,缺少对关键词汇信息的使用;再者,已有的基于多源特征的文本分类方法使用文本中的所有词汇做特征,存在噪声问题和特征冗余现象。
[0004]现有的关键词抽取和基于多源特征的文本分类存在以下不足:
[0005](1)传统方法关键词抽取方法有:LDA主题模型、TF

IDF、TextRank等以及基于这些方法的改进,针对长度较长的文本,基于传统统计学习的关键词提取方法存在较大噪声。传统关键词抽取方式单一,导致关键词抽取受限,尤其针对专业领域关键词抽取能力有限。
[0006](2)基于深度学习的特征提取方法有:融合LSTM和LDA的方法,该方法虽然基于训练的词嵌入方式能够获取很好的关键词抽取结果,但是每个词汇对基于多源特征的文本分类的贡献度并不等价,存在词汇特征冗余问题。基于注意力机制方法和多元特征融合方法关键词抽取,虽然在一定程度上弥补了单一词源对关键词抽取的缺陷,但是获取的关键词有限。
[0007](3)基于单一词源或基于字符特征的基于多源特征的文本分类方法无法同时获取多维度特征:基于词汇特征的基于多源特征的文本分类方法已经具备一定的特征捕捉和语义理解能力;基于字符嵌入的基于多源特征的文本分类方法,能极大缩小字典的长度降低运算成本,提高运算效率,但是缺少语义方面的信息。

技术实现思路

[0008]为了解决上述问题,本专利技术提出了一种基于多源特征的文本分类方法、终端设备及存储介质。
[0009]具体方案如下:
[0010]一种基于多源特征的文本分类方法,包括以下步骤:
[0011]S1:接收待分析文本,并对其进行分词处理;
[0012]S2:通过在LSTM网络中添加自注意力机制的方式,获取待分析文本中各词的词注意力权重矩阵M
word
和各字的字注意力权重矩阵M
char

[0013]S3:构建待分析文本对应领域的关键词表,基于待分析文本的分词结果,从关键词表中查找待分析文本对应的核心关键词表V
core

[0014]S4:采用N种关键词提取算法分别从待分析文本分词后的各词中提取关键词,组成N个候选关键词表;
[0015]S5:基于词注意力权重矩阵M
word
和字注意力权重矩阵M
char
,根据候选关键词表得到拓展关键词表W
word

expend
和拓展关键字表W
char

expend

[0016]S6:将核心关键词表V
core
、拓展关键词表W
word

expend
和拓展关键字表W
char

expend
中的所有字和词作为待分析文本的关键词和关键字;
[0017]S7:分别提取每个关键词的词特征和每个关键字的字特征,并将所有词特征和字特征进行融合后作为待分析文本的特征;
[0018]S8:基于待分析文本的特征,通过分类网络对待分析文本的类别进行预测。
[0019]进一步的,步骤S1中还包括对接收的待分析文本进行预处理,以去除其中的影响分类结果的字或词。
[0020]进一步的,预处理包括数据清洗和去停用词。
[0021]进一步的,N种关键词提取算法包括三种,分别为LDA算法、TextRank算法和TF

IDF算法。
[0022]进一步的,步骤S5具体包括以下步骤:
[0023]S51:从词注意力权重矩阵M
word
中获取每个词对应的最大权重组成词权重向量m
word
,从字注意力权重矩阵M
char
中获取每个字对应的最大权重组成字权重向量m
char

[0024]S52:按照权重大小对词权重向量m
word
中的各词进行排序,按照权重大小对字权重向量m
char
中的各字进行排序;
[0025]S53:提取词权重向量m
word
中的前K个词组成拓展词汇表,根据拓展词汇表分别对N个候选关键词表中的各词进行过滤,当候选关键词表中的词存在于拓展词汇表中时,将该词添加至拓展关键词表W
word

expend
内;
[0026]S54:提取字权重向量m
char
中的前K个词组成拓展字表,根据拓展字表分别对N个候选关键字表中的各词进行过滤,当候选关键字表中的字存在于拓展字表中时,将该字添加至拓展关键字表W
char

expend
内。
[0027]一种基于多源特征的文本分类终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0028]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0029]本专利技术采用如上技术方案,并具有有益效果:
[0030]1.可以根据不同的专业知识领域知识抽取直接决定文本类别的核心关键词汇;
[0031]2.通过多个现有关键词提取算法获取候选关键词,并通过训练得到的注意力权重构建的关键词抽取器,从获选关键词中进一步提取拓展关键词,有效的提升了关键词抽取
的能力,减少噪声干扰;
[0032]3.可以解决字符特征语义信息的不足,同时只将核心关键词和拓展关键词作为词汇特征融合到文本特征中,缓解了词汇特征的冗余,提高文本分类的性能;
[0033]4.提出的基于关键词的增强本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源特征的文本分类方法,其特征在于,包括以下步骤:S1:接收待分析文本,并对其进行分词处理;S2:通过在LSTM网络中添加自注意力机制的方式,获取待分析文本中各词的词注意力权重矩阵M
word
和各字的字注意力权重矩阵M
char
;S3:构建待分析文本对应领域的关键词表,基于待分析文本的分词结果,从关键词表中查找待分析文本对应的核心关键词表V
core
;S4:采用N种关键词提取算法分别从待分析文本分词后的各词中提取关键词,组成N个候选关键词表;S5:基于词注意力权重矩阵M
word
和字注意力权重矩阵M
char
,根据候选关键词表得到拓展关键词表W
word

expend
和拓展关键字表W
char

expend
;S6:将核心关键词表V
core
、拓展关键词表W
word

expend
和拓展关键字表W
char

expend
中的所有字和词作为待分析文本的关键词和关键字;S7:分别提取每个关键词的词特征和每个关键字的字特征,并将所有词特征和字特征进行融合后作为待分析文本的特征;S8:基于待分析文本的特征,通过分类网络对待分析文本的类别进行预测。2.根据权利要求1所述的基于多源特征的文本分类方法,其特征在于:步骤S1中还包括对接收的待分析文本进行预处理,以去除其中的影响分类结果的字或词。3.根据权利要求2所述的基于多源特征的文本分类方法,其特征在于:预处理包括数据清洗和去停用词。4.根据权利要求1所述的基于多源特征的文本...

【专利技术属性】
技术研发人员:刘晓芳杜新胜陈志明赵建强庄灿波
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1