一种基于多源特征的文本分类方法、终端设备及存储介质技术

技术编号：33344621 阅读：15 留言：0更新日期：2022-05-08 09:36

本发明专利技术涉及一种基于多源特征的文本分类方法、终端设备及存储介质，该方法中包括：S1：接收文本并分词；S2：通过在LSTM网络中添加自注意力机制的方式，获取词注意力权重矩阵和字注意力权重矩阵；S3：构建关键词表，基于分词结果，从关键词表中查找核心关键词表；S4：采用N种关键词提取算法提取得到N个候选关键词表；S5：基于词注意力权重矩阵和字注意力权重矩阵，根据候选关键词表得到拓展关键词表和拓展关键字表；S6：将核心关键词表、拓展关键词表和拓展关键字表中的所有字和词作为关键词和关键字；S7：对关键词和关键字进行特征提取；S8：基于提取的特征，通过分类网络对文本的类别进行预测。本发明专利技术提高文本分类的准确率。本发明专利技术提高文本分类的准确率。本发明专利技术提高文本分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多源特征的文本分类方法、终端设备及存储介质

[0001]本专利技术涉及文本分类领域，尤其涉及一种基于多源特征的文本分类方法、终端设备及存储介质。

技术介绍

[0002]近年来移动互联网发展飞速，截止2020年12月，中国网民的规模已达到9.89亿，其中手机网民占比为99.7％，即时通信类APP占手机网民的99.2％。以QQ、微信为代表的通讯软件已成为多数人日常工作和生活中不可或缺的一部分，同时也成为不法分子发布虚假消息、进行网络非法行为的工具。在电子取证领域，从手机中挖掘关键词，并对关键话题快速进行智能归类，为案件的侦破带来关键进展。
[0003]聊天话题的多样性、数据复杂性，聊天文本中口语化严重，不良信息专业术语众多，同时也充斥着影响基于多源特征的文本分类效果的噪声词汇，词汇信息的高度稀疏导致文本信息的挖掘面临巨大挑战。首先，单一的关键词抽取方法存在弊端，无法高效的从特定领域提取关键词，缺少对关键词的拓展；此外，关键词抽取作为文本挖掘领域的一项重要应用，包含一定的语义信息，对文本理解具有指导作用，现有使用字符的基于多源特征的文本分类方法，缺少对关键词汇信息的使用；再者，已有的基于多源特征的文本分类方法使用文本中的所有词汇做特征，存在噪声问题和特征冗余现象。
[0004]现有的关键词抽取和基于多源特征的文本分类存在以下不足：
[0005](1)传统方法关键词抽取方法有：LDA主题模型、TF
‑
IDF、TextRank等以及基于这些方法的改进，针对长度较长的文本，基于传...

【技术保护点】

【技术特征摘要】
1.一种基于多源特征的文本分类方法，其特征在于，包括以下步骤：S1：接收待分析文本，并对其进行分词处理；S2：通过在LSTM网络中添加自注意力机制的方式，获取待分析文本中各词的词注意力权重矩阵M
word
和各字的字注意力权重矩阵M
char
；S3：构建待分析文本对应领域的关键词表，基于待分析文本的分词结果，从关键词表中查找待分析文本对应的核心关键词表V
core
；S4：采用N种关键词提取算法分别从待分析文本分词后的各词中提取关键词，组成N个候选关键词表；S5：基于词注意力权重矩阵M
word
和字注意力权重矩阵M
char
，根据候选关键词表得到拓展关键词表W
word
‑
expend
和拓展关键字表W
char
‑
expend
；S6：将核心关键词表V
core
、拓展关键词表W
word
‑
expend
和拓展关键字表W
char
‑
expend
中的所有字和词作为待分析文本的关键词和关键字；S7：分别提取每个关键词的词特征和每个关键字的字特征，并将所有词特征和字特征进行融合后作为待分析文本的特征；S8：基于待分析文本的特征，通过分类网络对待分析文本的类别进行预测。2.根据权利要求1所述的基于多源特征的文本分类方法，其特征在于：步骤S1中还包括对接收的待分析文本进行预处理，以去除其中的影响分类结果的字或词。3.根据权利要求2所述的基于多源特征的文本分类方法，其特征在于：预处理包括数据清洗和去停用词。4.根据权利要求1所述的基于多源特征的文本...

【专利技术属性】
技术研发人员：刘晓芳，杜新胜，陈志明，赵建强，庄灿波，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人