基于深度学习的新闻文本分类方法技术

技术编号：41655759 阅读：24 留言：0更新日期：2024-06-14 15:18

本发明专利技术涉及文本分类技术领域，具体涉及基于深度学习的新闻文本分类方法，该方法包括：获取各篇新闻文本中各词的词向量及词性标签，获取新闻文本各句子中各词的结构优先指数及语义核心度，结合结构优先指数及语义核心度得到各句子中各词的分类依仗性权重，获取各句子中各词的依存核心指数及文本语境匹配指数，获取各篇新闻文本的核心词典，获取核心词典中各词的综合文本语境匹配指数，根据综合文本语境匹配指数得到各篇新闻文本的全文语法特征向量，结合深度学习文本分类模型完成新闻文本分类。本发明专利技术旨在提高新闻文本分类的准确率与可靠性，实现基于深度学习的新闻文本的精确分类。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本分类，具体涉及基于深度学习的新闻文本分类方法。

技术介绍

1、近些年，深度学习的热度不断增加，通过深度学习技术对新闻文本进行分类是自然语言处理领域中较为常见的任务。主要通过深度学习模型，将大量的新闻文本按照内容或主题进行分类。以便帮助用户更快捷的找到需要的新闻内容，提高信息检索的效率。同时还可以通过对海量新闻文本信息进行有效的整理和分析，从而帮助各组织单位对社会舆论和新闻事件进行监控。

2、对于新闻文本分类，常规技术通常包括文本预处理、文本特征提取、模型选择、训练分类模型、模型评估和应用等步骤。但是，新闻文本相较于普通文本，其中往往包含大量的隐含信息和复杂的语义结构，传统的深度学习方法可能无法准确有效地捕捉到文本之间的语义关系。

技术实现思路

1、为了解决上述技术问题，本专利技术提供基于深度学习的新闻文本分类方法，以解决现有的问题。

2、本专利技术的基于深度学习的新闻文本分类方法采用如下技术方案：

3、本专利技术一个实施例提供了基于深度学习的新闻文本分类方法，该方法包括以下步骤：

4、获取新闻文本数据集的各篇新闻文本中各词的词向量及词性标签；根据新闻文本各句子中的词性及各词在句子中的位置得到各句子中各词的结构优先指数；根据新闻文本各句子中各词的词向量与句子中所有词向量间的关系得到各句子中各词的语义核心度；

5、结合各句子中各词的结构优先指数、语义核心度及与句子中各名词的位置关系得到各句子中各词的分类依仗性

6、根据各句子中各词的文本语境匹配指数得到核心词典中各词的综合文本语境匹配指数；结合核心词典中各词的综合文本语境匹配指数及词向量得到各篇新闻文本的全文语法特征向量；结合各篇新闻文本的全文语法特征向量及文本分类模型完成新闻文本分类。

7、优选的，所述根据新闻文本各句子中的词性及各词在句子中的位置得到各句子中各词的结构优先指数，包括：

8、针对各句子，将句子中的各词按照在句子中出现的顺序依次从1开始标记，得到各词在句子中的标号，将所述标号作为句子中各词的位置，计算各句子中包含词性标签的种类数与句子中总词数的比值，计算所述比值与句子中包含词性标签的种类数的和值，将所述和值与句子中各词的位置的比值作为各句子中各词的结构优先指数。

9、优选的，所述根据新闻文本各句子中各词的词向量与句子中所有词向量间的关系得到各句子中各词的语义核心度，包括：

10、计算各句子中所有词的词向量的均值，将各句子中各词的词向量与对应句子的所述均值的余弦相似度作为各句子中各词的语义核心度。

11、优选的，所述结合各句子中各词的结构优先指数、语义核心度及与句子中各名词的位置关系得到各句子中各词的分类依仗性权重，包括：

12、计算各句子中第i个词的结构优先指数、语义核心度及第i个词所处句子中包含名词的数量的乘积，计算各句子中第i个词与第i个词所处句子中各名词的位置的差值绝对值，计算各句子中第i个词的所有所述差值绝对值的和值，计算所述和值与预设大于0的参数调控因子的求和结果，将各句子中第i个词的所述乘积与所述求和结果的比值作为各句子中第i个词的分类依仗性权重。

13、优选的，所述根据各句子中任一词与其他词间的依存关系得到各句子中所述任一词的依存核心指数，包括：

14、利用中文句法依存分析模型获取各句子的句法依存树，将各句子的句法依存树的根节点作为各句子的依存核心词，计算各句子中第i个词与第i个词所处句子的依存核心词的位置的差值绝对值，统计各句子中第i个词与第i个词所处句子中其他各词是否存在依存关系，若存在依存关系，标记值为1，否则，标记值为0，计算所有标记值的和值，记为第一和值，计算所述第一和值与1的和值，记为第二和值，将所述第二和值与所述差值绝对值的比值作为各句子中第i个词的依存核心指数。

15、优选的，所述结合各句子中各词的分类依仗性权重及依存核心指数得到各句子中各词的文本语境匹配指数，包括：

16、计算各句子中各词在新闻文本数据集中的tf-idf值，将各句子中各词的分类依仗性权重、所述tf-idf值及依存核心指数的乘积作为各句子中各词的文本语境匹配指数。

17、优选的，所述根据新闻文本中的词频信息获取新闻文本的核心词典，包括：

18、将各篇新闻文本中所有词的词频降序排列，将排列后前预设数值的词作为各篇新闻文本的核心词典。

19、优选的，所述根据各句子中各词的文本语境匹配指数得到核心词典中各词的综合文本语境匹配指数，包括：

20、将核心词典中各词在对应新闻文本所有句子中的文本语境匹配指数的均值作为核心词典中各词的综合文本语境匹配指数。

21、优选的，所述结合核心词典中各词的综合文本语境匹配指数及词向量得到各篇新闻文本的全文语法特征向量，包括：

22、计算各篇新闻文本的核心词典中各词的词向量与综合文本语境匹配指数的乘积，将各篇新闻文本的核心词典中所有词的所述乘积的均值作为各篇新闻文本的全文语法特征向量。

23、优选的，所述结合各篇新闻文本的全文语法特征向量及文本分类模型完成新闻文本分类，包括：

24、将各篇新闻文本作为文本分类模型的输入，在文本分类模型提取到各篇新闻文本的特征向量后，将对应新闻文本的全文语法特征向量与特征向量进行前后连接，文本分类模型的输出为各篇新闻文本的所属类别。

25、本专利技术至少具有如下有益效果：

26、本专利技术通过分析新闻文本的语法结构，表示新闻文本的语法特征，利用新闻文本中各词的词向量以及词性标签构建各词的分类依仗性权重，反映了新闻文本中各词的重要程度，然后结合依存句法分析，构建新闻文本中每个词的文本语境匹配指数，反映了新闻文本中词与词之间的语义关系，进一步，通过文本语境匹配指数构建各篇新闻文本的全文语法特征向量，使得全文语法特征向量充分表征了新闻文本的语义特征，最后结合深度学习文本分类模型对新闻文本进行分类，提取新闻文本的隐含特征，提高新闻文本分类的准确性与可靠性，避免深度学习模型由于训练偏差造成新闻文本分类错误的问题。

本文档来自技高网...

【技术保护点】

1.基于深度学习的新闻文本分类方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于深度学习的新闻文本分类方法，其特征在于，所述根据新闻文本各句子中的词性及各词在句子中的位置得到各句子中各词的结构优先指数，包括：

3.根据权利要求1所述的基于深度学习的新闻文本分类方法，其特征在于，所述根据新闻文本各句子中各词的词向量与句子中所有词向量间的关系得到各句子中各词的语义核心度，包括：

4.根据权利要求2所述的基于深度学习的新闻文本分类方法，其特征在于，所述结合各句子中各词的结构优先指数、语义核心度及与句子中各名词的位置关系得到各句子中各词的分类依仗性权重，包括：

5.根据权利要求2所述的基于深度学习的新闻文本分类方法，其特征在于，所述根据各句子中任一词与其他词间的依存关系得到各句子中所述任一词的依存核心指数，包括：

6.根据权利要求1所述的基于深度学习的新闻文本分类方法，其特征在于，所述结合各句子中各词的分类依仗性权重及依存核心指数得到各句子中各词的文本语境匹配指数，包括：

7.根据权利要求1所述的基

8.根据权利要求1所述的基于深度学习的新闻文本分类方法，其特征在于，所述根据各句子中各词的文本语境匹配指数得到核心词典中各词的综合文本语境匹配指数，包括：

9.根据权利要求1所述的基于深度学习的新闻文本分类方法，其特征在于，所述结合核心词典中各词的综合文本语境匹配指数及词向量得到各篇新闻文本的全文语法特征向量，包括：

10.根据权利要求1所述的基于深度学习的新闻文本分类方法，其特征在于，所述结合各篇新闻文本的全文语法特征向量及文本分类模型完成新闻文本分类，包括：

...

【技术特征摘要】

1.基于深度学习的新闻文本分类方法，其特征在于，该方法包括以下步骤：

6.根...

【专利技术属性】
技术研发人员：魏新玉，李慧颖，柳明，谭申远，闫宇，
申请(专利权)人：河南工程学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人