基于TextCNN模型的心力衰竭文本分类方法、系统及存储介质技术方案

技术编号：31627620 阅读：50 留言：0更新日期：2021-12-29 19:05

本发明专利技术涉及心力衰竭文本的分类方法领域，公开了一种基于TextCNN模型的心力衰竭文本分类方法、系统及存储介质，包括，S1：收集医学文本数据；S2：对医学文本数据进行预处理；S3：将预处理后的文本数据通过Word2vec模型和LDA模型再次进行处理，获取词向量并进行拼接；S4：将S3中拼接完的词向量放入卷积神经网络TextCNN模型中训练；S5：输出训练结果。本发明专利技术使用了卷积神经网络TextCNN模型进行心力衰竭文本分类，首先通过对获得的心衰与其他疾病的文本数据进行预处理，然后将预处理后的数据通过Word2vec模型使文本数据转换成向量，同时使用LDA模型，得到主题词向量集，将之与前期Wor2vec模型处理好的向量进行拼接，最后利用最终的向量训练卷积神经网络TextCNN模型进行训练，从而达到自动分类心衰文本的目的。从而达到自动分类心衰文本的目的。从而达到自动分类心衰文本的目的。

全部详细技术资料下载

【技术实现步骤摘要】
基于TextCNN模型的心力衰竭文本分类方法、系统及存储介质

[0001]本专利技术涉及心力衰竭文本的分类方法领域，特别涉及一种基于TextCNN模型的心力衰竭文本分类方法、系统及存储介质。

技术介绍

[0002]心力衰竭是心血管疾病的末期，是指由于心脏的收缩和舒张功能发生障碍，从而引发了一系列复杂的临床综合症状。近年来，患心力衰竭的病人数量逐年递增，使得心衰逐渐成为导致全球发病率和死亡率的重要疾病之一。
[0003]因此，在面对心力衰竭这种可以致死的疾病时，利用医学文本分类心衰从而做一个早期的诊断，对于医学研究具有重要的意义和价值，如果早期就能发现病状，从而评估病情并及时恰当地予以治疗，即可为心力衰竭早期的检测提供一种新的有效治疗方向。

技术实现思路

[0004]为了解决现有技术难以根据医学文本分类进而对心衰做一个早期的诊断的问题，本专利技术提供了一种基于TextCNN模型的心力衰竭文本分类方法、系统及存储介质。
[0005]本专利技术的
技术实现思路
如下：
[0006]一种基于TextCNN模型的心力衰竭文本分类方法，包括：
[0007]S1：收集医学文本数据；
[0008]S2：对医学文本数据进行预处理；
[0009]S3：将预处理后的文本数据通过Word2vec模型和LDA模型再次进行处理，获取词向量并进行拼接；
[0010]S4：将S3中拼接完的词向量放入卷积神经网络TextCNN模型中训练；
[0011]S5：输出训练结果。
>[0012]进一步地，所述S2的预处理包括：对文本数据去除标点符号、去除非法字符、去除数字及将所有的文本数据进行截断处理，使文本长度保持在256。
[0013]进一步地，所述S3中Word2vec模型通过词的上、下文得到词的向量化表示。
[0014]进一步地，所述Word2vec模型根据CBOW、Skip
‑
gram两种方式获取词的向量化表示。
[0015]进一步地，所述S3通过LDA模型采用词袋模型得到主题词向量集。
[0016]进一步地，所述词袋模型为三层贝叶斯概率模型，包括词、主题和文档三层结构，所述文档到主题、所述主题到词都服从多项式分布。
[0017]进一步地，所述LDA模型的生成过程包括：
[0018]对每一篇文档，从主题分布中抽取一个主题；
[0019]从被抽到的一个主题中所对应的单词分布中抽取一个单词；
[0020]重复抽取一个主题及一个主题中的一个单词，直至遍历文档中的每一个单词。
[0021]进一步地，所述S4的卷积神经网络TextCNN模型包括：输入层、卷积层、池化层与全
连接层。
[0022]一种基于TextCNN模型的心力衰竭文本分类系统，所述基于TextCNN模型的心力衰竭文本分类系统包括：
[0023]存储器，用于存储可执行指令；
[0024]处理器，用于运行所述存储器存储的可执行指令时，实现上述任一项所述的基于TextCNN模型的心力衰竭文本分类方法。
[0025]一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现上述的基于TextCNN模型的心力衰竭文本分类方法。
[0026]本专利技术的有益效果至少包括：本专利技术使用了卷积神经网络TextCNN模型进行心力衰竭文本分类，首先通过对获得的心衰与其他疾病的文本数据进行预处理，从而使得所有的文本数据是一个相同的长度，然后将预处理后的数据通过Word2vec模型使文本数据转换成向量，同时使用LDA模型，得到主题词向量集，将之与前期Wor2vec模型处理好的向量进行拼接，最后利用最终的向量训练卷积神经网络TextCNN模型进行训练，从而达到自动分类心衰文本的目的。
附图说明
[0027]图1为本专利技术实施例提供的心力衰竭文本分类结构框图。
[0028]图2为本专利技术实施例提供的心力衰竭文本分类的TextCNN模型结构图。
具体实施方式
[0029]为使本专利技术实施例的目的、技术方案和优点更加清楚，下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。
[0030]结合图1
‑
2所示，本专利技术提供了一种基于TextCNN模型的心力衰竭文本分类方法，包括：
[0031]S1：收集医学文本数据；
[0032]S2：对医学文本数据进行预处理；医学文本数据包含大量的医学信息，但对于文本的前期预处理是复杂的，具体方法如下：
[0033](1)对文本数据去除标点符号；
[0034](2)对文本数据去除非法字符；
[0035](3)对文本数据去除数字；
[0036](4)将所有的文本数据进行截断处理，使文本长度保持在256。
[0037]S3：将预处理后的文本数据通过Word2vec模型和LDA模型再次进行处理，获取词向量并进行拼接；
[0038]现有获取词向量基本通过两种思路：
[0039]其一是：利用全局统计信息，进行矩阵分解，例如LSA来获取词向量，但这样获得的词向量往往在词相似性任务上表现不好，表明这是一个次优的向量空间结构；
[0040]其二是：利用局部上下文窗口单独训练，但是统计信息作为有用的先验知识，没有
得到很好的利用。
[0041]本专利技术的Word2vec模型通过词的上下文得到词的向量化表示，分别通过两种方式获取词的向量化表示，即：CBOW和Skip
‑
gram。
[0042]CBOW是通过附近词预测中心词，通过目标词的上下文的词预测目标词，具体做法是：设定词向量的维度d，对所有的词随机初始化为一个d维的向量，然后要对上下文所有的词向量编码得到一个隐藏层的向量，通过这个隐藏层的向量预测目标词，CBOW中的做法是简单的相加，然后做一个softmax的分类。
[0043]Skip
‑
gram是通过中心词预测附近的词，输入目标词，先将将目标词映射为一个隐藏层向量，根据这个向量预测目标词上下文两个词，因为词汇表大和样本不均衡，同样也会采用多层softmax或负采样优化。
[0044]LDA模型采用词袋模型得到主题词向量集，所谓词袋模型：是指我们在一篇文档中仅仅考虑那一个词汇是否出现，而不考虑其出现的顺序。LDA是一种文档主题生成模型，即一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”的这样一个过程，也可以当作一个三层贝叶斯概率模型，包括词、主题和文档三层结构。且文档到主题，主题到词都服从多项式分布。
[0045]所述LDA模型的生成过程包括：
[0046]对每本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于TextCNN模型的心力衰竭文本分类方法，其特征在于：包括：S1：收集医学文本数据；S2：对医学文本数据进行预处理；S3：将预处理后的文本数据通过Word2vec模型和LDA模型再次进行处理，获取词向量并进行拼接；S4：将S3中拼接完的词向量放入卷积神经网络TextCNN模型中训练；S5：输出训练结果。2.根据权利要求1所述的一种基于TextCNN模型的心力衰竭文本分类方法，其特征在于：所述S2的预处理包括：对文本数据去除标点符号、去除非法字符、去除数字及将所有的文本数据进行截断处理，使文本长度保持在256。3.根据权利要求1所述的一种基于TextCNN模型的心力衰竭文本分类方法，其特征在于：所述S3中Word2vec模型通过词的上、下文得到词的向量化表示。4.根据权利要求3所述的一种基于TextCNN模型的心力衰竭文本分类方法，其特征在于：所述Word2vec模型根据CBOW、Skip
‑
gram两种方式获取词的向量化表示。5.根据权利要求1所述的一种基于TextCNN模型的心力衰竭文本分类方法，其特征在于：所述S3通过LDA模型采用词袋模型得到主题词向量集。6.根据权利要求5所述的一种基于TextCNN...

【专利技术属性】
技术研发人员：李灯熬，
申请(专利权)人：太原理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人