【技术实现步骤摘要】
基于胶囊网络融合模型的新闻文本分类方法、系统及介质
[0001]本专利技术属于深度学习领域,涉及一种基于胶囊网络的融合模型应用于新闻文本分类的方法。
技术介绍
[0002]新闻是“对新近发生的事实的报道”,使用简练的文字概括了丰富的信息并频繁更新,且通过公开媒体传播。大数据时代的发展,网络丰富了新闻的来源,加速了新闻的传播。截至2020年3月,我国网络新闻用户规模达7.31亿,较2018年底增长5598万,占网民整体的80.9%;手机网络新闻用户规模达7.26亿,较2018年底增长7356万,占手机网民的81.0%。面对新闻数据呈爆炸式增长且缺乏高效管理等问题,增加了读者快速获取有效信息的难度。从海量的新闻文本中获取所需的有效信息是一项在研究和应用方面都具有积极意义的工作,一种高效准确的分类算法可以为新闻文本进行自动分类提供有力的支撑,有助于新媒体传播平台对新闻的管理并且根据用户习惯为用户做个性化推荐。
[0003]基于深度学习的文本分类方法近年来研究趋热。2006年,Hinton首次提出深度学习就引起了学术界和工业界的关注。其中,卷积神经网络(CNN)和循环神经网络(RNN,LSTM,GRU)等都可以运用在文本分类中。使用深度神经网络模型对海量文本进行分类的基础和关键是文本的特征表示,提取到较理想的浅层语义表示后能在更高层次上对深层语义特征进行抽取,省去了繁杂低效的人工特征工程,在自然语言处理的许多任务中取得了最佳表现。
[0004]目前,取自网络的新闻文本往往分为标题和正文两部分,其中标题内容通常 ...
【技术保护点】
【技术特征摘要】
1.一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,包括以下步骤:步骤一:对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成;步骤二:选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示;步骤三:根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;步骤四:通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示;步骤五:结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络CapsNet对获得的信息进行聚合,完成文本分类。2.根据权利要求1所述的一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,所述步骤一对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成,具体包括:从搜狗实验室数据资源中获取的全网新闻数据,保留12种新闻标签,包括房产house、女性women、运动sports、娱乐yule、信息技术IT、教育learning、商业business、军事mil、旅游travel、健康health、汽车auto、文化cul,首先将获取的新闻文本数据集进行预处理操作,包括分词与去停用词,采用的是基于Python语言的Jieba分词工具,通过增加一些专业词汇来扩充停用词表;词向量生成选择word2vec中的Skip
‑
gram模型,Skip
‑
gram模型是通过当前词来预测当前词前后单词,将预处理完成的新闻标题与正文文本输入到Skip
‑
gram的模型结构中,以获取新闻文本标题与正文的词向量表示,分别表示为T0、T1、T2…
T
m
与C0、C1、C2…
C
n
,其中m表示新闻文本标题个数,n表示正文的词向量个数。3.根据权利要求2所述的一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,所述步骤二选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示,具体包括:采取双向长短记忆神经网络BiLSTM,BiLSTM由两个LSTM组成的双向通道,包括输入门、遗忘门和输出门,选择BiLSTM模型对新闻文本进行特征表示,向量化的文本进入BiLSTM进行上下文语义特征提取,其结构算法如公式(1)、(2)、(3)、(4)、(5)、(6):i
t
=σ(W
i
[h
t
‑1,x
t
]+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)f
t
=σ(W
f
[h
t
‑1,x
t
]+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)g=tanh(W
c
[h
t
‑1,x
t
]+b
c
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)C
t
=f
t
·
C
t
‑1+i
t
·
g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)o
t
=σ(W
o
[h
t
‑1,x
t
]+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)h
t
=o
t
·
tanh(C
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,x
t
表示此刻新闻标题与正文的输入信息,h
t
‑1表示前一时刻的输出,i
t
表示此刻输入门,f
t
表示此刻的遗忘门,g表示候选的输入,C
t
表示自循环神经元,用于保存序列信息,o
t
表示此刻的输出,h
t
是此刻的输出向量,W表示权重矩阵,b表示偏置向量。4.根据权利要求3所述的一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,所述步骤三:根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权,具体为:新闻文本包含两个部分,分别是新闻标题和新闻正文,标题对新闻主题有着总结的作用,将新闻标题编码后与新闻正文的单词表示进行点积,获得每个新闻正文词语
的重要程度即注意力权重,然后对新闻正文的单词表示进行加权,使得新闻中更重要的单词得到增强;新闻标题与正文的各个词的向量表示分别为T0、T1、T2…
T
m
与C0、C1、C2…
C
n
,作为输入传入Bi
‑
LSTM单元,得到对应隐藏层H0、H1、H2…
H
m
与h0、h1、h2…
h
n
,将标题词向量与正文词向量进行点积,对新闻正文词向量进行加权,计算出注意力概率分布值a0、a1、a2…
a
n
,其思想是获取新闻正文词向量的重要程度,最终获得包含文本信息的特征向量v,其运算过程如公式(7)、(8)、(9);(7)、(8)、(9);(7)、(8)、(9);其中exp表示指数函数,f表示打分函数...
【专利技术属性】
技术研发人员:李校林,王薇,杨劲,
申请(专利权)人:重庆信科设计有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。