【技术实现步骤摘要】
一种融合共现图和依赖关系图的双图神经网络及其构建方法
[0001]本专利技术涉及文本分类模型
,尤其涉及一种融合共现图和依赖关系图的双图神经网络及其构建方法。
技术介绍
[0002]文本分类是自然语言处理的一项经典任务,使用预先定义的标签对文本进行标记。它被广泛应用于情感分析、推荐系统、新闻分类等。例如,自动判别一则新闻的类别,是体育类、政治类,还是经济类等。信息化时代,文本数量爆炸式增加。同时,由于其非结构化的特点,很难从中提取有价值的特征,因此降低了文本分类模型的泛化性能。
[0003]目前文本分类方法包括传统方法、深度学习方法。传统方法提取手工制作的特征,首先要对文本进行预处理操作,然后使用词袋模型、word2vec等方式表示文本,但会造成维度灾难,忽略文本语义,存在数据稀疏等问题。基于深度学习的模型被广泛提出,如CNN
[1]、RNN
[2]、LSTM
[3]等。然而上述模型在文本分类时,只关注顺序性和局部性特征,忽略了文本的全局词共现信息。2018年Google基于transformer
[4]构建了Bert
[5]模型,解决了序列到序列的问题。采用掩码语言模型和下句预测的方法,提高了模型的泛化性能,极大地改进了自然语言处理的无监督预训练技术。
[0004]图神经网络技术是指使用神经网络来学习图结构数据,提取图结构数据的特征和信息,继而进行下游的分类、聚类、预测等任务。Bruna
[6]等人提出将CNN应用到图上,通过巧妙的转化卷积算子, ...
【技术保护点】
【技术特征摘要】
1.一种融合共现图和依赖关系图的双图神经网络,其特征在于,所述双图神经网络将文本转换为图结构,将文本分类任务转换为图分类任务;为单个文本构建共现图和依赖关系图;使用双向长短时记忆网络捕捉序列特征,对glove初始化词向量获得的千层特征进行补偿。2.一种融合共现图和依赖关系图的双图神经网络的构建方法,构建如权利要求1所述的双图神经网络,其特征在于,包括以下步骤:S1:准备文本数据集;S2:对文本进行预处理,划分出训练集和测试集;S3:构建双图S3.1:共现文本图的构建:使用滑动窗口在文本上获得单词间的共现关系,依据共现关系构建一个无向共现文本图;S3.2:依赖关系图的构建:使用Stanford NLP来提取单词之间的依赖关系和词性信息,依据依赖关系构建一个无向依赖关系图;S4:图特征提取S4.1:利用门控图神经网络捕捉所述共现文本图的特征:针对所述共现文本图,使用所述门控图神经网络提取共现文本图的特征;捕捉得到的共现图的嵌入表示记作d
t
是共现文本图嵌入表示的维度;S4.2:利用图卷积神经网络捕捉所述依赖关系图的特征:使用BiLSTM模块提取文本的语义特征,得到的单词嵌入表示作为文本图的嵌入矩阵,运行所述图卷积神经网络提取所述依赖关系图的特征;捕捉所述依赖关系图的嵌入表示记作d2是依赖关系图嵌入表示的维度;S5:融合分类,将预测标签和真实标签对比,计算损失。3.根据权利要求2所述的融合共现图和依赖关系图的双图神经网络的构建方法,其特征在于,在步骤S2中,对文本的所述预处理包括将大写转化为小写、清洗非文本内容、去除停止词和低频词、glove初始化词嵌入;然后对数据集进行shuffle操作,按照7:3的比例划分数据集为训练集和测试集。4.根据权利要求2所述的融合共现图和依赖关系图的双图神经网络的构建方法,其特征在于,在步骤S3中,构建文本图时,有效地利用单词间的关系;使用T={w1,...,w
i
...w
n
}标记一个文本,该文本拥有n个单词,其中文本中的第i个单词记作w
i
;将文本输入到嵌入层,使用glove初始化单词为d维向量;对于T,为其构建相应的文本图,图中的节点由单词构成,边由单词间的关系构成,文本图记作V
t
、E
t
是对应的节点集和边集;将n
G
设置为2,表明为单个文本构建两种图:共现图和依赖关系图;文本图的特征矩阵,记作第i个节点的向量表示为n
t
是该文本图中的节点数量,n
t
=|V
t
|;文本图的邻接矩阵记作5.根据权利要求4所述的融合共现图和依赖关系图的双图神经网络的构建方法,其特征在于,在步骤S3.1中,依据单词之间局部共现的语言特征来构建共现文本图,记作G1=
(V1,E1);使用固定大小的窗口在文本上从左向右滑动,在同一窗口的单词在图中是连接的。6.根据权利要求5所述的融合共现图和依赖关系图的双图神经网络的构建方法,其特征在于,在步骤S3.2中,依据单词间的依赖关系构建依赖关系图;首先,对于语料库中的文本,使用Stanford NLP对文本进行解析,获取单词间的依赖关系;提取到的依赖是有向的,为了方便计算,将边视作无向;文本的依赖关系记作:DP={r
ij
|i≠j;i,j<n2},文本中单词w
i
和w
j
之间的依赖关系记作r
ij
;根据依赖关系构建依赖关系图,记作G2=(V2,E2),其中E2表示为:E2={e
ij
|r
ij
∈DP},由此构建的依赖图包含丰富的语义和句法特征。7.根据权利要求2所述的融合共现图和依赖关系图的双图神经网络的构建方法,其特征在于,在步骤S4.1中,在构建的所述共现文本图上,运行GGNN网络提取节点特征,使用门控循环单元的思路;图上进行消息传递时,节点接收邻居节点的信息,然后将其与之前的时间点表示合并,以更新节点自...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。