一种基于卷积神经网络的文物知识关系抽取方法技术

技术编号:29157396 阅读:32 留言:0更新日期:2021-07-06 22:57
本发明专利技术涉及自然语言处理领域,具体涉及一种基于卷积神经网络的文物知识关系抽取方法,包括:获取文物数据集,并对文物数据进行预处理,得到预处理后的文物数据;通过Word2vec的Skip-gram模型对预处理后的文物数据进行词向量的转化,提取句子中每个单词的词汇级别特征;提取文物数据中每条句子的句子级别特征;将所提取的词汇级别特征和句子级别特征进行拼接,得到拼接后的特征向量,将拼接后的特征向量作为分类任务的特征数据,接入全连接层;在全连接层将特征数据经线性变换,再通过Softmax分类器计算分类预测值,得到该句子对应关系的置信度得分。本发明专利技术提取的特征置信度更高,提高了关系抽取的效率。

【技术实现步骤摘要】
一种基于卷积神经网络的文物知识关系抽取方法
本专利技术涉及自然语言处理领域,具体涉及一种基于卷积神经网络的文物知识关系抽取方法。
技术介绍
随着通信技术与互联网技术的飞速发展,为了实现文物知识的资源共享、有效利用,并让社会公众对文物知识有更多地了解与接触,使博物馆能够更好地为社会、公众提供服务的需求,人们提出利用信息技术将传统的实体博物馆所具有的功能以数字化的形式表现出来。因此可以通过构建知识图谱来建立文物知识之间的联系,达到博物馆数字化展览的目的。关系抽取是知识图谱构建的重要工作之一,关系抽取就是识别出实体和实体之间关系。关系抽取技术是将文物知识中的无结构化的信息转化为结构化的信息存储在知识库中一个必不可少的模块,为之后的数字化博物馆展览提供了一定的支持和帮助。通常,传统的关系抽取技术采用基于规则的关系抽取技术,需要通过人工构造语法和语义规则,再将已经预处理的语句片段与模式规则进行匹配判定,完成关系抽取的分类。由于基于规则的关系抽取依赖于前期的规则制定,导致关系抽取的覆盖率低、人工成本较高、可移植性较差、很难设计冲突重叠的规则等问题。针对基于规则的关系抽取很难适用于复杂的文物信息关系抽取的问题。本专利技术考虑了文物信息的多样性与深邃性,利用基于深度学习算法的关系抽取能够自动学习到信息的有效特征,结合卷积深度神经网络提取句子的词汇和句子特征进行关系抽取。
技术实现思路
本专利技术针对上述基于规则的关系抽取需要耗费大量人力去设计规则,很难适用于复杂多样的文物信息关系抽取的问题,提供一种基于卷积神经网络的文物知识关系抽取方法。一种基于卷积神经网络的文物知识关系抽取方法,包括以下步骤:S1、获取文物数据集,并对文物数据进行预处理,得到预处理后的文物数据;S2、通过Word2vec的Skip-gram模型对预处理后的文物数据进行词向量的转化,提取句子中每个单词的词汇级别特征;S3、提取文物数据中每条句子的句子级别特征;S4、将所提取的词汇级别特征和句子级别特征进行拼接,得到拼接后的特征向量(句子表示),将拼接后的特征向量作为分类任务的特征数据,接入全连接层;在全连接层将特征数据经线性变换,再通过Softmax分类器计算分类预测值,得到该句子对应关系的置信度得分,置信度得分反映句子的关系。进一步的,步骤S3中,提取文物数据中每条句子的句子级别特征包括:S31、针对文物数据中的每条句子提取词特征和位置特征,对词特征和位置特征进行组合拼接,得到拼接后的特征向量;S32、将拼接后的特征向量送入卷积神经网络中提取句子级别特征,得到卷积神经网络输出的特征向量;S33、利用最大池化对卷积运算的输出特征向量进行降采样,得到更精准的句子级别特征。进一步的,卷积神经网络的结构包括输入层、池化层和卷积层,所述池化层用于采用MaxPooling,选取卷积结果计算后的最强特征;所述卷积层用于提取特征。进一步的,卷积神经网络的处理流程包括以下过程:S321、将词特征和位置特征组合拼接后得到的特征向量输入到卷积神经网络中,输入为一个k×n的词向量矩阵,其中k为词向量的维度,n为一条句子所包含词语的个数;S322、对输入矩阵进行窗口截取,窗口大小为l,截取后的窗口表示为:qi=wi:i+l-1∈Rl×d(1≤i≤m-l+1)其中,qi表示窗口大小为l的句子表示,w表示文本嵌入表示,R表示文本的维度为l×d;S323、卷积层对窗口中的每一个词组进行处理,输出每个词对应的上下文特征向量;第k个卷积核Wk对第i个窗口作用的结果计算如下:pk,i=f(Wkqi+b)∈R其中,f(·)为正切函数,Wk表示卷积核,qi表示窗口大小为l句子表示,b偏置项;卷积神经网络最终输出为:pk=[pk,1…pk,m-l+1]T∈Rm-l+1。其中,pk是第k个卷积核的输出的结果,pk,1表示第一个窗口输出的卷积结果,R表示输出结果的维度,m表示句子长度,l表示窗口大小。进一步的,利用最大池化对卷积神经网络的输出结果进行降采样,去除句子中包含的冗余噪声信息,筛选出对于卷积层中最有用的局部特征信息,表达式如下:pk,max=max(pk)最大池化操作,并将输出结果拼接起来,经非线性变换,选择双曲正切作为激活函数,计算方法如下,从而得到更精准的句子级别特征:x=tanh(W·pk,max)其中,x表示更精准的句子级别特征,且x∈Rdc,W为待学习的权重矩阵,tanh为激活函数,pk,max为池化后的特征向量。本专利技术具有以下优势:(1)采用位置特征,去编码句子中的当前词对于两个标记名词的相对距离。从而能够提取出词特征无法获得的结构信息,提升单词间的关联度,使得提取的特征置信度更高。(2)采用卷积神经网络自动提取特征,解决基于规则的关系抽取需要耗费大量人力去设计冲突重叠的规则的问题以及规则可移植性较差的问题,实现自动学习特征,提高了关系抽取的效率。(3)采用最大池化操作,对卷积层的输出结果进行降采样,有利于筛选出对于卷积层中最有用的局部特征信息,作为分类模型的输入。附图说明下面结合附图和具体实施方式对本专利技术做进一步详细的说明。图1为本专利技术提供的关系抽取方法模型的图解;图2为本专利技术提供的Skip-gram模型的图解;图3为本专利技术提供的一种基于卷积神经网络的文物知识关系抽取方法的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本实施例提供一种基于卷积神经网络的文物知识关系抽取方法,如图1-图3所示,所述方法具体实施如下:第一步,获取文物信息数据集,并对文物数据进行预处理,将各部分数据按相应格式对齐存储,得到预处理后的文物数据。首先将文物信息数据集按8:1:1的比例分为训练集、测试集、验证集3个部分。关系类别文件中一共包含23种要预测的关系,在这个已知类别的文件基础上,根据本专利技术方法判断输入句子包含的关系属于关系类别文件中的哪一类关系。在命名实体识别的基础上,对文物信息数据进行预处理,所述预处理包括:将长句进行拆分、简繁体转化、去除各种标点符号、停用词等。使用分词工具对句子中的文本进行分词,然后将每个句子用训练好的Word2vec等模型转换为原始向量。通过该组件,查找词嵌入将每个输入带标记的单词转换成向量,从而生成用于初始化的word_embedding向量矩阵。词向量进行编码之后,便可以将文本数据转换成数值数据。第二步,提取句子中每个单词的词汇级别特征。所述词汇级别特征主要包括名词本身、名词对的类型和实体间的词序列等本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的文物知识关系抽取方法,其特征在于,包括以下步骤:/nS1、获取文物数据集,并对文物数据进行预处理,得到预处理后的文物数据;/nS2、通过Word2vec的Skip-gram模型对预处理后的文物数据进行词向量的转化,提取句子中每个单词的词汇级别特征;/nS3、提取文物数据中每条句子的句子级别特征;/nS4、将所提取的词汇级别特征和句子级别特征进行拼接,得到拼接后的特征向量,将拼接后的特征向量作为分类任务的特征数据,接入全连接层;在全连接层将特征数据经线性变换,再通过Softmax分类器计算分类预测值,得到该句子对应关系的置信度得分,置信度得分反映句子的关系。/n

【技术特征摘要】
1.一种基于卷积神经网络的文物知识关系抽取方法,其特征在于,包括以下步骤:
S1、获取文物数据集,并对文物数据进行预处理,得到预处理后的文物数据;
S2、通过Word2vec的Skip-gram模型对预处理后的文物数据进行词向量的转化,提取句子中每个单词的词汇级别特征;
S3、提取文物数据中每条句子的句子级别特征;
S4、将所提取的词汇级别特征和句子级别特征进行拼接,得到拼接后的特征向量,将拼接后的特征向量作为分类任务的特征数据,接入全连接层;在全连接层将特征数据经线性变换,再通过Softmax分类器计算分类预测值,得到该句子对应关系的置信度得分,置信度得分反映句子的关系。


2.根据权利要求1所述的一种基于卷积神经网络的文物知识关系抽取方法,其特征在于,步骤S3中,提取文物数据中每条句子的句子级别特征包括:
S31、针对文物数据中的每条句子提取词特征和位置特征,对词特征和位置特征进行组合拼接,得到拼接后的特征向量;
S32、将拼接后的特征向量送入卷积神经网络中提取句子级别特征,得到卷积神经网络输出的特征向量;
S33、利用最大池化对卷积运算的输出特征向量进行降采样,得到更精准的句子级别特征。


3.根据权利要求2所述的一种基于卷积神经网络的文物知识关系抽取方法,其特征在于,卷积神经网络的结构包括输入层、池化层和卷积层,所述池化层用于采用MaxPooling,选取卷积结果计算后的最强特征;所述卷积层用于提取特征。


4.根据权利要求2所述的一种基于卷积神经网络的文物知识关系抽取方法,其特征在于,卷积神经网络的的处理流程包...

【专利技术属性】
技术研发人员:田侃唐昌伦赵卓张殊张晨先兴平游小琳廖嘉欣
申请(专利权)人:重庆中国三峡博物馆重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1