一种基于卷积神经网络的文物知识关系抽取方法技术

技术编号：29157396 阅读：36 留言：0更新日期：2021-07-06 22:57

本发明专利技术涉及自然语言处理领域，具体涉及一种基于卷积神经网络的文物知识关系抽取方法，包括：获取文物数据集，并对文物数据进行预处理，得到预处理后的文物数据；通过Word2vec的Skip－gram模型对预处理后的文物数据进行词向量的转化，提取句子中每个单词的词汇级别特征；提取文物数据中每条句子的句子级别特征；将所提取的词汇级别特征和句子级别特征进行拼接，得到拼接后的特征向量，将拼接后的特征向量作为分类任务的特征数据，接入全连接层；在全连接层将特征数据经线性变换，再通过Softmax分类器计算分类预测值，得到该句子对应关系的置信度得分。本发明专利技术提取的特征置信度更高，提高了关系抽取的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积神经网络的文物知识关系抽取方法
本专利技术涉及自然语言处理领域，具体涉及一种基于卷积神经网络的文物知识关系抽取方法。
技术介绍
随着通信技术与互联网技术的飞速发展，为了实现文物知识的资源共享、有效利用，并让社会公众对文物知识有更多地了解与接触，使博物馆能够更好地为社会、公众提供服务的需求，人们提出利用信息技术将传统的实体博物馆所具有的功能以数字化的形式表现出来。因此可以通过构建知识图谱来建立文物知识之间的联系，达到博物馆数字化展览的目的。关系抽取是知识图谱构建的重要工作之一，关系抽取就是识别出实体和实体之间关系。关系抽取技术是将文物知识中的无结构化的信息转化为结构化的信息存储在知识库中一个必不可少的模块，为之后的数字化博物馆展览提供了一定的支持和帮助。通常，传统的关系抽取技术采用基于规则的关系抽取技术，需要通过人工构造语法和语义规则，再将已经预处理的语句片段与模式规则进行匹配判定，完成关系抽取的分类。由于基于规则的关系抽取依赖于前期的规则制定，导致关系抽取的覆盖率低、人工成本较高、可移植性较差、很难设计冲突重叠的规则等问题。针对基于规则的关系抽取很难适用于复杂的文物信息关系抽取的问题。本专利技术考虑了文物信息的多样性与深邃性，利用基于深度学习算法的关系抽取能够自动学习到信息的有效特征，结合卷积深度神经网络提取句子的词汇和句子特征进行关系抽取。
技术实现思路
本专利技术针对上述基于规则的关系抽取需要耗费大量人力去设计规则，很难适用于复杂多样的文物信息关系抽取的问题，提供一种基于卷...

【技术保护点】
1.一种基于卷积神经网络的文物知识关系抽取方法，其特征在于，包括以下步骤：/nS1、获取文物数据集，并对文物数据进行预处理，得到预处理后的文物数据；/nS2、通过Word2vec的Skip－gram模型对预处理后的文物数据进行词向量的转化，提取句子中每个单词的词汇级别特征；/nS3、提取文物数据中每条句子的句子级别特征；/nS4、将所提取的词汇级别特征和句子级别特征进行拼接，得到拼接后的特征向量，将拼接后的特征向量作为分类任务的特征数据，接入全连接层；在全连接层将特征数据经线性变换，再通过Softmax分类器计算分类预测值，得到该句子对应关系的置信度得分，置信度得分反映句子的关系。/n

【技术特征摘要】
1.一种基于卷积神经网络的文物知识关系抽取方法，其特征在于，包括以下步骤：
S1、获取文物数据集，并对文物数据进行预处理，得到预处理后的文物数据；
S2、通过Word2vec的Skip－gram模型对预处理后的文物数据进行词向量的转化，提取句子中每个单词的词汇级别特征；
S3、提取文物数据中每条句子的句子级别特征；
S4、将所提取的词汇级别特征和句子级别特征进行拼接，得到拼接后的特征向量，将拼接后的特征向量作为分类任务的特征数据，接入全连接层；在全连接层将特征数据经线性变换，再通过Softmax分类器计算分类预测值，得到该句子对应关系的置信度得分，置信度得分反映句子的关系。

2.根据权利要求1所述的一种基于卷积神经网络的文物知识关系抽取方法，其特征在于，步骤S3中，提取文物数据中每条句子的句子级别特征包括：
S31、针对文物数据中的每条句子提取词特征和位置特征，对词特征和位置特征进行组合拼接，得到拼接后的特征向量；
S32、将拼接后的特征向量送入卷积神经网络中提取句子级别特征，得到卷积神经网络输出的特征向量；
S33、利用最大池化对卷积运算的输出特征向量进行降采样，得到更精准的句子级别特征。

3.根据权利要求2所述的一种基于卷积神经网络的文物知识关系抽取方法，其特征在于，卷积神经网络的结构包括输入层、池化层和卷积层，所述池化层用于采用MaxPooling，选取卷积结果计算后的最强特征；所述卷积层用于提取特征。

4.根据权利要求2所述的一种基于卷积神经网络的文物知识关系抽取方法，其特征在于，卷积神经网络的的处理流程包...

【专利技术属性】
技术研发人员：田侃，唐昌伦，赵卓，张殊，张晨，先兴平，游小琳，廖嘉欣，
申请(专利权)人：重庆中国三峡博物馆，重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人