当前位置: 首页 > 专利查询>浙江大学专利>正文

基于深度学习的实体链接方法技术

技术编号:14362810 阅读:688 留言:0更新日期:2017-01-09 10:16
本发明专利技术公开了一种基于深度学习的实体链接方法。设计了一种神经网络来计算实体指称与所有候选实体概念之间的相似度,把文本构建成有向图,利用随机游走算法计算文本中每一实体指称到其对应的候选实体的相似度排序,选择相似度最高的实体作为实体指称链接的目标。本发明专利技术通过对实体指称的上下文分词结果、候选实体分类标签做词向量表达,对实体指称上下文、候选实体的百科文档做文档向量表达,来作为神经网络的特征输入。利用双向长短时记忆递归神经网络结合上下文文档向量来表达实体指称,卷积神经网络结合候选实体文档向量来表达候选实体,并用三元组损失函数来训练。本发明专利技术实现了文本中的实体指称链接,消除实体歧义,帮助理解文本和构建知识库。

【技术实现步骤摘要】

本专利技术涉及一种基于深度学习的实体链接,尤其涉及一种利用神经网络和图算法结合来做实体链接的技术。
技术介绍
信息爆炸在带来海量信息的同时,也对快速准确地获取目标信息提出了挑战。为了获取目标信息,我们需要处理大量无用的信息。这一问题源于自然语言表达的多样性,具体来说,即是同一实体可用不同的文本表达(多词一义),而同一文本可能表达多个不同的实体(一词多义)。通过进行实体链接(EntityLink),也即将文本中的实体指称与知识库中的实体进行链接,能够将文本数据转化为带有实体标注的文本,进而帮助人和计算机理解文本的具体含义。它一方面能够为人带来更好的阅读体验,帮助人们更好地理解所游览信息的含义,另一方面也能辅助构建以实体为核心的信息网络,推动语义网络和知识图谱的房展。通过为互联网上的文档添加能够被计算机所理解的语义数据,并将这些含有语义是实体以图的形式联结起来,是互联网的信息交流变得更有效率。实体链接是对文本的实体标注,是计算机能够对实体而非文本进行处理,从而更好地理解文本的含义。实体链接是指将文档中出现的文本片段,即实体指称(entitymention)链向其在特定知识库(KnowledgeBase)中响应条目的过程。在实体链接研究中所使用的知识库包括英文知识库TAP、维基百科、Freebase、YAGO以及中文知识库百度百科、互动百科、中文维基百科等。实体链接能够利用知识库丰富文本的语义信息,在文本分类和聚类、信息检索、知识库构建、知识图谱构建等领域有着重要的理论意义和应用前景。此外,国际评测会议对实体链接的评测给予了一定的关注,如INEX会议中的“LinktheWiki”任务、TAC会议的KBP任务、TREC会议的KBA任务等。实体链接是一个新兴的研究领域,对自然语言处理、信息检索领域有着重要的潜在价值,是语义网络技术的重要基础。尽管实体链接领域已有多年的研究,但依然存在一些局限。目前尚没有一个受到广泛认可的实体链接评测框架,不同实体链接研究在问题定义、基本假设、评测数据集、语言区别等多个维度均存在交大差异,难以进行有效的比较。不过,从会议的发展趋势来看,越来越多的会议让研究者通过参加挑战赛和研讨会的方式在定义明确的数据集上利用各自的算法解决问题。如由微软和谷歌赞助的实体检测与消歧挑战赛提供了开放的接口,供研究者评测其实体链接系统的性能,并参加研讨会交流经验,共同推动实体链接研究的发展。
技术实现思路
本专利技术的目的是利用知识库丰富的语义信息来帮助用户和计算机更好的理解文本的含义,达到阅读增强的目的,并给出了一种基于深度学习的实体链接方法。本专利技术的目的是通过以下技术方案来实现的:一种基于深度学习的实体链接方法,实体链接是针对一段文本中的一些实体指称(mention),找到它们可能对应的多个概念并消除歧义,使得每个实体指称能够唯一地对应到知识库中的一个实体(entity)上。该方法包括以下步骤:1)数据预处理:对百科数据库全文做基于深度学习的词向量表达和文档向量表达训练;然后用训练好的模型对分词后的词语做词向量表达,对所有百科数据库中的实体文档做文档向量表达;对于一段新输入的文本,分别提取文本中所有待链接的实体指称、实体指称对应的所有候选实体、以及所有无歧义已链接的实体指称;在百科数据库中找出候选实体的所有分类标签;2)神经网络结构设计与训练:将步骤1)预处理后的数据作为神经网络的输入特征,对神经网络进行参数调整,并训练神经网络,最终得到文本中每一个待链接的实体指称到其对应的所有候选实体的相似度。神经网络用双向LSTM和文档向量的结合来表达实体指称,用卷积神经网络和文档向量的结合来表达候选实体;3)基于神经网络相似度的有向图排序:将一段文本中的每一个待链接的实体指称和其对应的所有候选实体、以及文本中已存在的无歧义已链接的实体指称对应的实体作为图节点,将步骤2)得到的相似度作为待链接的实体指称节点和对应候选实体节点之间的边权重,将候选实体的百科文档的文档向量之间的相似度作为候选实体之间的边权重;通过随机游走算法对有向图进行迭代计算直到边权值收敛,最后得到待链接的实体指称到对应候选实体的最终边值,选取边值最高者作为实体链接对象。进一步地,所述的步骤1)中,1.1)训练词向量和文档向量的表达:语料库选择为百度百科所有词条全文文档的集合,用skip-gram模型对该语料库训练word2vector(词向量表达)和doc2vector(文档向量表达),对百度百科所有词条文档做文档向量表达,对百度百科所有分类标签做词向量表达,用基于HanLP汉语词性标准的one-hot(独热编码)来表达词性向量;1.2)用步骤1.1)训练好的模型表达词向量:对于给定文本,用HanLP对该文本进行分词,每一个分词元组包括词语以及词性,并用训练好的词向量模型和词性向量模型来表达;C=Σ(Vw→,Vn→)]]>Vw→=(V(w,f)i,V(w,b)i);Vn→=(V(n,f)i,V(n,b)i)]]>其中,C表示上下文词集数组,表示词向量,表示词性向量。即对于一段上下文,可以用有限个词向量和词性向量的集合来表达。对于一个待链接的实体指称,用mi表示它的词向量,用表达它上文所有的词向量,用表达它下文所有的词向量,用表达它上文所有的词性向量,用表达它下文所有的词性向量。进一步地,所述的步骤2)具体包括以下子步骤:2.1)将提取的特征输入到神经网络的双向LSTM(BLSTM)部分中。对于一个待链接的实体指称mi,将它上下文的词向量和词性向量分别输入到两个BLSTM的网络中,并在输出序列中取到待链接的实体指称mi对应位置的输出与公式如下:Mti=BLSTMt(V(w,f)i,V(w,b)i)]]>Msi=BLSTMs(V(n,f)i,V(n,b)i)]]>然后将这两个向量和上下文的文档向量Dm进行拼接,并通过三层不同权重的全连接层让向量获得充分学习,获得表达一个待链接实体指称的向量Mi,公式如下:M0i=(Mti,Msi,Dm)]]>M1i=Wm1·M0i+bm1]]>M2i=Wm2·M1i+bm2]]>Mi=Wm3·M2i+bm3]]>Wm1、Wm2、Wm3、bm1、bm2、bm3是待训练参数;用eij表示实体指称mi对应的第j个候选实体的词向量,用张量Tij来表示实体指称mi对应的第j个候选实体的分类标签的词向量集合。对Tij做卷积核大小为k的卷积运算后,做最大值子采样(maxpooling)得到向量Oij,让Oij拼接上候选实体eij对应的词条文档的文档向量De,并同样通过三层不同权重的全连接层让向量充分学习,最后得到一个待链接实体指称mi对应的第j个候选实体的向量Eij,公式如下:Oij=maxpooling(Tij⊗Wconv+bconv)]]>E0ij=(Oij,De)]]>E1ij=We1·E0ij+be1]]>E2ij=We2·E1ij+be2]]>Eij=We3·E2ij+be3本文档来自技高网
...
基于深度学习的实体链接方法

【技术保护点】
一种基于深度学习的实体链接方法,其特征在于,包括以下步骤:1)数据预处理:对百科数据库全文做基于深度学习的词向量表达和文档向量表达训练;然后用训练好的模型对分词后的词语做词向量表达,对所有百科数据库中的实体文档做文档向量表达;对于一段新输入的文本,分别提取文本中所有待链接的实体指称、实体指称对应的所有候选实体、以及所有无歧义已链接的实体指称;在百科数据库中找出候选实体的所有分类标签;2)神经网络结构设计与训练:将步骤1)预处理后的数据作为神经网络的输入特征,对神经网络进行参数调整,并训练神经网络,最终得到文本中每一个待链接的实体指称到其对应的所有候选实体的相似度。神经网络用双向LSTM和文档向量的结合来表达实体指称,用卷积神经网络和文档向量的结合来表达候选实体;3)基于神经网络相似度的有向图排序:将一段文本中的每一个待链接的实体指称和其对应的所有候选实体、以及文本中已存在的无歧义已链接的实体指称对应的实体作为图节点,将步骤2)得到的相似度作为待链接的实体指称节点和对应候选实体节点之间的边权重,将候选实体的百科文档的文档向量之间的相似度作为候选实体之间的边权重;通过随机游走算法对有向图进行迭代计算直到边权值收敛,最后得到待链接的实体指称到对应候选实体的最终边值,选取边值最高者作为实体链接对象。...

【技术特征摘要】
1.一种基于深度学习的实体链接方法,其特征在于,包括以下步骤:1)数据预处理:对百科数据库全文做基于深度学习的词向量表达和文档向量表达训练;然后用训练好的模型对分词后的词语做词向量表达,对所有百科数据库中的实体文档做文档向量表达;对于一段新输入的文本,分别提取文本中所有待链接的实体指称、实体指称对应的所有候选实体、以及所有无歧义已链接的实体指称;在百科数据库中找出候选实体的所有分类标签;2)神经网络结构设计与训练:将步骤1)预处理后的数据作为神经网络的输入特征,对神经网络进行参数调整,并训练神经网络,最终得到文本中每一个待链接的实体指称到其对应的所有候选实体的相似度。神经网络用双向LSTM和文档向量的结合来表达实体指称,用卷积神经网络和文档向量的结合来表达候选实体;3)基于神经网络相似度的有向图排序:将一段文本中的每一个待链接的实体指称和其对应的所有候选实体、以及文本中已存在的无歧义已链接的实体指称对应的实体作为图节点,将步骤2)得到的相似度作为待链接的实体指称节点和对应候选实体节点之间的边权重,将候选实体的百科文档的文档向量之间的相似度作为候选实体之间的边权重;通过随机游走算法对有向图进行迭代计算直到边权值收敛,最后得到待链接的实体指称到对应候选实体的最终边值,选取边值最高者作为实体链接对象。2.根据权利要求1所述的一种基于深度学习的实体链接方法,其特征在于,所述的步骤1)中,1.1)训练词向量和文档向量的表达:语料库选择为百度百科所有词条全文文档的集合,用skip-gram模型对该语料库训练word2vector(词向量表达)和doc2vector(文档向量表达),对百度百科所有词条文档做文档向量表达,对百度百科所有分类标签做词向量表达,用基于HanLP汉语词性标准的one-hot(独热编码)来表达词性向量;1.2)用步骤1.1)训练好的模型表达词向量:对于给定文本,用HanLP对该文本进行分词,每一个分词元组包括词语以及词性,并用训练好的词向量模型和词性向量模型来表达;C=Σ(Vw→,Vn→)]]>Vw→=(V(w,f)i,V(w,b)i);Vn→=(V(n,f)i,V(n,b)i)]]>其中,C表示上下文词集数组,表示词向量,表示词性向量。即对于一段上下文,可以用有限个词向量和词性向量的集合来表达。对于一个待链接的实体指称,用mi表示它的词向量,用表达它上文所有的词向量,用表达它下文所有的词向量,用表达它上文所有的词性向量,用表达它下文所有的词性向量。3.根据权利要求1所述的一种基于深度学习的实体链接方法,其特征在于,所述的步骤2)具体包括以下子步骤:2.1)将提取的特征输入到神经网络的双向LSTM(BLSTM)部分中。对于一个待链接的实体指称mi,将它上下文的词向量和词性向量分别输入到两个BLSTM的网络中,并在输出序列中取到待链接的实体指称mi对应位置的输出与公式如下:Mti=BLSTMt(V(w,f)i,V(w,b)i)]]>Msi=BLSTMs(V(n,f)i,V(n,b)i)]]>然后将这两个向量和上下文的文档向量Dm进行拼接,并通过三层不同权重的全连接层让向量获得充分学习,获得表达一个待链接实...

【专利技术属性】
技术研发人员:鲁伟明张震宇庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1