一种命名实体识别方法及装置制造方法及图纸

技术编号:20944564 阅读:22 留言:0更新日期:2019-04-24 02:25
本发明专利技术公开了一种命名实体识别方法及装置,该命名实体识别方法,包括:获取待识别的词语集合;根据预先得到的概率模型,对词语集合中的词语进行角色标注;以角色标注的结果为依据,确定词语集合中的命名实体;其中,概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。在对词语集合中的词语进行角色标注时,不仅考虑了词语和隐含角色之间的概率以及角色转移的相关联性,还考虑到了词语集合中词语之间的特征,增加了词语集合中上下文信息包括的词语与词语之间的联系,提高了角色标注的准确性,可以提高命名实体识别的准确性和性能。

A Named Entity Recognition Method and Device

The invention discloses a named entity recognition method and device. The named entity recognition method includes: acquiring the set of words to be recognized; tagging the words in the set of words according to the pre-obtained probability model; determining the named entity in the set of words based on the results of role tagging; and the probability model, including: state transition probability matrix. The transmission matrix, the initial probability matrix and the observation transition probability matrix; the observation transition probability matrix, including the probability of the former word transferring to the current word. In the role labeling of words in word set, not only the probability between words and implied roles and the correlation of role transfer are considered, but also the characteristics of words in word set are taken into account. The relationship between words and words included in context information in word set is increased, the accuracy of role labeling is improved, and the accuracy of named entity recognition is improved. Accuracy and performance.

【技术实现步骤摘要】
一种命名实体识别方法及装置
本申请涉及文本识别
,尤其涉及一种命名实体识别方法及装置。
技术介绍
命名实体(namedentity),一般值得是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。命名实体的识别就是识别出词语集合(例如句子、段落和文章等)中特定词语(包括单字和词组)的过程。目前,在进行命名实体的识别时,通常会采用隐马尔可夫模型(HiddenMarkovModel,HMM)。HMM是一种统计模型,包括五个基本元素:状态、观测值、状态转移概率矩阵、观测概率矩阵和初始概率矩阵。其中,状态指的是词语集合中每个词语的角色;观测值则指的是词语集合中的词语本身;状态转移矩阵包括某一个角色转移至另一个角色的概率;观测概率矩阵,也可以称为发射矩阵,包括某一个角色输出特定词语的概率;初始概率矩阵,包括词语集合以某一个角色开始的概率。以上五个基本元素均可以通过对训练语料统计得到。从上述HMM的五个基本元素中可看出,利用HMM进行命名实体的识别时,重点关注观测值之间隐含的状态及状态之间的相关联性,并没有考虑到词语本身的特征,导致对命名实体的识别准确率不高。
技术实现思路
有鉴于此,本申请实施例提供了一种命名实体识别方法及装置,能够解决现有技术中识别准确率较低的问题。本申请实施例第一方面提供的一种命名实体识别方法,包括:获取待识别的词语集合;所述词语集合包括多个顺序排列的词语;根据预先得到的概率模型,对所述词语集合中的词语进行角色标注;以角色标注的结果为依据,确定所述词语集合中的命名实体;其中,所述概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;所述观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。可选的,所述观测转移概率矩阵,包括:第一观测转移概率、第二观测转移概率和第三观测转移概率中的任意一个或多个;所述第一观测转移概率包括所述前一个词语本身转移至当前词语的概率;所述第二观测转移概率包括所述前一个词语中任意一个字符转移至所述当前词语的概率;所述第三观测转移概率包括所述前一个词语中任意一个子字符转移至所述当前词语的概率;所述字符包括至少一个所述子字符。可选的,所述根据预先得到的概率模型,对所述词语集合中的词语进行角色标注,具体包括:根据所述概率模型中的统计概率,利用维特比算法对所述词语集合中的词语进行角色标注,得到所述词语集合中词语的角色。可选的,所述根据所述概率模型中的统计概率,利用维特比算法对所述词语集合中的词语进行角色标注,得到所述词语集合中词语的角色,具体包括:根据所述初始概率矩阵和所述发射矩阵,确定所述词语集合的第1个词语对应每个角色的概率,得到多个第1概率;根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述词语集合中第i个词语对应每个角色的概率,得到多个第i概率,并记录每个所述第i概率对应的第i-1个词语的角色;1<i≤N,i为整数,N为所述词语集合中词语的数量;获得与所述词语集合中第N个词语对应的多个第N概率中的最大值,将所述最大值对应的角色作为所述第N个词语的角色,并将所述最大值对应的第N-1个词语的角色作为第N-1个词语的角色;根据所述第j个词语为所述第j个词语的角色时的第j概率得到第j目标概率,将所述第j目标概率对应的第j-1个词语的角色确定为所述第j-1个词语的角色;j=N-1、N-2、……、2。可选的,所述根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述词语集合中第i个词语对应每个角色的概率,得到多个第i概率,并记录每个所述第i概率对应的第i-1个词语的角色,具体包括:根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述第i-1个词语对应每个角色时,所述第i个词语对应目标角色的概率,得到多个第i参考概率;所述目标角色为所述每个角色中的任意一个;将所述多个第i参考概率的最大值,确定为所述第i个词语对应所述目标角色时的第i概率,并记录所述第i参考概率的最大值对应的所述第i-1个词语的角色。可选的,所述根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述第i-1个词语对应每个角色时,所述第i个词语对应目标角色的概率,得到多个第i参考概率,具体包括:计算所述第i-1个词语对应第h个角色的概率、所述第h个角色转移至所述目标角色的概率以及所述目标角色输出所述第i个词语的概率之间的乘积,得到第一值;1≤h≤M,h为整数,M为所述角色的数量;基于所述观测转移概率矩阵中所述第i-1个词语转移至所述第i个词语的概率,得到第二值;综合所述第一值和所述第二值,得到所述第i参考概率。可选的,所述综合所述第一值和所述第二值,得到所述第i参考概率,具体包括:计算所述第一值和所述第二值之和,得到所述第i参考概率。本申请实施例第二方面提供的一种命名实体识别装置,包括:获取单元、标注单元和确定单元;所述获取单元,用于获取待识别的词语集合;所述词语集合包括多个顺序排列的词语;所述标注单元,用于根据预先得到的概率模型,对所述词语集合中的词语进行角色标注;所述确定单元,用于以角色标注的结果为依据,确定所述词语集合中的命名实体;其中,所述概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;所述观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。本申请实施例第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如上述第一方面提供的命名实体识别方法中的任意一种。本申请实施例第四方面提供了一种数据处理设备,包括:处理器以及存储器;所述存储器,用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器,用于根据所述程序代码中的指令,执行如上述第一方面提供的命名实体识别方法中的任意一种。与现有技术相比,本申请至少具有以下优点:在本申请实施例中,首先获得待识别的词语集合,然后,根据预先得到的概率模型中的概率,对词语集合中的词语进行角色标注。该概率模型包括状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵,其中,观测转移概率矩阵包括前一个词语转移至当前词语的概率。最后,根据角色标注的结果确定词语集合中的命名实体。在对词语集合中的词语进行角色标注时,不仅考虑了词语和隐含角色之间的概率以及角色转移的相关联性,还考虑到了词语集合中词语之间的特征,增加了词语集合中上下文信息包括的词语与词语之间的联系,提高了角色标注的准确性,可以提高命名实体识别的准确性和性能。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本申请实施例提供的一种命名实体识别方法的流程示意图;图2为本申请实施例提供的另一种命名实体识别方法的流程示意图;图3为本申请实施例提供的又一种命名实体识别方法的流程示意图;图4为本申请实施例提供的一种命名实本文档来自技高网...

【技术保护点】
1.一种命名实体识别方法,其特征在于,所述方法,包括:获取待识别的词语集合;所述词语集合包括多个顺序排列的词语;根据预先得到的概率模型,对所述词语集合中的词语进行角色标注;以角色标注的结果为依据,确定所述词语集合中的命名实体;其中,所述概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;所述观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,所述方法,包括:获取待识别的词语集合;所述词语集合包括多个顺序排列的词语;根据预先得到的概率模型,对所述词语集合中的词语进行角色标注;以角色标注的结果为依据,确定所述词语集合中的命名实体;其中,所述概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;所述观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。2.根据权利要求1所述的方法,其特征在于,所述观测转移概率矩阵,包括:第一观测转移概率、第二观测转移概率和第三观测转移概率中的任意一个或多个;所述第一观测转移概率包括所述前一个词语本身转移至当前词语的概率;所述第二观测转移概率包括所述前一个词语中任意一个字符转移至所述当前词语的概率;所述第三观测转移概率包括所述前一个词语中任意一个子字符转移至所述当前词语的概率;所述字符包括至少一个所述子字符。3.根据权利要求1或2所述的方法,其特征在于,所述根据预先得到的概率模型,对所述词语集合中的词语进行角色标注,具体包括:根据所述概率模型中的统计概率,利用维特比算法对所述词语集合中的词语进行角色标注,得到所述词语集合中词语的角色。4.根据权利要求3所述的方法,其特征在于,所述根据所述概率模型中的统计概率,利用维特比算法对所述词语集合中的词语进行角色标注,得到所述词语集合中词语的角色,具体包括:根据所述初始概率矩阵和所述发射矩阵,确定所述词语集合的第1个词语对应每个角色的概率,得到多个第1概率;根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述词语集合中第i个词语对应每个角色的概率,得到多个第i概率,并记录每个所述第i概率对应的第i-1个词语的角色;1<i≤N,i为整数,N为所述词语集合中词语的数量;获得与所述词语集合中第N个词语对应的多个第N概率中的最大值,将所述最大值对应的角色作为所述第N个词语的角色,并将所述最大值对应的第N-1个词语的角色作为第N-1个词语的角色;根据所述第j个词语为所述第j个词语的角色时的第j概率得到第j目标概率,将所述第j目标概率对应的第j-1个词语的角色确定为所述第j-1个词语的角色;j=N-1、N-2、……、2。5.根据权利要求4所述的方法,其特征在于,所述根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述词语集合...

【专利技术属性】
技术研发人员:贾弼然崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1