The invention discloses a named entity recognition method and device. The named entity recognition method includes: acquiring the set of words to be recognized; tagging the words in the set of words according to the pre-obtained probability model; determining the named entity in the set of words based on the results of role tagging; and the probability model, including: state transition probability matrix. The transmission matrix, the initial probability matrix and the observation transition probability matrix; the observation transition probability matrix, including the probability of the former word transferring to the current word. In the role labeling of words in word set, not only the probability between words and implied roles and the correlation of role transfer are considered, but also the characteristics of words in word set are taken into account. The relationship between words and words included in context information in word set is increased, the accuracy of role labeling is improved, and the accuracy of named entity recognition is improved. Accuracy and performance.
【技术实现步骤摘要】
一种命名实体识别方法及装置
本申请涉及文本识别
,尤其涉及一种命名实体识别方法及装置。
技术介绍
命名实体(namedentity),一般值得是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。命名实体的识别就是识别出词语集合(例如句子、段落和文章等)中特定词语(包括单字和词组)的过程。目前,在进行命名实体的识别时,通常会采用隐马尔可夫模型(HiddenMarkovModel,HMM)。HMM是一种统计模型,包括五个基本元素:状态、观测值、状态转移概率矩阵、观测概率矩阵和初始概率矩阵。其中,状态指的是词语集合中每个词语的角色;观测值则指的是词语集合中的词语本身;状态转移矩阵包括某一个角色转移至另一个角色的概率;观测概率矩阵,也可以称为发射矩阵,包括某一个角色输出特定词语的概率;初始概率矩阵,包括词语集合以某一个角色开始的概率。以上五个基本元素均可以通过对训练语料统计得到。从上述HMM的五个基本元素中可看出,利用HMM进行命名实体的识别时,重点关注观测值之间隐含的状态及状态之间的相关联性,并没有考虑到词语本身的特征,导致对命名实体的识别准确率不高。
技术实现思路
有鉴于此,本申请实施例提供了一种命名实体识别方法及装置,能够解决现有技术中识别准确率较低的问题。本申请实施例第一方面提供的一种命名实体识别方法,包括:获取待识别的词语集合;所述词语集合包括多个顺序排列的词语;根据预先得到的概率模型,对所述词语集合中的词语进行角色标注;以角色标注的结果为依据,确定所述词语集合中的命名实体;其中,所述概率模型,包括:状态转 ...
【技术保护点】
1.一种命名实体识别方法,其特征在于,所述方法,包括:获取待识别的词语集合;所述词语集合包括多个顺序排列的词语;根据预先得到的概率模型,对所述词语集合中的词语进行角色标注;以角色标注的结果为依据,确定所述词语集合中的命名实体;其中,所述概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;所述观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。
【技术特征摘要】
1.一种命名实体识别方法,其特征在于,所述方法,包括:获取待识别的词语集合;所述词语集合包括多个顺序排列的词语;根据预先得到的概率模型,对所述词语集合中的词语进行角色标注;以角色标注的结果为依据,确定所述词语集合中的命名实体;其中,所述概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;所述观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。2.根据权利要求1所述的方法,其特征在于,所述观测转移概率矩阵,包括:第一观测转移概率、第二观测转移概率和第三观测转移概率中的任意一个或多个;所述第一观测转移概率包括所述前一个词语本身转移至当前词语的概率;所述第二观测转移概率包括所述前一个词语中任意一个字符转移至所述当前词语的概率;所述第三观测转移概率包括所述前一个词语中任意一个子字符转移至所述当前词语的概率;所述字符包括至少一个所述子字符。3.根据权利要求1或2所述的方法,其特征在于,所述根据预先得到的概率模型,对所述词语集合中的词语进行角色标注,具体包括:根据所述概率模型中的统计概率,利用维特比算法对所述词语集合中的词语进行角色标注,得到所述词语集合中词语的角色。4.根据权利要求3所述的方法,其特征在于,所述根据所述概率模型中的统计概率,利用维特比算法对所述词语集合中的词语进行角色标注,得到所述词语集合中词语的角色,具体包括:根据所述初始概率矩阵和所述发射矩阵,确定所述词语集合的第1个词语对应每个角色的概率,得到多个第1概率;根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述词语集合中第i个词语对应每个角色的概率,得到多个第i概率,并记录每个所述第i概率对应的第i-1个词语的角色;1<i≤N,i为整数,N为所述词语集合中词语的数量;获得与所述词语集合中第N个词语对应的多个第N概率中的最大值,将所述最大值对应的角色作为所述第N个词语的角色,并将所述最大值对应的第N-1个词语的角色作为第N-1个词语的角色;根据所述第j个词语为所述第j个词语的角色时的第j概率得到第j目标概率,将所述第j目标概率对应的第j-1个词语的角色确定为所述第j-1个词语的角色;j=N-1、N-2、……、2。5.根据权利要求4所述的方法,其特征在于,所述根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述词语集合...
【专利技术属性】
技术研发人员:贾弼然,崔朝辉,赵立军,张霞,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。