一种中文文本命名实体的识别方法技术

技术编号:22594904 阅读:47 留言:0更新日期:2019-11-20 11:11
本发明专利技术公开了一种中文文本命名实体的识别方法,包括:当接收到命名实体识别请求时,对命名实体识别请求进行解析,得到待识别中文文本;将待识别中文文本以句子为分析单位,分别提取各句子中的字符特征、词语特征及整个句子特征;分别将待识别中文文本中各词语的字符特征、词语特征及所在句子的句子特征进行拼接,得到各词语分别对应的特征序列;提取各特征序列的上下文特征,得到上下文特征提取结果;根据上下文特征提取结果,利用马尔科夫转移矩阵法从各词语中标注出待识别中文文本的各命名实体。本发明专利技术较大地提高了命名实体识别的性能,提高了识别准确率。本发明专利技术还公开了一种中文文本命名实体的识别装置、设备及存储介质,具有相应技术效果。

A method of Chinese text named entity recognition

The invention discloses a Chinese text named entity recognition method, which includes: when receiving the named entity recognition request, analyzing the named entity recognition request to get the Chinese text to be recognized; taking the Chinese text to be recognized as the analysis unit, extracting the character feature, word feature and the whole sentence feature in each sentence respectively; recognizing the Chinese text separately The character features, word features and sentence features of each word are spliced to get the corresponding feature sequence of each word; the context features of each feature sequence are extracted to get the context feature extraction results; according to the context feature extraction results, the named entities of the Chinese text to be recognized are marked out from each word by Markov transfer matrix method. The invention greatly improves the performance of named entity recognition and improves the recognition accuracy. The invention also discloses a recognition device, a device and a storage medium for Chinese text naming entities, which have corresponding technical effects.

【技术实现步骤摘要】
一种中文文本命名实体的识别方法
本专利技术涉及大数据
,特别是涉及一种中文文本命名实体的识别方法、装置、设备及计算机可读存储介质。
技术介绍
命名实体识别(NamedEntityRecognition,NER)是指从文本中识别出特定对象事务名称或者符号的过程。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理任务中必不可少的组成部分,使得后续的关系抽取等自然语言处理等任务能够根据实体识别获取更多的知识。因此,对它的研究具有重要的研究意义和价值。目前,英文命名实体识别技术比较成熟。相比于英文,中文命名实体没有明确的边界信息和首字大小写信息,在特定句子语境下,词语具有特定的含义。现有的中文命名实体识别方式是通过单字识别或单词识别的方式对文本进行命名实体识别,命名实体识别的性能差,识别准确率低。综上所述,如何有效地解决命名实体识别的性能差,识别准确率低等问题,是目前本领域技术人员急需解决的问题。
技术实现思路
本专利技术的目的是提供一种中文文本命名实体的识别方法,该方法较大地提高了命名实体识别的性能,提高了识别准确率;本专利技术的另一目的是提供一种中文文本命名实体的识别装置、设备及计算机可读存储介质。为解决上述技术问题,本专利技术提供如下技术方案:一种中文文本命名实体的识别方法,包括:当接收到命名实体识别请求时,对所述命名实体识别请求进行解析,得到待识别中文文本;将所述待识别中文文本以句子为分析单位,分别提取各句子中的字符特征、词语特征及整个句子特征;分别将所述待识别中文文本中各词语分别对应的字符特征、词语特征及所在句子的句子特征进行拼接,得到各词语分别对应的特征序列;提取各特征序列的上下文特征,得到上下文特征提取结果;根据所述上下文特征提取结果,利用马尔科夫转移矩阵法从各所述词语中标注出所述待识别中文文本的各命名实体。在本专利技术的一种具体实施方式中,提取各特征序列的上下文特征,包括:利用双向门控循环神经网络提取各所述特征序列的上下文特征。在本专利技术的一种具体实施方式中,利用马尔科夫转移矩阵法从各所述词语中标注出所述待识别中文文本的各命名实体,包括:利用马尔科夫转移矩阵法计算各所述词语所在句子的得分函数;利用维特比算法将各所述句子的得分函数最大化,得到所述待识别中文文本的最优命名实体标注序列。在本专利技术的一种具体实施方式中,在分别提取各句子中的字符特征、词语特征及整个句子特征之前,还包括:去除各句子的停用词和标点符号,并根据预设词表对各所述句子进行分词处理,得到各所述词语。在本专利技术的一种具体实施方式中,分别提取各句子中的字符特征,包括:利用卷积神经网络分别提取各所述句子中的字符特征。在本专利技术的一种具体实施方式中,分别提取各句子中的词语特征,包括:利用Word2Vec算法分别提取各所述句子中的词语特征。在本专利技术的一种具体实施方式中,分别提取各句子的整个句子特征,包括:利用自动编码器技术分别提取各所述句子的整个句子特征。一种中文文本命名实体的识别装置,包括:文本获得模块,用于当接收到命名实体识别请求时,对所述命名实体识别请求进行解析,得到待识别中文文本;特征提取模块,用于将所述待识别中文文本以句子为分析单位,分别提取各句子中的字符特征、词语特征及整个句子特征;特征序列获得模块,用于分别将所述待识别中文文本中各词语分别对应的字符特征、词语特征及所在句子的句子特征进行拼接,得到各词语分别对应的特征序列;上下文特征提取模块,用于提取各特征序列的上下文特征,得到上下文特征提取结果;命名实体标注模块,用于根据所述上下文特征提取结果,利用马尔科夫转移矩阵法从各所述词语中标注出所述待识别中文文本的各命名实体。一种中文文本命名实体的识别设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如前所述中文文本命名实体的识别方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述中文文本命名实体的识别方法的步骤。应用本专利技术实施例所提供的方法,当接收到命名实体识别请求时,对命名实体识别请求进行解析,得到待识别中文文本;将待识别中文文本以句子为分析单位,分别提取各句子中的字符特征、词语特征及整个句子特征;分别将待识别中文文本中各词语分别对应的字符特征、词语特征及所在句子的句子特征进行拼接,得到各词语分别对应的特征序列;提取各特征序列的上下文特征,得到上下文特征提取结果;根据上下文特征提取结果,利用马尔科夫转移矩阵法从各词语中标注出待识别中文文本的各命名实体。通过将字词句特征进行拼接的方式,有效地弥补了单字识别和单词识别的不足,加入句子特征提高了识别系统的鲁棒性,通过提取各词语分别对应的特征序列的上下文特征,并利用马尔科夫转移矩阵法进行命名实体标注,充分建立了上下文之间的联系,较大地提高了命名实体识别的性能,提高了识别准确率。相应的,本专利技术实施例还提供了与上述中文文本命名实体的识别方法相对应的中文文本命名实体的识别装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中中文文本命名实体的识别方法的一种实施流程图;图2为本专利技术实施例中中文文本命名实体的识别方法的另一种实施流程图;图3为本专利技术实施例中一种中文文本命名实体的识别装置的结构框图;图4为本专利技术实施例中一种中文文本命名实体的识别设备的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一:参见图1,图1为本专利技术实施例中中文文本命名实体的识别方法的一种实施流程图,该方法可以包括以下步骤:S101:当接收到命名实体识别请求时,对命名实体识别请求进行解析,得到待识别中文文本。当需要进行命名实体识别时,可以向识别系统发送命名实体识别请求。识别系统接收到命名实体识别请求,并对命名实体识别请求进行解析,得到待识别中文文本。S102:将待识别中文文本以句子为分析单位,分别提取各句子中的字符特征、词语特征及整个句子特征。待识别中文文本中一般包含多个句子,可以将待识别中文文本以句子为分析单位,分别提取各本文档来自技高网
...

【技术保护点】
1.一种中文文本命名实体的识别方法,其特征在于,包括:/n当接收到命名实体识别请求时,对所述命名实体识别请求进行解析,得到待识别中文文本;/n将所述待识别中文文本以句子为分析单位,分别提取各句子中的字符特征、词语特征及整个句子特征;/n分别将所述待识别中文文本中各词语分别对应的字符特征、词语特征及所在句子的句子特征进行拼接,得到各词语分别对应的特征序列;/n提取各特征序列的上下文特征,得到上下文特征提取结果;/n根据所述上下文特征提取结果,利用马尔科夫转移矩阵法从各所述词语中标注出所述待识别中文文本的各命名实体。/n

【技术特征摘要】
1.一种中文文本命名实体的识别方法,其特征在于,包括:
当接收到命名实体识别请求时,对所述命名实体识别请求进行解析,得到待识别中文文本;
将所述待识别中文文本以句子为分析单位,分别提取各句子中的字符特征、词语特征及整个句子特征;
分别将所述待识别中文文本中各词语分别对应的字符特征、词语特征及所在句子的句子特征进行拼接,得到各词语分别对应的特征序列;
提取各特征序列的上下文特征,得到上下文特征提取结果;
根据所述上下文特征提取结果,利用马尔科夫转移矩阵法从各所述词语中标注出所述待识别中文文本的各命名实体。


2.根据权利要求1所述的中文文本命名实体的识别方法,其特征在于,提取各特征序列的上下文特征,包括:
利用双向门控循环神经网络提取各所述特征序列的上下文特征。


3.根据权利要求1或2所述的中文文本命名实体的识别方法,其特征在于,利用马尔科夫转移矩阵法从各所述词语中标注出所述待识别中文文本的各命名实体,包括:
利用马尔科夫转移矩阵法计算各所述词语所在句子的得分函数;
利用维特比算法将各所述句子的得分函数最大化,得到所述待识别中文文本的最优命名实体标注序列。


4.根据权利要求3所述的中文文本命名实体的识别方法,其特征在于,在分别提取各句子中的字符特征、词语特征及整个句子特征之前,还包括:
去除各句子的停用词和标点符号,并根据预设词表对各所述句子进行分词处理,得到各所述词语。


5.根据权利要求4所述的中文文本命名实体的识别方法,其特征在于,分别提取各句子中的字符特征,包括:
利用卷积神经网络分别提取各所述句...

【专利技术属性】
技术研发人员:程良伦邓健峰张凡龙
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1