The invention discloses a Chinese text named entity recognition method, which includes: when receiving the named entity recognition request, analyzing the named entity recognition request to get the Chinese text to be recognized; taking the Chinese text to be recognized as the analysis unit, extracting the character feature, word feature and the whole sentence feature in each sentence respectively; recognizing the Chinese text separately The character features, word features and sentence features of each word are spliced to get the corresponding feature sequence of each word; the context features of each feature sequence are extracted to get the context feature extraction results; according to the context feature extraction results, the named entities of the Chinese text to be recognized are marked out from each word by Markov transfer matrix method. The invention greatly improves the performance of named entity recognition and improves the recognition accuracy. The invention also discloses a recognition device, a device and a storage medium for Chinese text naming entities, which have corresponding technical effects.
【技术实现步骤摘要】
一种中文文本命名实体的识别方法
本专利技术涉及大数据
,特别是涉及一种中文文本命名实体的识别方法、装置、设备及计算机可读存储介质。
技术介绍
命名实体识别(NamedEntityRecognition,NER)是指从文本中识别出特定对象事务名称或者符号的过程。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理任务中必不可少的组成部分,使得后续的关系抽取等自然语言处理等任务能够根据实体识别获取更多的知识。因此,对它的研究具有重要的研究意义和价值。目前,英文命名实体识别技术比较成熟。相比于英文,中文命名实体没有明确的边界信息和首字大小写信息,在特定句子语境下,词语具有特定的含义。现有的中文命名实体识别方式是通过单字识别或单词识别的方式对文本进行命名实体识别,命名实体识别的性能差,识别准确率低。综上所述,如何有效地解决命名实体识别的性能差,识别准确率低等问题,是目前本领域技术人员急需解决的问题。
技术实现思路
本专利技术的目的是提供一种中文文本命名实体的识别方法,该方法较大地提高了命名实体识别的性能,提高了识别准确率;本专利技术的另一目的是提供一种中文文本命名实体的识别装置、设备及计算机可读存储介质。为解决上述技术问题,本专利技术提供如下技术方案:一种中文文本命名实体的识别方法,包括:当接收到命名实体识别请求时,对所述命名实体识别请求进行解析,得到待识别中文文本;将所述待识别中文文本以句子为分析单位,分别提取各句子中的字符特征 ...
【技术保护点】
1.一种中文文本命名实体的识别方法,其特征在于,包括:/n当接收到命名实体识别请求时,对所述命名实体识别请求进行解析,得到待识别中文文本;/n将所述待识别中文文本以句子为分析单位,分别提取各句子中的字符特征、词语特征及整个句子特征;/n分别将所述待识别中文文本中各词语分别对应的字符特征、词语特征及所在句子的句子特征进行拼接,得到各词语分别对应的特征序列;/n提取各特征序列的上下文特征,得到上下文特征提取结果;/n根据所述上下文特征提取结果,利用马尔科夫转移矩阵法从各所述词语中标注出所述待识别中文文本的各命名实体。/n
【技术特征摘要】
1.一种中文文本命名实体的识别方法,其特征在于,包括:
当接收到命名实体识别请求时,对所述命名实体识别请求进行解析,得到待识别中文文本;
将所述待识别中文文本以句子为分析单位,分别提取各句子中的字符特征、词语特征及整个句子特征;
分别将所述待识别中文文本中各词语分别对应的字符特征、词语特征及所在句子的句子特征进行拼接,得到各词语分别对应的特征序列;
提取各特征序列的上下文特征,得到上下文特征提取结果;
根据所述上下文特征提取结果,利用马尔科夫转移矩阵法从各所述词语中标注出所述待识别中文文本的各命名实体。
2.根据权利要求1所述的中文文本命名实体的识别方法,其特征在于,提取各特征序列的上下文特征,包括:
利用双向门控循环神经网络提取各所述特征序列的上下文特征。
3.根据权利要求1或2所述的中文文本命名实体的识别方法,其特征在于,利用马尔科夫转移矩阵法从各所述词语中标注出所述待识别中文文本的各命名实体,包括:
利用马尔科夫转移矩阵法计算各所述词语所在句子的得分函数;
利用维特比算法将各所述句子的得分函数最大化,得到所述待识别中文文本的最优命名实体标注序列。
4.根据权利要求3所述的中文文本命名实体的识别方法,其特征在于,在分别提取各句子中的字符特征、词语特征及整个句子特征之前,还包括:
去除各句子的停用词和标点符号,并根据预设词表对各所述句子进行分词处理,得到各所述词语。
5.根据权利要求4所述的中文文本命名实体的识别方法,其特征在于,分别提取各句子中的字符特征,包括:
利用卷积神经网络分别提取各所述句...
【专利技术属性】
技术研发人员:程良伦,邓健峰,张凡龙,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。