一种快速命名体识别方法技术

技术编号：22884275 阅读：49 留言：0更新日期：2019-12-21 07:24

本发明专利技术提出一种快速命名体识别方法，涉及命名体识别领域。该方法首先对待识别的文本进行预处理，将文本进行分句，并转换为字符序列；对预处理完毕的文本分别进行局部信息建模和全局信息建模，得到文本字符的局部上下文表示和全局上下文表示；基于文本字符的局部上下文表示和全局上下文表示对文本字符的标签序列进行联合解码，得到得到命名体识别任务的损失函数，对损失函数进行优化，得到文本的命名体识别结果。本发明专利技术在保持命名体识别性能的前提下有效地提升了命名体识别的速度。

A fast named object recognition method

全部详细技术资料下载

【技术实现步骤摘要】
一种快速命名体识别方法
本专利技术涉及命名体识别领域，具体涉及一种快速命名体识别方法，用于从文本中快速抽取命名实体。
技术介绍
命名体识别旨在从文本中提取命名体，并将它们分类为不同的类别，例如人员，位置和组织。例如，在句子“阿里准备去阿里工作”中，命名体识别任务的目的是将第一个“阿里”识别为人员实体，将第二个“阿里”识别为组织实体。命名体识别是自然语言处理领域的一项重要任务，也是许多下游应用程序的先决条件，例如实体链接和关系抽取，这两者对于构建和应用知识图非常重要。因此，命名体识别任务近年来受到越来越多的关注。近年来，基于深度学习的方法已在命名体识别中广泛使用。这些方法通常基于LSTM(长短时记忆网络)-CRF(条件随机场)架构及其变体。例如，Lample等人提出了一种基于LSTM-CRF的命名体识别方法，其中LSTM用于从句子的上下文信息中学习单词的隐向量表示，CRF用于捕获单词标签之间的依赖关系以进行联合标签解码。Chiu等人提出了一种基于CNN-LSTM-CRF架构的方法，其中卷积神经网络(CNN)网络用于从单词字母中学习单词的表示。彼得斯等人提出了一种基于CNN-LSTMs-CRF架构的名为TagLM的半监督命名体识别方法。他们建议将来自预训练语言模型的上下文单词向量合并到他们的模型中以增强单词表示。与英文文本不同，中文文本中的词语没有明确的分隔符如空格，来将词语进行分割。因此，中文命名体识别通常被建模为字符级序列标记问题。例如，彭等人提出了一种基于LSTM-CRF架构的中文命名体识别方法，其中LST...

【技术保护点】
1.一种快速命名体识别方法，其特征在于，包括以下步骤：/n1)对待识别的文本进行预处理，将文本进行分句，并转换为字符序列；/n2)对步骤1)预处理完毕的文本进行局部信息建模，得到文本字符的局部上下文表示；/n3)对步骤1)预处理完毕的文本进行全局信息进行建模，得到文本字符的全局上下文表示；/n4)基于文本字符的局部上下文表示和全局上下文表示对文本字符的标签序列进行联合解码，得到得到命名体识别任务的损失函数，对损失函数进行优化，得到文本的命名体识别结果。/n

【技术特征摘要】
1.一种快速命名体识别方法，其特征在于，包括以下步骤：
1)对待识别的文本进行预处理，将文本进行分句，并转换为字符序列；
2)对步骤1)预处理完毕的文本进行局部信息建模，得到文本字符的局部上下文表示；
3)对步骤1)预...

【专利技术属性】
技术研发人员：齐涛，黄永峰，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人