一种汉语国际教育领域命名实体识别方法技术

技术编号:19479952 阅读:23 留言:0更新日期:2018-11-17 10:31
本发明专利技术公开了一种汉语国际教育领域命名实体识别方法,该汉语国际教育领域命名实体识别方法具体步骤如下:S1:设计命名实体标签,用于识别文本中的命名实体,S2:通过已标注的汉语国际领域命名实体数据集,训练命名实体识别模型,S3:对未标注的汉语国际教育领域文本进行命名实体识别测试,利用已经训练好的模型,跟基于规则的方法相比,本发明专利技术避免了领域专家大量人工设计规则模板的问题。本发明专利技术采用基于双向长短时记忆网络和条件随机场的深度学习方法,来进行命名实体识别。该方法不需针对该任务人工设计特征,仅仅采用词嵌入向量、字嵌入向量和词性嵌入向量这些自动特征,能够达到很好的效果。

【技术实现步骤摘要】
一种汉语国际教育领域命名实体识别方法
本专利技术涉及汉语国际教育
,具体为一种汉语国际教育领域命名实体识别方法。
技术介绍
汉语国际教育的目标是教外国人学习汉语,是中国文化软实力的核心之一,是发扬和传播中华文化的重要载体。近年来,对汉语国际教育而言,利用大数据进行教学和研究是一个比较新的尝试。对汉语国际教育领域文本,包括互联网媒体数据、学术文章、标注资源和教学素材等进行信息抽取,将非结构化文本转换为结构数据,有助于对外汉语教师对该领域知识的理解,辅助汉语教学。命名实体识别是信息抽取领域的一个关键步骤,目标是从文本中识别重要的实体。对汉语国际教育领域文本,其目标是识别出语音、语法、汉字等用户关心的实体。命名实体识别主要采用基于规则的方法和基于统计的方法。基于规则的方法主要是通过专家对文本的分析,总结命名实体的内部特征及上下文特征,然后人工设计规则模板,主要以正则表达式匹配的方法来进行命名实体识别。但是这些规则往往依赖于具体语言、文本领域及类型,编写规则耗时且难以涵盖所有的语言现象,需要对规则进行频繁更新才能够保持优秀性能。目前在命名实体领域,基于统计统计机器学习的方法是当前最广泛使用的方法。各种机器学习方法,包括支持向量机和条件随机场模型,在该领域展现出了优越的性能,但是当前优秀系统的成功依赖于大量人工设计的特征模板。最近深度学习方法在自然语言处理领域取得了显著的进展,在一些任务上获得了优秀的性能,并且能够缓解领域专家人工设计特征的问题。
技术实现思路
本专利技术的目的在于提供一种汉语国际教育领域命名实体识别方法,其特征在于:该汉语国际教育领域命名实体识别方法具体步骤如下:S1:设计命名实体标签,用于识别文本中的命名实体,对汉语国际教育领域文本识别一下几种类别的实体:语音(Voice):包括元音、辅音、声母、韵母、声调等,语法(Grammar):包括句子成分、句子结构、固定短语等,汉字(Character):包括结构、笔画、笔顺等,文化(Culture):包括基本文化、交际文化、对比文化等,语言技能(Skill):包括听力、口语、商务汉语、新闻听读等,教学法(Teach):教学原则、类型、目标等,命名实体识别就被形式化为一个序列标注问题,采用BIESO标签来表示命名实体边界,其中,S表示仅包含一个词的实体;当实体包含大于一个词时,B表示实体的开始词,E表示实体的结束词,I表示实体的内部词;O表示不属于任何实体的词;S2:通过已标注的汉语国际领域命名实体数据集,训练命名实体识别模型,首先,给定一个输入句子,输入层用于计算每个输入词的向量表示,该向量表示包括三部分:词嵌入向量、词性嵌入向量和字级别表示,将这三部分联接起来,得到句子中每个词的向量表示,并将其作为输入层输入到LSTM层,在LSTM输出的基础上,采用CRF对整个句子的标签序列进行联合解码,对于输入层,给定一个输入句子s,可以看作包含m个词的有序链表s={w1,…,wm},为了获取词的字级别表示,我们用{c1,…,cn}表示词wi的字序列,其中cj是词的第j个字,字嵌入查找表函数用于将每个字cj映射到它的字嵌入表示对词wi,采用注意力模型来对词本身包含的字信息进行编码,获取词的字级别表示,在该模型中,其中是wi的字信息表示,是对应的权重,⊙是点积函数并且每个的计算基于当前词wi的词嵌入表示和当前字的字嵌入表示具体计算公式如下:其中是向量联接函数,Wc、Wt、Ut、bc和bt是模型参数,将字级别表示词性嵌入向量和词嵌入向量结合起来得到当前位置的词表示,然后,我们使用一个窗口函数来对当前词的上下文建模,将以当前词wi为中心的5个词的词表示联接起来作为当前词最终的词表示输入到下一层,下一步,将句子序列对应的词的向量表示序列,输入到LSTM神经网络层,LSTM用于获取一个词的上下文信息,能够进行自动的特征抽取,前向LSTM和后向LSTM能够在该层结合起来,LSTM神经网络层之后,是一个用于组成更丰富特征的非线性前馈神经网络层;最后,神经网络的输出向量传输到CRF层,我们通过CRF层对该句子的标记序列进行联合解码,能够考虑到相邻标记间的相关性;在模型训练方面,采用最大似然目标来训练模型,并且采用AdaGrad算法来更新模型参数;模型的参数包含输入层中的各种嵌入向量、每个神经层的权重矩阵W和偏置向量b,以及CRF层的转移分值矩阵;在模型参数初始化方面,词嵌入向量需要大规模无标注语料预先训练得到,采用的训练语料来自于互联网爬取的汉语国际教育相关语料,所选语料并不是通用语料,这样训练出来的词嵌入向量更适合于该领域任务。然后我们对该语料进行分词,使用当前常用的词嵌入向量学习方法word2vec来训练词嵌入向量,对字嵌入向量和词性嵌入向量,我们将其向量维度设置为30,并且采用[0,1]范围之间的随机初始化,对我们神经网络模型中的每个神经层,权重矩阵W和偏置向量b采用之间的随机初始化,其中r和c分别是矩阵W和行数和列数;S3:对未标注的汉语国际教育领域文本进行命名实体识别测试,利用已经训练好的模型,对整个句子进行解码,得到每个句子的实体标签序列,进而得到命名实体识别结果。优选的,S1设计了一套命名实体标签,对汉语国际教育领域文本识别以下几种类别的实体,包括语音、语法、汉字、文化、语言技能以及教学法六类实体,对句子中的每个词,给一个对应的实体标签,基于这些标签,能够得到句子的命名实体识别结果。优选的,S2中模型的输入层用于计算每个输入词的向量表示,该向量表示的计算过程包括三部分:词嵌入向量、词性嵌入向量和字级别表示,将这三部分联接起来,得到句子中每个词的向量表示,其中采用注意力模型来获取词的字级别表示。优选的,S2中将输入层输入到双向长短时记忆网络,在该层输出的基础上,采用条件随机场对整个句子的标签序列进行联合解码。与现有技术相比,本专利技术的有益效果是:1、跟基于规则的方法相比,本专利技术避免了领域专家大量人工设计规则模板的问题。2、本专利技术采用基于双向长短时记忆网络和条件随机场的深度学习方法,来进行命名实体识别。该方法不需针对该任务人工设计特征,仅仅采用词嵌入向量、字嵌入向量和词性嵌入向量这些自动特征,能够达到很好的效果。附图说明图1为汉语国际教育领域命名实体标签实例图;图2为本专利技术模型的总体框架。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例1本专利技术提供一种技术方案:一种汉语国际教育领域命名实体识别方法,该汉语国际教育领域命名实体识别方法具体步骤如下:步骤一,设计命名实体标签,用于识别文本中的命名实体。我们对汉语国际教育领域文本识别一下几种类别的实体:语音(Voice):包括元音、辅音、声母、韵母、声调等语法(Grammar):包括句子成分、句子结构、固定短语等汉字(Character):包括结构、笔画、笔顺等文化(Culture):包括基本文化、交际文化、对比文化等语言技能(Skill):包括听力、口语、商务汉语、新闻听读等教学法(Teach):教学原则、类型、目标等。该技术将一个句子看作词序列,对一个句子,给其一个对应的实体标本文档来自技高网...

【技术保护点】
1.一种汉语国际教育领域命名实体识别方法,其特征在于:该汉语国际教育领域命名实体识别方法具体步骤如下:S1:设计命名实体标签,用于识别文本中的命名实体,对汉语国际教育领域文本识别一下几种类别的实体:语音(Voice):包括元音、辅音、声母、韵母、声调等,语法(Grammar):包括句子成分、句子结构、固定短语等,汉字(Character):包括结构、笔画、笔顺等,文化(Culture):包括基本文化、交际文化、对比文化等,语言技能(Skill):包括听力、口语、商务汉语、新闻听读等,教学法(Teach):教学原则、类型、目标等,命名实体识别就被形式化为一个序列标注问题,采用BIESO标签来表示命名实体边界,其中,S表示仅包含一个词的实体;当实体包含大于一个词时,B表示实体的开始词,E表示实体的结束词,I表示实体的内部词;O表示不属于任何实体的词;S2:通过已标注的汉语国际领域命名实体数据集,训练命名实体识别模型,首先,给定一个输入句子,输入层用于计算每个输入词的向量表示,该向量表示包括三部分:词嵌入向量、词性嵌入向量和字级别表示,将这三部分联接起来,得到句子中每个词的向量表示,并将其作为输入层输入到LSTM层,在LSTM输出的基础上,采用CRF对整个句子的标签序列进行联合解码,对于输入层,给定一个输入句子s,可以看作包含m个词的有序链表s={wi,…,wm},为了获取词的字级别表示,我们用{c1,…,cn}表示词wi的字序列,其中cj是词的第j个字,字嵌入查找表函数用于将每个字cj映射到它的字嵌入表示...

【技术特征摘要】
1.一种汉语国际教育领域命名实体识别方法,其特征在于:该汉语国际教育领域命名实体识别方法具体步骤如下:S1:设计命名实体标签,用于识别文本中的命名实体,对汉语国际教育领域文本识别一下几种类别的实体:语音(Voice):包括元音、辅音、声母、韵母、声调等,语法(Grammar):包括句子成分、句子结构、固定短语等,汉字(Character):包括结构、笔画、笔顺等,文化(Culture):包括基本文化、交际文化、对比文化等,语言技能(Skill):包括听力、口语、商务汉语、新闻听读等,教学法(Teach):教学原则、类型、目标等,命名实体识别就被形式化为一个序列标注问题,采用BIESO标签来表示命名实体边界,其中,S表示仅包含一个词的实体;当实体包含大于一个词时,B表示实体的开始词,E表示实体的结束词,I表示实体的内部词;O表示不属于任何实体的词;S2:通过已标注的汉语国际领域命名实体数据集,训练命名实体识别模型,首先,给定一个输入句子,输入层用于计算每个输入词的向量表示,该向量表示包括三部分:词嵌入向量、词性嵌入向量和字级别表示,将这三部分联接起来,得到句子中每个词的向量表示,并将其作为输入层输入到LSTM层,在LSTM输出的基础上,采用CRF对整个句子的标签序列进行联合解码,对于输入层,给定一个输入句子s,可以看作包含m个词的有序链表s={wi,…,wm},为了获取词的字级别表示,我们用{c1,…,cn}表示词wi的字序列,其中cj是词的第j个字,字嵌入查找表函数用于将每个字cj映射到它的字嵌入表示对词wi,采用注意力模型来对词本身包含的字信息进行编码,获取词的字级别表示,在该模型中,其中是wi的字信息表示,是对应的权重,⊙是点积函数并且每个的计算基于当前词wi的词嵌入表示和当前字的字嵌入表示具体计算公式如下:其中是向量联接函数,Wc、Wt、Ut、bc和bt是模型参数,将字级别表示词性嵌入向量和词嵌入向量结合起来得到当前位置的词表示,然后,我们使用一个窗口函数来对当前词的上下文建模,将以当前词wi为中心的5个词的词表示联接起来作为当前词最终的词表示输入到下一层,下一步,将句子序列对应的词的向量表示序列,输入到LSTM神经网络层,LST...

【专利技术属性】
技术研发人员:吕晨姬东鸿任亚峰陈波
申请(专利权)人:广东外语外贸大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1