中文文本的识别方法及装置制造方法及图纸

技术编号:22594886 阅读:128 留言:0更新日期:2019-11-20 11:11
本发明专利技术提供了一种中文文本的识别方法及装置,其中,该方法包括:采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括以下至少之一:自匹配推荐网络,自注意力推荐网络;采用通过Encoder‑Decoder模型识别所述表述主干的表达含义;将所述表达含义确定为所述目标中文文本的识别结果。通过本发明专利技术,解决了现有技术中不能识别复杂句式的中文文本的技术问题。

Chinese text recognition method and device

The invention provides a Chinese text recognition method and device, wherein the method comprises: extracting the expression backbone of the target Chinese text by using the preset recommendation network, wherein the preset recommendation network comprises at least one of the following: self matching recommendation network, self attention recommendation network; identifying the expression meaning of the expression backbone by using the encoder \u2011 decoder model; and The expression meaning is determined as the recognition result of the target Chinese text. The invention solves the technical problem that the Chinese text in the prior art can not recognize the complex sentence pattern.

【技术实现步骤摘要】
中文文本的识别方法及装置
本专利技术涉及人工智能领域,具体而言,涉及一种中文文本的识别方法及装置。
技术介绍
现有技术中,NLP(NaturalLanguageProcessing,自然语言处理)深度学习训练的分类/回归器更多的是针对文本整体,而在自然语言中,中文的描述非常丰富,比喻、借代、比拟等“反科学常识”修辞手法比比皆是,如何在复杂的中文辞藻中,判断表述的主干,抽取有实际意义的陈述是亟待解决的问题。针对现有技术中存在的上述问题,目前尚未发现有效的解决方案。
技术实现思路
本专利技术实施例提供了一种中文文本的识别方法及装置,用于解决现有技术中不能识别复杂句式的中文文本的技术问题。根据本专利技术的一个实施例,提供了一种中文文本的识别方法,包括:采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括以下至少之一:自匹配推荐网络,自注意力推荐网络;采用通过Encoder-Decoder模型识别所述表述主干的表达含义;将所述表达含义确定为所述目标中文文本的识别结果。可选的,采用预设推荐网络提取目标中文文本的表述主干包括:采用自匹配推荐网络提取目标中文文本的第一表述主干,以及采用自注意力推荐网络提取目标中文文本的第二表述主干;在所述第一表述主干和所述第二表述主干中根据预设条件选择一个优先级高的表述主干,其中,所述预设条件包括以下之一:表述主干的语法结构、表述主干的字数范围。可选的,采用自匹配推荐网络提取目标中文文本的第一表述主干包括:采用预设语料库建立模糊规则库;采用高斯隶属度函数将所述目标中文文本进行模糊化处理得到事实项,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果;将模糊推理结果进行去模糊化得出最终推理结果,并将所述最终推理结果确定为所述第一表述主干。可选的,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果,包括:构建rete模糊模式,以及构建rete连接网络,其中,rete连接网络将模糊规则中具有归属关系的rete模糊模式作为一个集合,实现对模糊规则前件的构建,每个连接网设置一个reteflag标识来记录该连接网是否匹配成功;将事实项与rete模糊模式的测试域进行匹配,并将匹配成功的事实项存储到对应的α寄存器中,并根据α寄存器的更新状态进行reteflag的更新,将reteflag为true的模糊规则的结论作为模糊推理结果。可选的,采用自注意力推荐网络提取目标中文文本的第二表述主干包括:针对每个单词创建一个上下文向量,并使用所述上下文向量和单词的原始向量构建组合向量;利用非对称卷积神经网络对所有单词的组合向量进行合成形成句子向量,利用双向门循环神经网络对所有句子的句子向量进行合成形成文档向量;依次删除文档向量中的任一单词的组合向量,并计算源文档与删除后文档的相似度,选择相似度最小的n个单词按照其在文档中的原时序组合成第二表述主干,其中,n为大于1的整数。可选的,采用通过Encoder-Decoder模型识别所述表述主干的表达含义包括:采用编码器Encoder将所述表述主干编码成一个上下文向量c;将c作为初始状态h0输入到解码器Decoder的第一级解码函数,然后将第一级函数的输出作为第二级函数的输入,依次得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。可选的,采用通过Encoder-Decoder模型识别所述表述主干的表达含义包括:采用Encoder函数将所述表述主干编码成一个上下文向量c;采用Decoder函数将c当作Decoder中每一级函数的输入,同时将前一级函数的输出作为后一级函数的输入,依次得到所有函数的输出,依次计算得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。根据本专利技术的另一个实施例,提供了一种中文文本的识别装置,包括:提取模块,用于采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括以下至少之一:自匹配推荐网络,自注意力推荐网络;识别模块,用于采用通过Encoder-Decoder模型识别所述表述主干的表达含义;确定模块,用于将所述表达含义确定为所述目标中文文本的识别结果。可选的,所述提取模块包括:提取单元,用于采用自匹配推荐网络提取目标中文文本的第一表述主干,以及采用自注意力推荐网络提取目标中文文本的第二表述主干;选择单元,用于在所述第一表述主干和所述第二表述主干中根据预设条件选择一个优先级高的表述主干,其中,所述预设条件包括以下之一:表述主干的语法结构、表述主干的字数范围。可选的,所述提取单元包括:第一构建子单元,用于采用预设语料库建立模糊规则库;处理子单元,用于采用高斯隶属度函数将所述目标中文文本进行模糊化处理得到事实项,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果;确定子单元,用于将模糊推理结果进行去模糊化得出最终推理结果,并将所述最终推理结果确定为所述第一表述主干。可选的,所述处理子单元还用于:构建rete模糊模式,以及构建rete连接网络,其中,rete连接网络将模糊规则中具有归属关系的rete模糊模式作为一个集合,实现对模糊规则前件的构建,每个连接网设置一个reteflag标识来记录该连接网是否匹配成功;将事实项与rete模糊模式的测试域进行匹配,并将匹配成功的事实项存储到对应的α寄存器中,并根据α寄存器的更新状态进行reteflag的更新,将reteflag为true的模糊规则的结论作为模糊推理结果。可选的,所述提取单元包括:第二构建子单元,用于针对每个单词创建一个上下文向量,并使用所述上下文向量和单词的原始向量构建组合向量;合成子单元,用于利用非对称卷积神经网络对所有单词的组合向量进行合成形成句子向量,利用双向门循环神经网络对所有句子的句子向量进行合成形成文档向量;选择子单元,用于依次删除文档向量中的任一单词的组合向量,并计算源文档与删除后文档的相似度,选择相似度最小的n个单词按照其在文档中的原时序组合成第二表述主干,其中,n为大于1的整数。可选的,所述识别模块包括:编码单元,用于采用编码器Encoder将所述表述主干编码成一个上下文向量c;第一解码单元,用于将c作为初始状态h0输入到解码器Decoder的第一级解码函数,然后将第一级函数的输出作为第二级函数的输入,依次得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。可选的,所述识别模块包括:编码单元,用于采用Encoder函数将所述表述主干编码成一个上下文向量c;第二解码单元,用于采用Decoder函数将c当作Decoder中每一级函数的输入,同时将前一级函数的输出作为后一级函数的输入,依次得到所有函数的输出,依次计算得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。根据本专利技术的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本专利技术本文档来自技高网...

【技术保护点】
1.一种中文文本的识别方法,其特征在于,包括:/n采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括以下至少之一:自匹配推荐网络,自注意力推荐网络;/n采用通过Encoder-Decoder模型识别所述表述主干的表达含义;/n将所述表达含义确定为所述目标中文文本的识别结果。/n

【技术特征摘要】
1.一种中文文本的识别方法,其特征在于,包括:
采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括以下至少之一:自匹配推荐网络,自注意力推荐网络;
采用通过Encoder-Decoder模型识别所述表述主干的表达含义;
将所述表达含义确定为所述目标中文文本的识别结果。


2.根据权利要求1所述的方法,其特征在于,采用预设推荐网络提取目标中文文本的表述主干包括:
采用自匹配推荐网络提取目标中文文本的第一表述主干,以及采用自注意力推荐网络提取目标中文文本的第二表述主干;
在所述第一表述主干和所述第二表述主干中根据预设条件选择一个优先级高的表述主干,其中,所述预设条件包括以下之一:表述主干的语法结构、表述主干的字数范围。


3.根据权利要求2所述的方法,其特征在于,采用自匹配推荐网络提取目标中文文本的第一表述主干包括:
采用预设语料库建立模糊规则库;
采用高斯隶属度函数将所述目标中文文本进行模糊化处理得到事实项,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果;
将模糊推理结果进行去模糊化得出最终推理结果,并将所述最终推理结果确定为所述第一表述主干。


4.根据权利要求3述的方法,其特征在于,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果,包括:
构建rete模糊模式,以及构建rete连接网络,其中,rete连接网络将模糊规则中具有归属关系的rete模糊模式作为一个集合,实现对模糊规则前件的构建,每个连接网设置一个reteflag标识来记录该连接网是否匹配成功;
将事实项与rete模糊模式的测试域进行匹配,并将匹配成功的事实项存储到对应的α寄存器中,并根据α寄存器的更新状态进行reteflag的更新,将reteflag为true的模糊规则的结论作为模糊推理结果。


5.根据权利要求2述的方法,其特征在于,采用自注意力推荐网络提取目标中文文本的第二表述主干包括:
针对每个单词创建一个上下文向量,并使用所述上下文向量和单词的原始...

【专利技术属性】
技术研发人员:张懿
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1