基于卷积神经网络的中文模糊限制信息范围检测系统技术方案

技术编号:15248359 阅读:327 留言:0更新日期:2017-05-02 09:12
本发明专利技术公开了一种基于卷积神经网络的中文模糊限制信息范围检测方法,包括如下步骤:对待处理语料中包含模糊限制语的句子进行分词;进行句法解析,得到语料中语句对应的短语结构树;基于短语的候选样例筛选策略,获得候选短语;抽取左、右边界词和模糊限制语的上下文信息;将左边界候选词上下文信息和模糊限制语上下文信息组合成为左边界候选样例词序列,将右边界候选词上下文信息和模糊限制语上下文信息组合成为右边界候选样例词序列;将所述的左、右边界候选样例词序列,映射到实数向量空间,分别表示成左、右边界的词向量序列,得到左边界F‑scope检测模型和右边界L‑scope检测模型,得到分类器;将左、右边界分类器的结果合并成句子级别的结果,得到最终的范围检测结果。

Chinese fuzzy information range detection system based on convolutional neural network

The invention discloses a convolutional neural network based on fuzzy information Chinese limit range detection method, which comprises the following steps: treat hedges contain the sentences in the corpus segmentation; syntactic analysis, get the phrase structure tree corpus sentence corresponding; candidate sample screening strategies based on phrases, candidate phrases; extraction the left and right boundary words and hedges of context information; the left circle candidate word context information and context information as hedges when sampling cases left boundary sequence of words, the right boundary candidate word context information and context information as hedges on the right field when sampling cases of word sequence to the left; right, when sampling circle example words sequence mapped to real vector space, respectively, into word vector sequence of the left and right boundary, have left F scope boundary detection model and L scope model right boundary detection, to obtain a classifier; the left and right boundary classifier result into the sentence level results, get the final results.

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域中一种模糊限制信息范围检测方法,具体是一种基于卷积神经网络(ConvolutionalNeutralNetwork,CNN)的中文模糊限制信息范围检测的方法。
技术介绍
随着网络信息的迅猛增长以及信息抽取技术的高速发展,抽取信息的真实性和可靠性日益受到人们的关注。为了区分出事实信息和不确定信息,提高信息抽取的质量,许多学者对模糊限制信息范围检测进行了深入的研究。英文模糊限制信息范围检测(HedgeScopeDetection)的研究已经取得了较好的成果,然而中文模糊限制信息范围检测的研究尚处于起步阶段。模糊限制信息范围是由模糊限制语(Hedges)支配的一段完整的语义片段。模糊限制信息范围检测对语义具有较强的依赖性。因此需要深入挖掘中文语义信息,用于中文模糊限制信息范围检测。本专利技术主要是研究如何利用卷积神经网络挖掘深层的语义信息,进行中文模糊限制信息范围的检测。现有的中文模糊限制信息范围检测研究比较少。Chen等(ChenZ,ZouB,ZhuQ,etal.ChineseNegationandSpeculationDetectionwithConditionalRandomFields,NaturalLanguageProcessingandChineseComputing.SpringerBerlinHeidelberg,2013:30-40.)提出利用条件随机域模型基于字、词语、词性、模糊限制语上下文等特识别中文模糊限制语,征。实验采用了中文模糊信息语料库(陈站成,邹博伟,朱巧明等.构建否定与模糊信息识别汉语语料库[EB/OL].北京:中国科技论文在线.http://www.paper.edu.cn/releasepaper/content/201303-689),然而并未进行模糊限制信息范围检测的研究。Zou等(ZouBZhuQZhouG.NegationandSpeculationIdentificationinChineseLanguage[C]//ProceedingoftheAnnualACLConference2015.)利用依存关系树,将模糊限制语、模糊限制语的祖先节点,和祖先节点的兄弟节点为根节点的依存子树作为边界候选,利用支持向量机检测中文模糊限制信息范围。在自己构建的科学文献、产品评论和金融文章三个数据集上分别达到了54.16%、49.64%、52.89%的F值。上述研究都是使用one-hot形式(0-1向量)的特征检测模糊限制信息。这种离散的特征表示会产生数据稀疏,不能充分捕获模糊限制信息范围内部词语间的深层语义信息。随着深度学习的发展,基于分布式假设表示词语和短语的语义信息在情感分类,关系抽取等自然语言处理任务中已经取得了巨大的成功。在语义信息的表达上,深度学习比传统的机器学习方法更能捕捉到词语或短语内部深层的潜在语义信息。Zhou等(ZhouH,XuJ,YangY,etal.ChineseHedgeScopeDetectionBasedonStructureandSemanticInformation//ChineseComputationalLinguisticsandNaturalLanguageProcessingBasedonNaturallyAnnotatedBigData.2016.)利用长短时记忆递归网络(LongShortTermMemory,LSTM)捕捉语义信息,检测模糊限制信息范围。并进一步与传统的基于统计的支持向量机检测模型进行结合,构建了一个模糊限制信息范围检测混合系统。但至今没有发现利用卷积神经网络(ConvolutionalNeutralNetwork,CNN)进行中文模糊限制信息范围检测。模糊限制信息范围检测任务比较复杂,具有依赖于语义的特点,单纯基于传统的统计机器学习模型,难以挖掘深层语义信息。因此,需要探索如何利用深度学习方法,挖掘深层的语义信息,提高中文模糊限制信息检测性能。
技术实现思路
鉴于以上所述现有方法的问题,本专利技术的目的在于提供1、一种基于卷积神经网络的中文模糊限制信息范围检测方法,其特征在于包括如下步骤:—对待处理语料中包含模糊限制语的句子进行分词,完成语料的预处理;—对完成分词预处理的语料进行句法解析,得到语料中语句对应的短语结构树;基于短语的候选样例筛选策略,获得候选短语;确定候选短语的边界词;—使用大小为(-2,+2)的窗口,抽取左、右边界词和模糊限制语的上下文信息;将左边界候选词上下文信息和模糊限制语上下文信息组合成为左边界候选样例词序列,将右边界候选词上下文信息和模糊限制语上下文信息组合成为右边界候选样例词序列;—将所述的左、右边界候选样例词序列,映射到实数向量空间,分别表示成左、右边界的词向量序列,基于CNN学习中文模糊限制信息左、右边界分类模型,得到左边界F-scope监测模型和右边界L-scope检测模型,得到分类器;—使用训练后的CNN模型对待处理语料进行分类,得到左、右边界的分类结果;—将左、右边界分类器的结果合并成句子级别的结果,得到最终的范围检测结果。作为优选的实施方式,所述得到的短语结构树中除了模糊限制语的祖先短语外,所有覆盖了模糊限制语的短语和模糊限制语本身的父亲节点,均作为模糊限制信息边界候选短语;在短语结构树中,祖先短语就是当前模糊限制语节点的父亲节点、祖父节点等等。。这些节点是带有短语类型信息的,称为祖先短语。将左边界候选短语的最左边的词作为左边界候选词,将右边界候选短语的最右边的词作为右边界候选词。作为优选的实施方式,还具有后处理步骤:—如果分类器识别出一个F-scope,一个L-scope,则范围开始于标注为F-scope的词,结束于标注为L-scope的词;—如果分类器没有识别出F-scope,识别出一个L-scope,则模糊限制信息范围开始于模糊限制语,结束于标注为L-scope的词;—如果分类器识别出一个F-scope,没有识别出L-scope,则模糊限制信息范围开始于标注为F-scope的词,结束于句子的最后一个词;—如果分类器识别出一个F-scope,多个L-scope,则模糊限制信息范围开始于标注为F-scope的词,结束于最后一个标注为L-scope的词;—如果分类器识别出多个F-scope,一个L-scope,则模糊限制信息范围开始于第一个标注为F-scope的词,结束于标注为L-scope的词。作为优选的实施方式,所述的将所述的左、右边界候选样例词序列,映射到实数向量空间,分别表示成左、右边界的词向量序列由卷积神经网络CNN的向量表示层完成;对于词序列w={w1,w2,...,wi,...,wn本文档来自技高网
...

【技术保护点】
一种基于卷积神经网络的中文模糊限制信息范围检测方法,其特征在于包括如下步骤:—对待处理语料中包含模糊限制语的句子进行分词,完成语料的预处理;—对完成分词预处理的语料进行句法解析,得到语料中语句对应的短语结构树;基于短语的候选样例筛选策略,获得候选短语;确定候选短语的边界词;—使用大小为(‑2,+2)的窗口,抽取左、右边界词和模糊限制语的上下文信息;将左边界候选词上下文信息和模糊限制语上下文信息组合成为左边界候选样例词序列,将右边界候选词上下文信息和模糊限制语上下文信息组合成为右边界候选样例词序列;—将所述的左、右边界候选样例词序列,映射到实数向量空间,分别表示成左、右边界的词向量序列,基于CNN学习中文模糊限制信息左、右边界分类模型,得到左边界F‑scope检测模型和右边界L‑scope检测模型,得到分类器;—使用训练后的CNN模型对待处理语料进行分类,得到左、右边界的分类结果;—将左、右边界分类器的结果合并成句子级别的结果,得到最终的范围检测结果。

【技术特征摘要】
1.一种基于卷积神经网络的中文模糊限制信息范围检测方法,其特征在于包括如下步骤:—对待处理语料中包含模糊限制语的句子进行分词,完成语料的预处理;—对完成分词预处理的语料进行句法解析,得到语料中语句对应的短语结构树;基于短语的候选样例筛选策略,获得候选短语;确定候选短语的边界词;—使用大小为(-2,+2)的窗口,抽取左、右边界词和模糊限制语的上下文信息;将左边界候选词上下文信息和模糊限制语上下文信息组合成为左边界候选样例词序列,将右边界候选词上下文信息和模糊限制语上下文信息组合成为右边界候选样例词序列;—将所述的左、右边界候选样例词序列,映射到实数向量空间,分别表示成左、右边界的词向量序列,基于CNN学习中文模糊限制信息左、右边界分类模型,得到左边界F-scope检测模型和右边界L-scope检测模型,得到分类器;—使用训练后的CNN模型对待处理语料进行分类,得到左、右边界的分类结果;—将左、右边界分类器的结果合并成句子级别的结果,得到最终的范围检测结果。2.根据权利要求1所述的基于卷积神经网络的中文模糊限制信息范围检测方法,其特征还在于所述得到的短语结构树中除了模糊限制语的祖先短语外,所有覆盖了模糊限制语的短语和模糊限制语本身的父亲节点,均作为模糊限制信息边界候选短语;将左边界候选短语的最左边的词作为...

【专利技术属性】
技术研发人员:周惠巍杨云龙宁时贤刘壮
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1