The invention discloses a convolutional neural network based on fuzzy information Chinese limit range detection method, which comprises the following steps: treat hedges contain the sentences in the corpus segmentation; syntactic analysis, get the phrase structure tree corpus sentence corresponding; candidate sample screening strategies based on phrases, candidate phrases; extraction the left and right boundary words and hedges of context information; the left circle candidate word context information and context information as hedges when sampling cases left boundary sequence of words, the right boundary candidate word context information and context information as hedges on the right field when sampling cases of word sequence to the left; right, when sampling circle example words sequence mapped to real vector space, respectively, into word vector sequence of the left and right boundary, have left F scope boundary detection model and L scope model right boundary detection, to obtain a classifier; the left and right boundary classifier result into the sentence level results, get the final results.
【技术实现步骤摘要】
本专利技术涉及自然语言处理领域中一种模糊限制信息范围检测方法,具体是一种基于卷积神经网络(ConvolutionalNeutralNetwork,CNN)的中文模糊限制信息范围检测的方法。
技术介绍
随着网络信息的迅猛增长以及信息抽取技术的高速发展,抽取信息的真实性和可靠性日益受到人们的关注。为了区分出事实信息和不确定信息,提高信息抽取的质量,许多学者对模糊限制信息范围检测进行了深入的研究。英文模糊限制信息范围检测(HedgeScopeDetection)的研究已经取得了较好的成果,然而中文模糊限制信息范围检测的研究尚处于起步阶段。模糊限制信息范围是由模糊限制语(Hedges)支配的一段完整的语义片段。模糊限制信息范围检测对语义具有较强的依赖性。因此需要深入挖掘中文语义信息,用于中文模糊限制信息范围检测。本专利技术主要是研究如何利用卷积神经网络挖掘深层的语义信息,进行中文模糊限制信息范围的检测。现有的中文模糊限制信息范围检测研究比较少。Chen等(ChenZ,ZouB,ZhuQ,etal.ChineseNegationandSpeculationDetectionwithConditionalRandomFields,NaturalLanguageProcessingandChineseComputing.SpringerBerlinHeidelberg,2013:30-40.)提出利用条件随机域模型基于字、词语、词性、模糊限制语上下文等特识别中文模糊限制语,征。实验采用了中文模糊信息语料库(陈站成,邹博伟,朱巧明等.构建否定与模糊信息识别汉语语料库[E ...
【技术保护点】
一种基于卷积神经网络的中文模糊限制信息范围检测方法,其特征在于包括如下步骤:—对待处理语料中包含模糊限制语的句子进行分词,完成语料的预处理;—对完成分词预处理的语料进行句法解析,得到语料中语句对应的短语结构树;基于短语的候选样例筛选策略,获得候选短语;确定候选短语的边界词;—使用大小为(‑2,+2)的窗口,抽取左、右边界词和模糊限制语的上下文信息;将左边界候选词上下文信息和模糊限制语上下文信息组合成为左边界候选样例词序列,将右边界候选词上下文信息和模糊限制语上下文信息组合成为右边界候选样例词序列;—将所述的左、右边界候选样例词序列,映射到实数向量空间,分别表示成左、右边界的词向量序列,基于CNN学习中文模糊限制信息左、右边界分类模型,得到左边界F‑scope检测模型和右边界L‑scope检测模型,得到分类器;—使用训练后的CNN模型对待处理语料进行分类,得到左、右边界的分类结果;—将左、右边界分类器的结果合并成句子级别的结果,得到最终的范围检测结果。
【技术特征摘要】
1.一种基于卷积神经网络的中文模糊限制信息范围检测方法,其特征在于包括如下步骤:—对待处理语料中包含模糊限制语的句子进行分词,完成语料的预处理;—对完成分词预处理的语料进行句法解析,得到语料中语句对应的短语结构树;基于短语的候选样例筛选策略,获得候选短语;确定候选短语的边界词;—使用大小为(-2,+2)的窗口,抽取左、右边界词和模糊限制语的上下文信息;将左边界候选词上下文信息和模糊限制语上下文信息组合成为左边界候选样例词序列,将右边界候选词上下文信息和模糊限制语上下文信息组合成为右边界候选样例词序列;—将所述的左、右边界候选样例词序列,映射到实数向量空间,分别表示成左、右边界的词向量序列,基于CNN学习中文模糊限制信息左、右边界分类模型,得到左边界F-scope检测模型和右边界L-scope检测模型,得到分类器;—使用训练后的CNN模型对待处理语料进行分类,得到左、右边界的分类结果;—将左、右边界分类器的结果合并成句子级别的结果,得到最终的范围检测结果。2.根据权利要求1所述的基于卷积神经网络的中文模糊限制信息范围检测方法,其特征还在于所述得到的短语结构树中除了模糊限制语的祖先短语外,所有覆盖了模糊限制语的短语和模糊限制语本身的父亲节点,均作为模糊限制信息边界候选短语;将左边界候选短语的最左边的词作为...
【专利技术属性】
技术研发人员:周惠巍,杨云龙,宁时贤,刘壮,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。