一种采用稀疏编码的自然语言语义深度解析算法制造技术

技术编号:15762991 阅读:164 留言:0更新日期:2017-07-05 23:37
本发明专利技术公开了一种采用稀疏编码的自然语言语义深度解析算法,本发明专利技术通过文本预训练、文本训练和文本测试三个步骤得到自然语言的解析结果。具有联想记忆能力,计算简便,使自然信号的结构更加清晰的优点,解决现今自然语言解析存在的近义、歧义和文本语义难以辨析的问题。在本专利中采用稀疏编码的方法将作为样本数据的词与词间的向量空间距离拉大,使原本有相近或歧义含义的词间的细微差别扩大化,有效的将具有歧义或近义的词分开,使得文本中的整体语义更加符合文本作者的真实意图,为提高处理大量自然语言语义解析的准确性提供了便利。因此采用稀疏编码的自然语言语义深度解析算法对于文本解析的后续处理具有重要的理论意义和应用价值。

A deep semantic parsing algorithm based on sparse coding

The invention discloses a natural language semantic depth analysis algorithm adopting sparse coding, and obtains the parsing result of natural language through three steps of text pre training, text training and text testing. It has the advantages of associative memory, simple calculation and clearer structure of natural signals. It can solve the problem of ambiguity and text semantics that exist in the analysis of natural language at present. By using the method of sparse encoding will be used as a vector space of word sample data between the distance in the patent, which had similar nuances or ambiguous meaning of words between the enlargement of the separate effective will have ambiguous or synonymous words, making the overall semantic text in accord with the author of the text in order to improve the accuracy of real intention, deal with natural language semantic analysis provides a convenient. Therefore, it is of great theoretical significance and practical value for sparse text coding to parse the depth of natural language for subsequent processing of text parsing.

【技术实现步骤摘要】
一种采用稀疏编码的自然语言语义深度解析算法
本专利技术涉及神经网络对自然语言处理的领域,尤其涉及采用深置信度神经网络和稀疏编码方法,对自然语言进行语义深度解析的一种采用稀疏编码的自然语言语义深度解析算法。
技术介绍
现如今,自然语言语义解析在各个领域的应用十分广泛。对于文本特征选择时,存在语义表征不明确的问题,这主要是由于文本中词语间出现歧义或近义而难以辨析所导致。这一问题的解决与否几乎决定了自然语言处理的效果。由于稀疏编码算法是一种无监督学习方法,通过寻找一组“超完备”基向量来更高效地表示样本数据。同时其还具备编存储能力大,具有联想记忆能力,计算简便,使自然信号的结构更加清晰的优点。所以本专利采用稀疏编码的方式处理现存的这一问题,在本专利中采用稀疏编码的方法将作为样本数据的词与词间的向量空间距离拉大,使原本有相近或歧义含义的词间的细微差别扩大化,有效的将具有歧义或近义的词分开,使得文本中的整体语义更加符合文本作者的真实意图,为提高处理大量自然语言语义解析的准确性提供了便利。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种采用稀疏编码的自然语言语义深度解析算法。本专利技术通过以下技术方案来实现上述目的:本专利技术包括以下步骤:1)采用基于统计的分词方法。在训练文本中,通过计算字x与字y的组合度大小,从而来判断字x与字y是否是同一个单词。其组合度的计算公式如下:其中,Hxy为字x与字y的组合度大小,k为文本中xy组合的个数,n1为文本中字x的个数,n2为文本中字y的个数,N为文本的总字数。2)采用word2vec对分好的词组进行转化。将分好词的文本语料作为word2vec的输入文件并指定合适的训练参数,进行中文词向量的训练,得到最佳的词语对应的词向量。3)搭建DBN神经网络,将转换好的词向量输入DBN神经网络中进行稀疏编码神经网络的训练,得到训练好的稀疏编码器。稀疏编码将多维的数据进行线性分解,进行线性转换,表达如下:S=MX(2)其中,M为稀疏变换矩阵,其每一个行向量类似于小波变换中的小波基;S为线性转换后的稀疏分量,满足稀疏分布的要求。4)通过步骤3)的训练,将训练文本的词向量序列输入这个训练好的稀疏编码器中,得到文本的稀疏特征。5)将步骤4)中得到的稀疏特征进行分类和解析。搭建DBN神经网络,将稀疏特征输入DBN中,对其进行训练,得到语义的解析结果。这个过程包括以下算法:搭建深度置信神经网络DBN,利用TF-IDF方法选取特征项,经过受限玻尔兹曼机RBM网络预训练和反向传播BP神经网络微调来训练DBN网络模型,拟合训练数据集的分布,重构出测试数据集的分类模型。其条件分布可表示为:其中,σ=1/(1+e-x),为sigmoid激活函数。RBM作为一个系统,其能量函数形式如下:其中,θ=(W,a,b)是RBM的参数。基于能量函数,可得到(v,h)的联合分布概率为:p(v,h|θ)=1/(Z(θ))e-E(v,h|θ)(6)其中,Z(θ)为归一化因子,为所有可视层和隐含层概率的和,即:p(v,h|θ)对h的边缘分布为:RBM采用迭代的方式进行训练,求出参数θ=(W,a,b)的最优值。利用最大似然学习可得参数的更新公式如下:Δai=ε(<vi>data-<vi>model)(11)Δbj=ε(<hj>data-<hj>model)(12)其中,T为输入样本数目;<>data表示训练集所定义的分布之上的数学期望;<>model表示初始模型所定义的分布之上的数学期望;ε为学习率。本专利技术的有益效果在于:本专利技术是一种采用稀疏编码的自然语言语义深度解析算法。在对含有歧义、近义词语或是有不同语义段落的文本进行解析时,与其它方法相比,本专利采用了将词向量进行稀疏编码的方式且充分利用稀疏编码具备编存储能力大,具有联想记忆能力,计算简便,使自然信号的结构更加清晰的优点,将作为样本数据的词与词间的向量空间距离拉大,使原本有相近或歧义含义的词间的细微差别扩大化不仅有效的将具有歧义或近义的词分开,同时还使得文本中的整体语义更加符合文本作者的真实意图,为提高处理大量自然语言语义解析的准确性提供了便利。附图说明图1为整体结构流程框图。图2为DBN网络结构图。具体实施方式如图1、2所示,本专利技术各部分具体实施细节如下:1、预训练文本。该过程包含以下3个步骤:(1)将预训练文本进行分词得到词组;(2)将上述分好的词通过word2vc转换成词向量;(3)搭建DBN神经网络,将完成转换的词向量输入DBN中,得到稀疏编码器。2、训练文本。该过程包含以下4个步骤:(1)将训练文本进行分词得到词组;(2)将上述分好的词通过word2vc转换成词向量;(3)把完成转换的词向量输入上述步骤1中得到的稀疏编码器中,从而得到词组的稀疏编码特征;(4)搭建DBN神经网络,将上述得到的稀疏编码特征输入DBN中进行训练,得到训练好的DBN网络语义解析器。3、测试文本。该过程包含以下3个步骤:(1)将测试文本进行分词得到词组;(2)将上述分好的词通过word2vc转换成词向量;(3)把上述完成转换的词向量输入步骤2中训练好的DBN网络语义解析器中,得到最终的自然语言语义解析结果。以上显示描述了本专利技术的基本原理和主要特征及本专利技术的优点。本行业的技术人员应该了解,本专利技术不受上述实施例的限制,上述实施例和说明书中描述的只是说明本专利技术的原理,在不脱离本专利技术精神和范围的前提下,本专利技术还会有各种变化和改进,这些变化和改进都落入要求保护的本专利技术范围内。本专利技术要求保护范围由所附的权利要求书及其等效物界定。本文档来自技高网...
一种采用稀疏编码的自然语言语义深度解析算法

【技术保护点】
一种采用稀疏编码的自然语言语义深度解析算法,其特征在于,包括以下步骤:1)将预训练文本提交给深置信度神经网络完成预训练,获得稀疏编码器;2)训练文本经过稀疏编码器编码后提交给深置信度神经网络完成训练,获得语义解析器;3)使用新的测试文本经过稀疏编码器获得稀疏编码之后,将文本的稀疏编码提交给训练好的语义解析器,获得语义的解析结果。

【技术特征摘要】
1.一种采用稀疏编码的自然语言语义深度解析算法,其特征在于,包括以下步骤:1)将预训练文本提交给深置信度神经网络完成预训练,获得稀疏编码器;2)训练文本经过稀疏编码器...

【专利技术属性】
技术研发人员:李鹏华米怡孙健朱智勤程安宇
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1