The invention discloses a natural language semantic depth analysis algorithm adopting sparse coding, and obtains the parsing result of natural language through three steps of text pre training, text training and text testing. It has the advantages of associative memory, simple calculation and clearer structure of natural signals. It can solve the problem of ambiguity and text semantics that exist in the analysis of natural language at present. By using the method of sparse encoding will be used as a vector space of word sample data between the distance in the patent, which had similar nuances or ambiguous meaning of words between the enlargement of the separate effective will have ambiguous or synonymous words, making the overall semantic text in accord with the author of the text in order to improve the accuracy of real intention, deal with natural language semantic analysis provides a convenient. Therefore, it is of great theoretical significance and practical value for sparse text coding to parse the depth of natural language for subsequent processing of text parsing.
【技术实现步骤摘要】
一种采用稀疏编码的自然语言语义深度解析算法
本专利技术涉及神经网络对自然语言处理的领域,尤其涉及采用深置信度神经网络和稀疏编码方法,对自然语言进行语义深度解析的一种采用稀疏编码的自然语言语义深度解析算法。
技术介绍
现如今,自然语言语义解析在各个领域的应用十分广泛。对于文本特征选择时,存在语义表征不明确的问题,这主要是由于文本中词语间出现歧义或近义而难以辨析所导致。这一问题的解决与否几乎决定了自然语言处理的效果。由于稀疏编码算法是一种无监督学习方法,通过寻找一组“超完备”基向量来更高效地表示样本数据。同时其还具备编存储能力大,具有联想记忆能力,计算简便,使自然信号的结构更加清晰的优点。所以本专利采用稀疏编码的方式处理现存的这一问题,在本专利中采用稀疏编码的方法将作为样本数据的词与词间的向量空间距离拉大,使原本有相近或歧义含义的词间的细微差别扩大化,有效的将具有歧义或近义的词分开,使得文本中的整体语义更加符合文本作者的真实意图,为提高处理大量自然语言语义解析的准确性提供了便利。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种采用稀疏编码的自然语言语义深度解析算法。本专利技术通过以下技术方案来实现上述目的:本专利技术包括以下步骤:1)采用基于统计的分词方法。在训练文本中,通过计算字x与字y的组合度大小,从而来判断字x与字y是否是同一个单词。其组合度的计算公式如下:其中,Hxy为字x与字y的组合度大小,k为文本中xy组合的个数,n1为文本中字x的个数,n2为文本中字y的个数,N为文本的总字数。2)采用word2vec对分好的词组进行转化。将分好词的文 ...
【技术保护点】
一种采用稀疏编码的自然语言语义深度解析算法,其特征在于,包括以下步骤:1)将预训练文本提交给深置信度神经网络完成预训练,获得稀疏编码器;2)训练文本经过稀疏编码器编码后提交给深置信度神经网络完成训练,获得语义解析器;3)使用新的测试文本经过稀疏编码器获得稀疏编码之后,将文本的稀疏编码提交给训练好的语义解析器,获得语义的解析结果。
【技术特征摘要】
1.一种采用稀疏编码的自然语言语义深度解析算法,其特征在于,包括以下步骤:1)将预训练文本提交给深置信度神经网络完成预训练,获得稀疏编码器;2)训练文本经过稀疏编码器...
【专利技术属性】
技术研发人员:李鹏华,米怡,孙健,朱智勤,程安宇,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。