一种基于循环注意力机制的文档快速扫描定性方法技术

技术编号:18237774 阅读:47 留言:0更新日期:2018-06-17 01:01
本发明专利技术公开了一种基于循环注意力机制的文档快速扫描定性方法,获取训练数据集,在预处理阶段,将整个文档转换为词向量矩阵,词向量矩阵通过含有循环注意力机制的文档检测模型,包括卷积神经网络模块、最大池化模块、循环神经网络模块,利用回报函数得出回报值reward,训练循环神经网络,优化模型参数,测试模型准确率。本发明专利技术的方法基于注意力机制,引入了强化学习的训练方法,适应性更强,并且不需要对全文进行检索,而是通过处理文档中的局部信息,智能快速的预测出文档中特定的位置,在有限的次数内,快速扫描探索找出最能够代表文档特征的句子,即分类概率最大的句子,这些句子能够最大化的表示该文档的类型。 1

A fast scan qualitative method for document based on circular attention mechanism

This invention discloses a document fast scanning qualitative method based on circular attention mechanism to obtain the training data set. In the preprocessing stage, the whole document is converted into a word vector matrix. The word vector matrix is used to pass the document detection model containing the cyclic attention mechanism, including the volume of the neural network module and the maximum pool module. The recurrent neural network module uses the reward function to get the return value of reward, train recurrent neural network, optimize the model parameters, and test the accuracy of the model. The method of this invention is based on the attention mechanism, introducing the training method of intensive learning. It is more adaptable and does not need to retrieve the full text, but by processing the local information in the document, intelligent and quick prediction of the specific location in the document. In the limited number of times, fast scanning exploration finds the most representative. A sentence characterized by a document, that is, a sentence with the highest probability of classification, which maximizes the type of document. One

【技术实现步骤摘要】
一种基于循环注意力机制的文档快速扫描定性方法
本专利技术涉及自然语言处理和文档分类
,特别涉及一种基于循环注意力机制的文档快速扫描定性方法。
技术介绍
自然语言处理(NLP)技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。目前NLP最流行的方法还是机器学习尤其是深度学习,比如WordEmbedding(词嵌入)、RNN(循环神经网络)、LSTM(长短期记忆网络)、CNN(卷积神经网络)等主流的深度神经网络在NLP中的应用,这已经是目前主流的研究方向。目前,在文档定性分类方面,最经典的结构就是CNN(卷积神经网络),它的结构比较简单,使用长度不同的filter(滤波器)对文档矩阵进行卷积,filter的宽度等于词向量的长度,然后使用max-pooling(最大池化)对每一个filter提取的向量进行操作,最后每一个filter对应一个数字,把这些filter拼接起来,就得到了一个表征该句子的向量,最后的预测都是基于该句子的。该模型作为一个经典的模型,是很多其他领域论文里的实验参照。但是对于文档定性,比如CNN(卷积神经网络)、LSTM(长短期记忆网络)等方法,大多数适用于短文档。但对于长文档,这些方法会导致模型变得非常庞大,并不适用。用关键词方法检索敏感信息,这种方法需要对全文进行检索,准确性不高,效率低下,缺乏了上下文的关联性,并且有些关键词并不主导文档的主要性质。
技术实现思路
本专利技术的目的在于,提出一种基于循环注意力机制的文档快速扫描定性方法,通过若干次探索找出最能够代表文档特征的句子,即分类概率最大的句子,在给定的步数里面,最快的扫描检测出含有标签的那些句子,从而对文档作定性分析。本专利技术采用如下技术方案,一种基于循环注意力机制的文档快速扫描定性方法,该方法首先需要训练一个由卷积神经网络、循环神经网络以及强化学习结合起来的端到端的模型,所使用的训练数据是大量的文档及其标签(该标签即为文档的类别),训练目标是通过几次对文档的句子做探索,可以最大化的输出最能够代表该文档特征的若干句子,这些句子能够最大化的表示该文档的性质类型,其特征在于,具体步骤如下:(1)获取训练数据集,拟定数据集中的文档的标签;(2)在预处理阶段,将文档分成句子,再对句子进行分词,然后对每一个词使用word2vec词向量训练模型将其转化为词向量,由此将句子转化成一个由词向量组成的矩阵,从而将整个文档转换为词向量矩阵;(3)词向量矩阵通过含有循环注意力机制的文档检测模型,包括卷积神经网络模块、最大池化模块、循环神经网络模块,具体步骤为:31)随机选取一个位置t,利用一个一维的卷积神经网络来提取位置t的句子的每个词的语义信息特征,再经过最大池化降维,输出每个句子的特征向量;32)将每个句子的特征向量和上个时间步骤输出的隐含状态ht-1一起输入到循环神经网络中进行编码,然后输出当前时间的隐含状态ht;33)将循环神经网络输出的隐含状态ht输入到一个强化学习模块,输出对下一个位置的索引预测Lt+1;34)找到下一个位置t+1,将位置t+1的句子输入一个一维的卷积神经网络,提取每个词的特征,随后经过最大池化降维得到特征向量,然后,再将上一步输出的位置索引预测Lt+1与特征向量通过一个RELU修正线性单元模块进行线性加和,再输入到循环神经网络之中;35)循环神经网络运行到最后一步时,输出的隐含状态通过一个分类器,输出整篇文档的标签分布概率P;(4)利用回报函数得出回报值reward;(5)训练循环神经网络,优化文档检测模型参数;(6)获取测试数据集,拟定测试数据集中的文档的标签,测试文档检测模型准确率。优选地,步骤(3)中卷积神经网络的卷积核个数为256。优选地,在步骤(4)中,回报函数的流程为:a)步骤(3)中输出的P为一组和为1的数组,数组中较大的概率所对应的下标即为预测的文档标签,同时输出含有预测的文档标签的句子,作为代表文档特征的句子;b)将步骤a)中得到的预测的文档标签与步骤(1)中的文档的标签作比对,如果相同则回报值reward的值为1,不同则回报值reward的值为0。优选地,步骤(5)中的训练优化的目标是最优化目标函数,最小化代价函数,代价函数包括分类的代价函数和强化学习的代价函数,具体步骤为:1)分类的代价函数为交叉熵函数:利用一组已知标签的样本调整分类器的参数,使代价函数即交叉熵函数最小,利用预测的文档标签和步骤(1)中文档的标签,计算出交叉熵C,其中,x表示样本,n表示样本的总数,,y为期望的输出,即文档的标签值(0或者1),a为神经元实际输出,即预测的文档标签值(拟定文档为某一类时标签为1,否则为0),训练时将交叉熵对权重的偏导数反向传播,更新文档检测模型参数;2)强化学习的代价函数为L(θ)=logπ(a|s,θ)·(R-b),其中π(a|s)为神经网络拟合的策略,θ为参数;logπ(a|s,θ)是在状态s下输出动作a的概率的对数似然,用以表示智能体的策略,b为基线baseline,R为回报值reward;再利用自适应矩估计Adam优化器反向更新文档检测模型参数,优化强化学习的代价函数,使代价函数最小化,回报值reward最大化。优选地,训练文档检测模型时,设置步数step为100000步,样本总数为1000,每一个分批处理mini_batch的样本数量为10,训练开始时的学习率learningrate为10-3,设置衰减因子λ,在每一次训练完全部样本之后,学习率learningrate按照衰减因子λ衰减,随着训练进行,最后学习率learningrate变为10-4。优选地,步骤(6)中,将得出的预测的文档标签与测试数据集中的文档的标签对比,如果相同则回报值reward为1,测试文档之后得出一系列的回报值reward的加和,再除以文档数量,得到整个测试文档的分类准确率。专利技术所达到的有益效果:本专利技术是一种基于循环注意力机制的文档快速扫描定性方法,能够解决长文档检测定性困难的问题,快速扫描定位文档中敏感信息。与目前流行的基于CNN或者RNN的文档定性分类方法不同,本专利技术的方法基于注意力机制,引入了强化学习的训练方法,适应性更强,并且不需要对全文进行检索,而是通过处理文档中的局部信息,智能快速的预测出文档中特定的位置,在有限的次数内,快速扫描探索找出最能够代表文档特征的句子,即分类概率最大的句子,这些句子能够最大化的表示该文档的类型。附图说明图1是本专利技术的预处理阶段流程图;图2是本专利技术的含有循环注意力机制的文档检测模型的流程图;图3是本专利技术的回报函数计算图;图4是本专利技术的测试过程流程图。具体实施方式下面根据附图并结合实施例对本专利技术的技术方案作进一步阐述。一种基于循环注意力机制的文档快速扫描定性方法,具体步骤如下:步骤一:获取训练数据集。数据集由若干类型的若干个文档组成,并且已知每类文档所对应的标签值。步骤二:图1是本专利技术的预处理阶段流程图。在预处理阶段,首先将文档Doc分成N个句子,每一个句子由40个词组成,不足40个词的随机填充,超多40个词的截取前40个词。再对句子进行分词,然后使用word2vec将每一个词转化为词向量,其中每一个词向量本文档来自技高网...
一种基于循环注意力机制的文档快速扫描定性方法

【技术保护点】
1.一种基于循环注意力机制的文档快速扫描定性方法,其特征在于,包括以下步骤:

【技术特征摘要】
1.一种基于循环注意力机制的文档快速扫描定性方法,其特征在于,包括以下步骤:(1)获取训练数据集,拟定训练数据集中的文档的标签;(2)在预处理阶段,将文档分成句子,再对句子进行分词,然后对每一个词使用word2vec词向量训练模型转化为词向量,由此将句子转化成一个由词向量组成的矩阵,从而将整个文档转换为词向量矩阵;(3)将词向量矩阵输入文档检测模型,所述文档检测模型包括卷积神经网络模块、最大池化模块和循环神经网络模块,具体步骤为:31)随机选取一个位置t,利用一个一维的卷积神经网络提取位置t的句子的每个词的语义信息特征,再经过最大池化降维,输出每个句子的特征向量;32)将每个句子的特征向量和上个时间步骤输出的隐含状态ht-1一起输入到循环神经网络中进行编码,然后输出当前时间的隐含状态ht;33)将循环神经网络输出的隐含状态ht输入到一个强化学习模块,输出对下一个位置的索引预测Lt+1;34)找到下一个位置t+1,将位置t+1的句子输入到一个一维的卷积神经网络,提取每个词的特征,随后经过最大池化降维得到特征向量,然后,再将上一步输出的位置索引预测Lt+1与特征向量通过一个RELU修正线性单元模块进行线性加和,再输入到循环神经网络之中;35)循环神经网络运行到最后一步时,输出的隐含状态输入到一个分类器,输出整篇文档的标签分布概率P;(4)利用回报函数得出回报值reward;(5)训练循环神经网络,优化文档检测模型参数;(6)获取测试数据集,拟定测试数据集中的文档的标签,测试文档检测模型准确率。2.根据权利要求1所述的基于循环注意力机制的文档快速扫描定性方法,其特征在于,步骤(3)中卷积神经网络的卷积核个数为256。3.根据权利要求1所述的基于循环注意力机制的文档快速扫描定性方法,其特征在于,在步骤(4)中,回报函数的数据处理流程为:a)步骤(3)中输出的标签分布概率P为一组和为1的数组,数组中较大的概率值所对应的下标即为预测的文档标签,同时输出含有预测的文档标签的句子,作为代表文档特征的句子;b)将步骤a)...

【专利技术属性】
技术研发人员:杨维永张宁马超刘凯乐何军赖业宁季叶飞朱进从正海朱世顺郭靓林学峰
申请(专利权)人:南瑞集团有限公司国家电网公司南京信息工程大学国网江苏省电力有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1