一种基于循环注意力机制的文档快速扫描定性方法技术

技术编号：18237774 阅读：47 留言：0更新日期：2018-06-17 01:01

本发明专利技术公开了一种基于循环注意力机制的文档快速扫描定性方法，获取训练数据集，在预处理阶段，将整个文档转换为词向量矩阵，词向量矩阵通过含有循环注意力机制的文档检测模型，包括卷积神经网络模块、最大池化模块、循环神经网络模块，利用回报函数得出回报值reward，训练循环神经网络，优化模型参数，测试模型准确率。本发明专利技术的方法基于注意力机制，引入了强化学习的训练方法，适应性更强，并且不需要对全文进行检索，而是通过处理文档中的局部信息，智能快速的预测出文档中特定的位置，在有限的次数内，快速扫描探索找出最能够代表文档特征的句子，即分类概率最大的句子，这些句子能够最大化的表示该文档的类型。 1

A fast scan qualitative method for document based on circular attention mechanism

This invention discloses a document fast scanning qualitative method based on circular attention mechanism to obtain the training data set. In the preprocessing stage, the whole document is converted into a word vector matrix. The word vector matrix is used to pass the document detection model containing the cyclic attention mechanism, including the volume of the neural network module and the maximum pool module. The recurrent neural network module uses the reward function to get the return value of reward, train recurrent neural network, optimize the model parameters, and test the accuracy of the model. The method of this invention is based on the attention mechanism, introducing the training method of intensive learning. It is more adaptable and does not need to retrieve the full text, but by processing the local information in the document, intelligent and quick prediction of the specific location in the document. In the limited number of times, fast scanning exploration finds the most representative. A sentence characterized by a document, that is, a sentence with the highest probability of classification, which maximizes the type of document. One

全部详细技术资料下载

【技术实现步骤摘要】
一种基于循环注意力机制的文档快速扫描定性方法
本专利技术涉及自然语言处理和文档分类
，特别涉及一种基于循环注意力机制的文档快速扫描定性方法。
技术介绍
自然语言处理(NLP)技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。目前NLP最流行的方法还是机器学习尤其是深度学习，比如WordEmbedding(词嵌入)、RNN(循环神经网络)、LSTM(长短期记忆网络)、CNN(卷积神经网络)等主流的深度神经网络在NLP中的应用，这已经是目前主流的研究方向。目前，在文档定性分类方面，最经典的结构就是CNN(卷积神经网络)，它的结构比较简单，使用长度不同的filter(滤波器)对文档矩阵进行卷积，filter的宽度等于词向量的长度，然后使用max-pooling(最大池化)对每一个filter提取的向量进行操作，最后每一个filter对应一个数字，把这些filter拼接起来，就得到了一个表征该句子的向量，最后的预测都是基于该句子的。该模型作为一个经典的模型，是很多其他领域论文里的实验参照。但是对于文档定性，比如CNN(卷积神经网络)、LSTM(长短期记忆网络)等方法，大多数适用于短文档。但对于长文档，这些方法会导致模型变得非常庞大，并不适用。用关键词方法检索敏感信息，这种方法需要对全文进行检索，准确性不高，效率低下，缺乏了上下文的关联性，并且有些关键词并不主导文档的主要性质。
技术实现思路
本专利技术的目的在于，提出一种基于循环注意力机制的文档快速扫描定性方法，通过若干次探索找出最能够代表文档特...

【技术保护点】
1.一种基于循环注意力机制的文档快速扫描定性方法，其特征在于，包括以下步骤：

【技术特征摘要】
1.一种基于循环注意力机制的文档快速扫描定性方法，其特征在于，包括以下步骤：(1)获取训练数据集，拟定训练数据集中的文档的标签；(2)在预处理阶段，将文档分成句子，再对句子进行分词，然后对每一个词使用word2vec词向量训练模型转化为词向量，由此将句子转化成一个由词向量组成的矩阵，从而将整个文档转换为词向量矩阵；(3)将词向量矩阵输入文档检测模型，所述文档检测模型包括卷积神经网络模块、最大池化模块和循环神经网络模块，具体步骤为：31)随机选取一个位置t，利用一个一维的卷积神经网络提取位置t的句子的每个词的语义信息特征，再经过最大池化降维，输出每个句子的特征向量；32)将每个句子的特征向量和上个时间步骤输出的隐含状态ht-1一起输入到循环神经网络中进行编码，然后输出当前时间的隐含状态ht；33)将循环神经网络输出的隐含状态ht输入到一个强化学习模块，输出对下一个位置的索引预测Lt+1；34)找到下一个位置t+1，将位置t+1的句子输入到一个一维的卷积神经网络，提取每个词的特征，随后经过最大池化降维得到特征向量，然后，再将上一步输出的位置索引预测Lt+1与特征向量通过一个RELU修正线性单元模块进行线性加和，再输入到循环神经网络之中；35)循环神经网络运行到最后一步时，输出的隐含状态输入到一个分类器，输出整篇文档的标签分布概率P；(4)利用回报函数得出回报值reward；(5)训练循环神经网络，优化文档检测模型参数；(6)获取测试数据集，拟定测试数据集中的文档的标签，测试文档检测模型准确率。2.根据权利要求1所述的基于循环注意力机制的文档快速扫描定性方法，其特征在于，步骤(3)中卷积神经网络的卷积核个数为256。3.根据权利要求1所述的基于循环注意力机制的文档快速扫描定性方法，其特征在于，在步骤(4)中，回报函数的数据处理流程为：a)步骤(3)中输出的标签分布概率P为一组和为1的数组，数组中较大的概率值所对应的下标即为预测的文档标签,同时输出含有预测的文档标签的句子，作为代表文档特征的句子；b)将步骤a)...

【专利技术属性】
技术研发人员：杨维永，张宁，马超，刘凯乐，何军，赖业宁，季叶飞，朱进，从正海，朱世顺，郭靓，林学峰，
申请(专利权)人：南瑞集团有限公司，国家电网公司，南京信息工程大学，国网江苏省电力有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人