一种语句相似度判断方法及判断系统技术方案

技术编号：21432460 阅读：60 留言：0更新日期：2019-06-22 12:00

本发明专利技术公开了一种语句相似度判断方法，所述相似度判断方法包括：步骤一：搜集原始文本；步骤二：构建相似度判断模型，所述相似度判断模型以CNN和快捷堆叠式BiLSTM作为句子的编码器；步骤三：将表示的句子向量拼接，将不同向量合并成维度更高的向量；步骤四：将合并的向量经过一层全连接层；步骤五：将所述全连接层的输出作为下一个全连接层的输入，其中下一个全连接层的输出类别数为分类类别数；步骤六：通过分类器和损失函数训练网络用于语句相似度判断。本发明专利技术通过以CNN和BiLSTM网络为编码器，充分提取文本特征向量，以提高最终的文本相似度计算的精确度，提高具体QA应用场景中问话匹配的准确度。本发明专利技术还提出了一种语句相似度判断系统。

全部详细技术资料下载

【技术实现步骤摘要】
一种语句相似度判断方法及判断系统
本专利技术属于自然语言处理中语义相似度计算
，尤其涉及一种语句相似度判断方法及判断系统。
技术介绍
句子语义相似度计算，目前在信息检索、数据挖掘、机器翻译、文档抄袭检测、自动问答等领域，均有着广泛的应用。现有技术用于语义相似度计算的经典模型是如图1所示的基于LSTM的孪生神经网络。将要进行相似度计算的句子对做词嵌入，即将句子以词向量表示。将词向量输入到神经网络，再将网络的输出做计算操作，最后输出。目前，所述基于LSTM的孪生神经网络还具有如下缺点：LSTM网络提取句子特征，没有综合考虑句子前向和反向关系特征，导致语义特征提取不全，相似度判别结果不理想。传统的神经网络需要过多的考虑人为的语义特征，人工干预过多传统的基于RNN的网络只能提取文本前后信息关联，而不能提取文本部分重要信息特征，传统基于CNN的网络只能提取文本部分文本语义特征，忽略前后联系，鉴于此，改模型将两种模型融合，取各自优点，进行多角度特征提取文本语义特征信息。
技术实现思路
为克服现有技术的上述缺陷，本专利技术针对LSTM网络不能捕捉句子的上下文含义以及句子的特征信息提取不全的缺点，为了提高语义相似度计算的准确度，提高QA系统问话匹配的精确度，提出了一种语句相似度判断方法，包含一种新型模型，该模型将以双向LSTM和CNN网络结构作为最后文本相似度计算的特征向量提取网络。具体地，如图1-2所示，本专利技术所述语句相似度判断方法包括以下步骤：步骤一：搜集原始文本，原始文本无特殊要求，格式为要进行相似度判断的句子对，相似度为1，不相似为0；步骤二：构建相似度判断...

【技术保护点】
1.一种语句相似度判断方法，其特征在于，包括以下步骤：步骤一：搜集原始文本；步骤二：构建相似度判断模型，所述相似度判断模型以CNN和快捷堆叠式BiLSTM作为句子的编码器；步骤三：将表示的句子向量拼接，将不同向量合并成维度更高的向量；步骤四：将合并的向量经过一层全连接层；步骤五：将所述全连接层的输出作为下一个全连接层的输入，其中下一个全连接层的输出类别数为分类类别数；步骤六：通过分类器和损失函数训练网络用于语句相似度判断。

【技术特征摘要】
1.一种语句相似度判断方法，其特征在于，包括以下步骤：步骤一：搜集原始文本；步骤二：构建相似度判断模型，所述相似度判断模型以CNN和快捷堆叠式BiLSTM作为句子的编码器；步骤三：将表示的句子向量拼接，将不同向量合并成维度更高的向量；步骤四：将合并的向量经过一层全连接层；步骤五：将所述全连接层的输出作为下一个全连接层的输入，其中下一个全连接层的输出类别数为分类类别数；步骤六：通过分类器和损失函数训练网络用于语句相似度判断。2.如权利要求1所述的语句相似度判断方法，其特征在于，所述步骤一中，所述搜集原始文本的过程包括：格式为要进行相似度判断的句子对，相似度为1，不相似为0。3.如权利要求1所述的语句相似度判断方法，其特征在于，所述相似度判断模型堆叠biLSTM层数为3层，biLSTMi表示第i层的biLSTM，第i层的biLSTM在t时刻输入的句子表示为则第i层biLSTM在时刻t的输出表示为：；W＝(w1,w2,...,wn)表示句子序列，其中wi∈Rd表示句子中第i个词的表示向量，则第i层biLSTM在时刻t表示为：若所述相似度判断模型是m层biLSTM，最后的文本向量表示由最后第m层biLSTM输出再经过最大池化操作获得，最后一层表示为：v＝max(Hm)；其中，dm表示biLSTM隐藏状态的维度，v表示句子的最后向量表示，句子对分别表示为rnn1，rnn2，分别将编码器的向量输出作单元距离计算，记为hrnn1，以及元素相乘计算，记为hrnn2；所述CNN编码器对量化后的文本做池化操作，句子对分别表示为cnn1，cnn2，分别将池化后的句子对做单元距离计算，记为hcnn1，以及元素相乘计算，记...

【专利技术属性】
技术研发人员：聂桂芝，杨攀攀，黄建强，
申请(专利权)人：上海方立数码科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人