基于多视角注意力机制的深度文本排序方法技术

技术编号:26791127 阅读:15 留言:0更新日期:2020-12-22 17:06
本发明专利技术涉及一种基于多视角注意力机制的深度文本排序架构,其中,包括:输入层,用于输入网络模型中的数据;编码层使用双向长短期记忆网络分别编码查询和文本中单词的上下文特征,在双向长短期记忆网络中包括前向LSTM和后向LSTM;内部交互层,用来建模文本中不同单词的重要程度,对重要程度不同的单词给予不同的权重,采用自注意力机制建模查询与文本各自内部的重要语义信息;外部交互层,用来建模查询与文本之间的交互相关性,采用双向注意力机制来捕获查询与文本交互过程中的匹配模式;输出层,将外部交互层的输出作为输入,输出查询与文本的相关性分数作为排序依据。

【技术实现步骤摘要】
基于多视角注意力机制的深度文本排序方法
本专利技术属于信息检索领域,具体涉及一种基于多视角注意力机制的深度文本排序方法。
技术介绍
文本排序是指给定查询和候选文本集合,在候选文本集合中找到与查询相关的文本并按照相关性排序的过程。一种可靠的文本排序方法将大大提升文本检索的效率并降低人工成本,这在内容过滤、舆情分析、态势感知等领域具有较高的研究价值和应用需求。早期的信息检索排序方法主要是基于关键字的查询文本匹配。随着机器学习算法的发展,人们提出了效果更好的检索机制。逻辑推理方法使用逻辑回归概率来确定查询和文档之间的相关性。信息检索中的其他传统技术包括基于Boosting的方法、基于TF-IDF相似度和OkapiBM25是最常用的基于术语的文本搜索和排序方法。随着深度神经网络在文本数据特征表示学习中的成功,人们提出了一些用于文本检索的神经网络排序方法。现有的神经网络排序方法可以分为两类,即以基于表示的匹配方法和基于交互的匹配方法。在基于表示的方法中,深度结构语义方法使用简单的前向神经网络来学习查询和文本的语义表示,并使用余弦相似度函数计算它们的语义相似度。卷积深度结构语义方法使用卷积层表示词汇的三元组特征,而Palangi等人提出的方法则使用长短期记忆网络LSTM编码器的最后输出状态作为查询和文本的特征,同样这两个方法都使用查询和文档表示之间的余弦相似度函数来计算它们的相关性。在Hu等人提出的工作中,作者提出了卷积神经网络文本语义匹配方法Architecture-I(ARC-I),该方法也使用卷积结构来创建查询和文本的表示,并使用前馈神经网络来计算它们的相关性。所有这些方法都使用了查询和文本的文本级语义表示。在Guo等人提出了深度语义匹配方法,该方法利用了查询词和文档词之间的交互特征。Hu等人提出的Architecture-II(ARC-II)使用卷积运算来计算文本的交互特征,并将这些特征反馈到一个深度前馈网络中,以计算相关性得分。MatchPyramid方法则利用查询和文本词向量之间的点积作为交互特征,然后利用卷积层计算相关度得分。这些方法都使用了基于交互的文本匹配方法。当文本较长时,或者与查询有很少的词汇字面重叠时,传统的技术通常不能取得较好地效果。与传统的方法相比,神经网络排序方法具有足够的建模能力以及更大的潜力来学习这些复杂任务。在文本检索的大多数情况下,与查询相关的文本是来自文本中的某个或者某几个句子。因此,将整个文本的表示与查询的表示相匹配不会产生很好的结果,基于表示的方法往往效果不能使人满意。因为文本的表示中还包含来自其他不相关部分的特征。基于交互的匹配方法的一个共同限制是它们没有充分利用文本中内在的层次结构,因此,在文本较长的情况下效果常常表现不佳。
技术实现思路
本专利技术的目的在于提供一种基于多视角注意力机制的深度文本排序架构,用于解决现有排序方法对文本较短或较长都有很大局限性,对于非对称的文本导致了现有文本匹配方法难以捕获文本中的有效语义信息。本专利技术一种基于多视角注意力机制的深度文本排序架构,其中,包括:输入层,用于输入网络模型中的数据;编码层使用双向长短期记忆网络分别编码查询和文本中单词的上下文特征,在双向长短期记忆网络中包括前向LSTM和后向LSTM;内部交互层,用来建模文本中不同单词的重要程度,对重要程度不同的单词给予不同的权重,采用自注意力机制建模查询与文本各自内部的重要语义信息;外部交互层,用来建模查询与文本之间的交互相关性,采用双向注意力机制来捕获查询与文本交互过程中的匹配模式;输出层,将外部交互层的输出作为输入,输出查询与文本的相关性分数作为排序依据。根据本专利技术的基于多视角注意力机制的深度文本排序方法的一实施例,其中,输入网络模型中的数据,包括查询和文本,定义Q=[q1,q2,q3,...,qn]表示查询集合,D={d1,d2,d3,...,dm}表示文本集合,表示查询中的单词,表示文本中的单词,输入层将查询与文本中的每个单词分别映射到K维向量空间,如式(1)以及式(2)所示:其中,embedding(·)表示使用V维预训练词向量GloVe模型通过一个嵌入矩阵将单词和编码为向量,分别得到查询与文本中每个单词对应的词向量和根据本专利技术的基于多视角注意力机制的深度文本排序方法的一实施例,其中,编码层对于查询,以查询词向量作为输入,经过前向LSTM网络编码后,得到W维查询上下文特征向量表示如下:其中,式(3)表示使用前向LSTM对上层输出的查询的词向量进行编码,式(4)表示使用后向LSTM对上层输出的查询的词向量进行编码,式(5)表示对查询的前向上下文向量和后向的上下文向量进行拼接;经过该编码层的编码后,得到的查询上下文向量表示包括:对于文本,该编码层以文本词向量作为输入,经过后向LSTM网络编码后,得到的文本上下文特征向量表示如下:其中,式(7)表示使用前向LSTM对上层输出的文本的词向量进行编码,式(8)表示使用后向LSTM对上层输出的文本的词向量进行编码,式(9)表示对文本的前向上下文向量和后向的上下文向量进行拼接;经过该编码层的编码后,得到的文本上下文向量表示如下:根据本专利技术的基于多视角注意力机制的深度文本排序方法的一实施例,其中,内部交互层对于查询,给定编码层的输出作为输入,通过内部交互层后得到查询中每个单词的向量权重,表示如下:其中,表示向量的权重,Wq为权重矩阵,wq为向量的参数;经过内部交互层后产生的查询向量表示如下:对于文本,给定编码层的输出作为输入,通过内部交互层后得到的文本中每个单词的向量表示如下:其中,表示向量的权重,Wd为权重矩阵,wd为向量参数。经过内部交互层后产生的文本向量表示如下:根据本专利技术的基于多视角注意力机制的深度文本排序方法的一实施例,其中,外部交互层通过Query2Doc注意力机制用来捕获文本中哪些单词与查询中的单词有最高的相似度,将这些单词给予更高的权重,对于Query2Doc注意力,给定xq作为输入,输出的计算表示如式(17)以及式(18)所示:其中,表示Query2Doc注意力机制中的权重矩阵,表示偏置项,yq为由Query2Doc注意力机制产生的交互向量。根据本专利技术的基于多视角注意力机制的深度文本排序方法的一实施例,其中,Doc2Query注意力机制用来捕获查询中哪些单词与文本中的单词有最高的相似度,对于Doc2Query注意力,给定xd作为输入,输出计算表示如式(19)、式(20)所示:其中,表示Doc2Query注意力机制中的权重矩阵,表示偏置项,yd为由Doc2Query注意力机制最终产生的交互向量。根据本专利技术的基于多视角注意力机本文档来自技高网
...

【技术保护点】
1.一种基于多视角注意力机制的深度文本排序架构,其特征在于,包括:/n输入层,用于输入网络模型中的数据;/n编码层使用双向长短期记忆网络分别编码查询和文本中单词的上下文特征,在双向长短期记忆网络中包括前向LSTM和后向LSTM;/n内部交互层,用来建模文本中不同单词的重要程度,对重要程度不同的单词给予不同的权重,采用自注意力机制建模查询与文本各自内部的重要语义信息;/n外部交互层,用来建模查询与文本之间的交互相关性,采用双向注意力机制来捕获查询与文本交互过程中的匹配模式;/n输出层,将外部交互层的输出作为输入,输出查询与文本的相关性分数作为排序依据。/n

【技术特征摘要】
1.一种基于多视角注意力机制的深度文本排序架构,其特征在于,包括:
输入层,用于输入网络模型中的数据;
编码层使用双向长短期记忆网络分别编码查询和文本中单词的上下文特征,在双向长短期记忆网络中包括前向LSTM和后向LSTM;
内部交互层,用来建模文本中不同单词的重要程度,对重要程度不同的单词给予不同的权重,采用自注意力机制建模查询与文本各自内部的重要语义信息;
外部交互层,用来建模查询与文本之间的交互相关性,采用双向注意力机制来捕获查询与文本交互过程中的匹配模式;
输出层,将外部交互层的输出作为输入,输出查询与文本的相关性分数作为排序依据。


2.如权利要求1所述的基于多视角注意力机制的深度文本排序方法,其特征在于,输入网络模型中的数据,包括查询和文本,定义Q=[q1,q2,q3,...,qn]表示查询集合,D={d1,d2,d3,...,dm}表示文本集合,表示查询中的单词,表示文本中的单词,输入层将查询与文本中的每个单词分别映射到K维向量空间,如式(1)以及式(2)所示:






其中,embedding(·)表示使用V维预训练词向量GloVe模型通过一个嵌入矩阵将单词和编码为向量,分别得到查询与文本中每个单词对应的词向量和


3.如权利要求1所述的基于多视角注意力机制的深度文本排序方法,其特征在于,
编码层对于查询,以查询词向量作为输入,经过前向LSTM网络编码后,得到W维查询上下文特征向量表示如下:









其中,式(3)表示使用前向LSTM对上层输出的查询的词向量进行编码,式(4)表示使用后向LSTM对上层输出的查询的词向量进行编码,式(5)表示对查询的前向上下文向量和后向的上下文向量进行拼接;
经过该编码层的编码后,得到的查询上下文向量表示包括:



对于文本,该编码层以文本词向量作为输入,经过后向LSTM网络编码后,得到的文本上下文特征向量表示如下:









其中,式(7)表示使用前向LSTM对上层输出的文本的词向量进行编码,式(8)表示使用后向LSTM对上层输出的文本的词向量进行编码,式(9)表示对文本的前向上下文向量和后向的上下文向量进行拼接;
经过该编码层的编码后,得到的文本上下文向量表示如下:





4.如权利要求1所述的基于多视角注意力机制的深度文本排序方法,其特征在于,

【专利技术属性】
技术研发人员:李明磊洪冯王颖陈宇翔徐治纬张记强
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1