【技术实现步骤摘要】
基于多视角注意力机制的深度文本排序方法
本专利技术属于信息检索领域,具体涉及一种基于多视角注意力机制的深度文本排序方法。
技术介绍
文本排序是指给定查询和候选文本集合,在候选文本集合中找到与查询相关的文本并按照相关性排序的过程。一种可靠的文本排序方法将大大提升文本检索的效率并降低人工成本,这在内容过滤、舆情分析、态势感知等领域具有较高的研究价值和应用需求。早期的信息检索排序方法主要是基于关键字的查询文本匹配。随着机器学习算法的发展,人们提出了效果更好的检索机制。逻辑推理方法使用逻辑回归概率来确定查询和文档之间的相关性。信息检索中的其他传统技术包括基于Boosting的方法、基于TF-IDF相似度和OkapiBM25是最常用的基于术语的文本搜索和排序方法。随着深度神经网络在文本数据特征表示学习中的成功,人们提出了一些用于文本检索的神经网络排序方法。现有的神经网络排序方法可以分为两类,即以基于表示的匹配方法和基于交互的匹配方法。在基于表示的方法中,深度结构语义方法使用简单的前向神经网络来学习查询和文本的语义表示,并使用余弦相似度函数计算它们的语义相似度。卷积深度结构语义方法使用卷积层表示词汇的三元组特征,而Palangi等人提出的方法则使用长短期记忆网络LSTM编码器的最后输出状态作为查询和文本的特征,同样这两个方法都使用查询和文档表示之间的余弦相似度函数来计算它们的相关性。在Hu等人提出的工作中,作者提出了卷积神经网络文本语义匹配方法Architecture-I(ARC-I),该方法也使用卷积结 ...
【技术保护点】
1.一种基于多视角注意力机制的深度文本排序架构,其特征在于,包括:/n输入层,用于输入网络模型中的数据;/n编码层使用双向长短期记忆网络分别编码查询和文本中单词的上下文特征,在双向长短期记忆网络中包括前向LSTM和后向LSTM;/n内部交互层,用来建模文本中不同单词的重要程度,对重要程度不同的单词给予不同的权重,采用自注意力机制建模查询与文本各自内部的重要语义信息;/n外部交互层,用来建模查询与文本之间的交互相关性,采用双向注意力机制来捕获查询与文本交互过程中的匹配模式;/n输出层,将外部交互层的输出作为输入,输出查询与文本的相关性分数作为排序依据。/n
【技术特征摘要】 【专利技术属性】
1.一种基于多视角注意力机制的深度文本排序架构,其特征在于,包括:
输入层,用于输入网络模型中的数据;
编码层使用双向长短期记忆网络分别编码查询和文本中单词的上下文特征,在双向长短期记忆网络中包括前向LSTM和后向LSTM;
内部交互层,用来建模文本中不同单词的重要程度,对重要程度不同的单词给予不同的权重,采用自注意力机制建模查询与文本各自内部的重要语义信息;
外部交互层,用来建模查询与文本之间的交互相关性,采用双向注意力机制来捕获查询与文本交互过程中的匹配模式;
输出层,将外部交互层的输出作为输入,输出查询与文本的相关性分数作为排序依据。
2.如权利要求1所述的基于多视角注意力机制的深度文本排序方法,其特征在于,输入网络模型中的数据,包括查询和文本,定义Q=[q1,q2,q3,...,qn]表示查询集合,D={d1,d2,d3,...,dm}表示文本集合,表示查询中的单词,表示文本中的单词,输入层将查询与文本中的每个单词分别映射到K维向量空间,如式(1)以及式(2)所示:
其中,embedding(·)表示使用V维预训练词向量GloVe模型通过一个嵌入矩阵将单词和编码为向量,分别得到查询与文本中每个单词对应的词向量和
3.如权利要求1所述的基于多视角注意力机制的深度文本排序方法,其特征在于,
编码层对于查询,以查询词向量作为输入,经过前向LSTM网络编码后,得到W维查询上下文特征向量表示如下:
其中,式(3)表示使用前向LSTM对上层输出的查询的词向量进行编码,式(4)表示使用后向LSTM对上层输出的查询的词向量进行编码,式(5)表示对查询的前向上下文向量和后向的上下文向量进行拼接;
经过该编码层的编码后,得到的查询上下文向量表示包括:
对于文本,该编码层以文本词向量作为输入,经过后向LSTM网络编码后,得到的文本上下文特征向量表示如下:
其中,式(7)表示使用前向LSTM对上层输出的文本的词向量进行编码,式(8)表示使用后向LSTM对上层输出的文本的词向量进行编码,式(9)表示对文本的前向上下文向量和后向的上下文向量进行拼接;
经过该编码层的编码后,得到的文本上下文向量表示如下:
4.如权利要求1所述的基于多视角注意力机制的深度文本排序方法,其特征在于,
技术研发人员:李明磊,洪冯,王颖,陈宇翔,徐治纬,张记强,
申请(专利权)人:北京计算机技术及应用研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。