本发明专利技术涉及一种文本排序方法及装置,属于自然语言处理技术领域,旨在提高用户输入的关键词与搜索结果间的相关性。该方法包括:获取查询词对应的至少两个文本,形成文本特征向量集,文本特征向量集包括至少两个文本的特征向量;池化文本特征向量集,得到一个融合特征向量;激化融合特征向量,以产生权重向量;使用权重向量对文本特征向量集进行加权,产生加权后的文本特征向量集;以及根据加权后的文本特征向量集,确定至少两个文本的排序得分。
【技术实现步骤摘要】
文本排序方法及装置
本公开涉及自然语言处理
,更具体地,涉及一种文本排序方法及装置。
技术介绍
在搜索引擎当中,排序模块对召回的文本进行打分,然后按照打分顺序从高到低返回给用户。打分模块准确率越高,用户越容易找到自己想要的结果,体验越好。目前大部分打分模型在训练和预测的时候,每个文本的打分都是相互独立的。这些模型接受一个文本的特征作为输入,输出该文本的得分。该方法忽略了文本之间的特征交互信息,这样使得返回给用户的搜索结果的相关性较低。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种文本排序方法及装置,旨在提高用户输入的关键词与搜索结果间的相关性。根据本专利技术的第一方面,提供一种文本排序方法,包括:获取查询词对应的至少两个文本,形成文本特征向量集,所述文本特征向量集包括至少两个文本的特征向量;池化所述文本特征向量集,得到一个融合特征向量;激化所述融合特征向量,以产生权重向量;使用所述权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集;以及根据加权后的文本特征向量集,确定所述至少两个文本的排序得分。在一个可能的实施例中,其中,所述池化所述文本特征向量集,得到一个融合特征向量,包括:按照维度最大池化或平均池化压缩所述文本特征向量集,得到一个融合特征向量。在一个可能的实施例中,其中,所述激化所述融合特征向量,以产生权重向量包括:将所述融合特征向量经过全连接层以及激活函数转换,得到权重向量;所述使用所述权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集包括:将所述权重向量与所述文本特征向量集点乘,得到加权后的文本特征向量集。在一个可能的实施例中,所述方法还包括:重复执行所述池化、激化和加权的步骤。根据本专利技术的第二方面,提供一种文本排序装置,包括:获取模块,被配置为获取查询词对应的至少两个文本,形成文本特征向量集,所述文本特征向量集包括所述至少两个文本的特征向量;池化模块,被配置为池化所述文本特征向量集,得到一个融合特征向量;激化模块,被配置为激化所述融合特征向量,以产生权重向量;加权模块,使用所述权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集;以及确定模块,被配置为根据加权后的文本特征向量集,确定所述至少两个文本的排序得分。在一个可能的实施例中,其中,所述池化模块具体被配置为:按照维度最大池化或平均池化压缩所述文本特征向量集,得到一个融合特征向量。在一个可能的实施例中,其中,所述激化模块具体被配置为:将所述融合特征向量经过全连接层以及激活函数转换,得到权重向量;所述加权模块具体被配置为:将所述权重向量与所述文本特征向量集点乘,得到加权后的文本特征向量集。在一个可能的实施例中,所述装置还包括:循环模块,被配置为重复执行所述池化、激化和加权的步骤。根据本公开的第三方面,提供一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。根据本公开的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如第一方面所述的方法。本公开实施例提供的文本排序方法及装置,首先,获取查询词对应的至少两个文本,形成文本特征向量集,文本特征向量集包括至少两个文本的特征向量;其次,池化文本特征向量集,得到一个融合特征向量;然后,激化融合特征向量,以产生权重向量;使用权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集;最后,根据加权后的文本特征向量集,确定至少两个文本的排序得分。通过上述的池化、激化以及加权操作使得多个文本间的特征关联起来,从而提高根据用户的搜索词所得到的搜索结果的相关性。本公开的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开实施例而了解。本公开的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。图1示出了本公开实施例提供的传统的排序模型示意图;图2示出了本公开实施例提供的一种Group-wise打分模型的示意图;图3示出了本公开实施例提供的一种排序打分模型的示意图;图4示出了本公开实施例提供的一种池化-激化网络的结构示意图;图5示出了本公开实施例提供的池化-激化模块的具体结构示意图;图6示出了本公开实施例提供的一种排序打分模型具体的结构示意图;图7示出了本公开实施例提供的一种文本排序方法的流程图;图8示出了本公开实施例提供的一种文本排序装置的结构示意图;图9示出了本公开实施例提供的一种电子设备的结构示意图。具体实施方式以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。在搜索引擎当中,排序模块对召回的文本进行打分,然后按照打分顺序从高到低返回给用户。打分模块准确率越高,用户越容易找到自己想要的结果,体验越好。目前大部分打分模型在训练和预测的时候,每个文本的打分都是相互独立的。这些模型接受一个文本的特征作为输入,输出该文本的得分。该方法忽略了文本之间的特征交互信息,这样使得返回给用户的搜索结果的相关性较低。例如,现有的排序学习方法,主要根据模型结构和损失函数来进行分类。模型结构可以是决策树,支持向量机或者神经网络。损失函数上主要为Pointwise,Pairwise和Listwise三种。这些方法在训练和打分的时候都是将每个文本看成独立的样本。如图1所示,为本专利技术实施例提供的传统的排序模型示意图。该传统的排序模型输入是一个文本的特征向量,排序模型的输出是该文本对应的打分;当存在多个输入文本(,,…)时,对本文档来自技高网...
【技术保护点】
1.一种文本排序方法,包括:/n获取查询词对应的至少两个文本,形成文本特征向量集,所述文本特征向量集包括至少两个文本的特征向量;/n池化所述文本特征向量集,得到一个融合特征向量;/n激化所述融合特征向量,以产生权重向量;/n使用所述权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集;以及/n根据加权后的文本特征向量集,确定所述至少两个文本的排序得分。/n
【技术特征摘要】
1.一种文本排序方法,包括:
获取查询词对应的至少两个文本,形成文本特征向量集,所述文本特征向量集包括至少两个文本的特征向量;
池化所述文本特征向量集,得到一个融合特征向量;
激化所述融合特征向量,以产生权重向量;
使用所述权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集;以及
根据加权后的文本特征向量集,确定所述至少两个文本的排序得分。
2.根据权利要求1所述的方法,其中,所述池化所述文本特征向量集,得到一个融合特征向量,包括:
按照维度最大池化或平均池化压缩所述文本特征向量集,得到一个融合特征向量。
3.根据权利要求1所述的方法,其中,所述激化所述融合特征向量,以产生权重向量包括:
将所述融合特征向量经过全连接层以及激活函数转换,得到权重向量;
所述使用所述权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集包括:
将所述权重向量与所述文本特征向量集点乘,得到加权后的文本特征向量集。
4.根据权利要求1所述的方法,还包括:重复执行所述池化、激化和加权的步骤。
5.一种文本排序装置,包括:
获取模块,被配置为获取查询词对应的至少两个文本,形成文本特征向量集,所述文本特征向量集包括所述至少两个文本的特征向...
【专利技术属性】
技术研发人员:王瑞欣,方宽,范力文,申战,周日康,
申请(专利权)人:智者四海北京技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。