文本向量生成方法技术

技术编号:39511922 阅读:21 留言:0更新日期:2023-11-25 18:48
本申请公开了一种文本向量生成方法

【技术实现步骤摘要】
文本向量生成方法、装置及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种文本向量生成方法

装置及存储介质


技术介绍

[0002]文本向量化是一种将自然语言文本
(
如单词

短语

句子或者文章
)
转换为数值向量的技术

这些数值向量能够在一个连续的向量空间中表示文本,捕捉文本的语义信息,具有相似意义的文本通常在空间中距离较近

在自然语言处理领域中,文本向量化可以用于进行文本检索

内容推荐

文本聚类等场景任务

[0003]目前,文本向量化通常通过一些自然语言处理模型实现,利用自然语言处理模型对文本进行向量转换,得到文本的向量

然而,当从不同角度去对文本进行分析时,文本可以归属于不同的应用领域,但目前的自然语言处理模型无法针对文本在不同应用领域下的语义信息进行准确的向量转换,从而容易影响转换得到的文本向量的准确性


技术实现思路

[0004]以下是对本文详细描述的主题的概述

本概述并非是为了限制权利要求的保护范围

[0005]本申请实施例提供了一种文本向量生成方法

装置及存储介质,能够针对文本的目标领域进行准确的文本向量转换,从而能够提高转换得到的文本向量的准确性

[0006]一方面,本申请实施例提供了一种文本向量生成方法,包括以下步骤:
[0007]获取待处理文本,并根据所述待处理文本得到引导提示信息,所述引导提示信息包括所述待处理文本所归属的目标领域的信息;
[0008]调用预训练的语言模型根据所述引导提示信息对所述待处理文本进行基于所述目标领域的向量转换处理,得到多个字符向量;
[0009]根据多个所述字符向量,生成所述待处理文本在所述目标领域中的文本向量

[0010]另一方面,本申请实施例还提供了一种文本向量生成装置,包括:
[0011]数据获取单元,用于获取待处理文本,并根据所述待处理文本得到引导提示信息,所述引导提示信息包括所述待处理文本所归属的目标领域的信息;
[0012]文本转换单元,用于调用预训练的语言模型根据所述引导提示信息对所述待处理文本进行基于所述目标领域的向量转换处理,得到多个字符向量;
[0013]向量生成单元,用于根据多个所述字符向量,生成所述待处理文本在所述目标领域中的文本向量

[0014]可选地,所述数据获取单元还用于:
[0015]根据所述待处理文本的内容确定所述目标领域;
[0016]根据所述目标领域得到所述引导提示信息

[0017]可选地,所述数据获取单元还用于:
[0018]根据所述待处理文本的内容确定所述待处理文本所归属的多个候选领域;
[0019]从多个所述候选领域中确定所述目标领域

[0020]可选地,所述数据获取单元还用于:
[0021]确定所述待处理文本的任务目标和文本类型;
[0022]根据所述目标领域

所述任务目标和所述文本类型得到引导提示信息

[0023]可选地,所述向量计算单元还用于:
[0024]对多个所述字符向量进行向量融合,生成所述待处理文本在所述目标领域中的文本向量

[0025]可选地,所述向量计算单元还用于:
[0026]确定各个所述字符向量的权重;
[0027]根据各个所述字符向量的所述权重,对多个所述字符向量进行加权融合,生成所述待处理文本在所述目标领域中的文本向量

[0028]可选地,所述向量计算单元还用于:
[0029]根据所述字符位置,确定各个所述字符向量的权重

[0030]可选地,对应于不同的所述字符位置的所述字符向量,对应有不同的所述权重

[0031]可选地,所述字符向量所对应的所述字符位置越靠后,所述字符向量所对应的所述权重的数值越大

[0032]可选地,所述向量计算单元还用于:
[0033]对所有所述字符向量进行平均求和,得到所有所述字符向量的融合向量;
[0034]将所述融合向量作为所述待处理文本在所述目标领域中的文本向量

[0035]可选地,所述向量计算单元还用于:
[0036]所述根据多个所述字符向量,生成所述待处理文本在所述目标领域中的文本向量,包括:
[0037]根据所述字符位置,在所有所述字符向量中,确定处于最后位置的目标字符向量;
[0038]将所述目标字符向量作为所述待处理文本在所述目标领域中的文本向量

[0039]另一方面,本申请实施例还提供了一种文本向量生成装置,包括:
[0040]至少一个处理器;
[0041]至少一个存储器,用于存储至少一个程序;
[0042]当至少一个所述程序被至少一个所述处理器执行时实现如前面所述的文本向量生成方法

[0043]另一方面,本申请实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的计算机程序,所述处理器可执行的计算机程序被处理器执行时用于实现如前面所述的文本向量生成方法

[0044]另一方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序或计算机指令,所述计算机程序或所述计算机指令存储在计算机可读存储介质中,文本向量生成装置的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令,所述处理器执行所述计算机程序或所述计算机指令,使得所述文本向量生成装置执行如前面所述的文本向量生成方法

[0045]本申请实施例至少包括以下有益效果:先获取待处理文本,并根据待处理文本得
到引导提示信息,然后调用预训练的语言模型根据引导提示信息对待处理文本进行基于目标领域的向量转换处理,得到多个字符向量;由于引导提示信息包括待处理文本所归属的目标领域的信息,因此,引导提示信息可以引导预训练的语言模型针对待处理文本在目标领域下的语义信息进行准确的向量转换,从而能够得到更为准确的字符向量;接着根据多个字符向量,得到待处理文本在目标领域中的文本向量,通过结合在目标领域下各个字符的字符向量,能够准确地捕获待处理文本在目标领域中的语义信息,进而能够得到更为准确的文本向量

[0046]本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解

本申请的目的和其他优点可通过在说明书以及附图中所特别指出的结构来实现和获得

附图说明
[0047]附图用来提供对本申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本向量生成方法,其特征在于,包括以下步骤:获取待处理文本,并根据所述待处理文本得到引导提示信息,所述引导提示信息包括所述待处理文本所归属的目标领域的信息;调用预训练的语言模型根据所述引导提示信息对所述待处理文本进行基于所述目标领域的向量转换处理,得到多个字符向量;根据多个所述字符向量,生成所述待处理文本在所述目标领域中的文本向量
。2.
根据权利要求1所述的方法,其特征在于,所述根据所述待处理文本得到引导提示信息,包括:根据所述待处理文本的内容确定所述目标领域;根据所述目标领域得到所述引导提示信息
。3.
根据权利要求2所述的方法,其特征在于,所述根据所述待处理文本的内容确定所述目标领域,包括:根据所述待处理文本的内容确定所述待处理文本所归属的多个候选领域;从多个所述候选领域中确定所述目标领域
。4.
根据权利要求2所述的方法,其特征在于,所述根据所述目标领域得到所述引导提示信息,包括:确定所述待处理文本的任务目标和文本类型;根据所述目标领域

所述任务目标和所述文本类型得到引导提示信息
。5.
根据权利要求1所述的方法,其特征在于,所述根据多个所述字符向量,生成所述待处理文本在所述目标领域中的文本向量,包括:对多个所述字符向量进行向量融合,生成所述待处理文本在所述目标领域中的文本向量
。6.
根据权利要求5所述的方法,其特征在于,所述对多个所述字符向量进行向量融合,生成所述待处理文本在所述目标领域中的文本向量,包括:确定各个所述字符向量的权重;根据各个所述字符向量的所述权重,对多个所述字符向量进行加权融合,生成所述待处理文本在所述目标领域中的文本向量
。7.
根据权利要求6所述的方法,其特征在于,每个所述字符向量均对应有字符位置;所述确定各个所述字符向量的权重,包括:根据所述字符位置,确定各个所述字符向量的权重
。8.
根据权利要求7所述的方法,其特征在于,对应于不同的所述字符位置的所述字符向量,对应有不同的所述权重
。9.
根据权利要求7或8所述的方法,其特征在于,所述字符向量所对应的所述字符位置越靠后,...

【专利技术属性】
技术研发人员:郑孙聪
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1