召回文本的生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35152383 阅读:19 留言:0更新日期:2022-10-05 10:31
本发明专利技术涉及人工智能技术,揭露了一种召回文本的生成方法,包括:生成基础用户画像,获取每个所述画像语义的画像向量;提取产品数据的产品关键词,获取每个所述产品关键词的关键词向量;选取目标画像向量和目标关键词向量;利用待训练的召回装置计算所述目标画像向量和所述目标关键词向量的相似度;计算所述相似度和预设的相似阈值的损失值,当所述损失值小于预设的损失阈值时,得到训练完成的召回装置,将待测文本输入至所述训练完成的召回装置,得到召回文本。此外,本发明专利技术还涉及区块链技术,数据列表可存储于区块链的节点。本发明专利技术还提出一种召回文本的生成装置、电子设备以及存储介质。本发明专利技术可以提高召回文本的生成的效率。本发明专利技术可以提高召回文本的生成的效率。本发明专利技术可以提高召回文本的生成的效率。

【技术实现步骤摘要】
召回文本的生成方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种召回文本的生成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]互联网以惊人的势态发展起来,到现在我们已经步入大数据时代。这期间各个领域积累了海量的各种形式的数据和信息,包括图像、文本、声音等。现实生活中大量信息就是以文本的形式存在,与信息爆炸式的增长速度相比,人类获取信息的速度却并没有太多的增长。面对如此海量的文本信息,如何建立有效的管理和组织办法,分类文本,使其结构化,方便人们全面、快速、精确的获取所需信息,是当前面临的一项巨大的挑战。
[0003]而现如今基于机器学习和深度学习的文本召回模型,大多数是根据单一文本所包含的语义信息来分类,而短文本太短、包含的信息较少,这种噪音强、信号弱的特点,使短文本筛选任务较为困难。尤其是多分类任务,文本语义信息被分散,导致高效地获取召回文本更为困难。因此如何提升召回文本的生成效率,成为了亟待解决的问题。

技术实现思路

[0004]本专利技术提供一种召回文本的生成方法、装置及计算机可读存储介质,其主要目的在于解决召回文本的生成时效率较低的问题。
[0005]为实现上述目的,本专利技术提供的一种召回文本的生成方法,包括:
[0006]获取用户的基础信息,根据所述基础信息生成基础用户画像;
[0007]对所述基础用户画像中的画像语义进行加权计算,得到每个所述画像语义的画像向量;
[0008]获取产品的产品数据,提取所述产品数据的产品关键词;
[0009]对所述产品关键词进行赋权量化计算,得到每个所述产品关键词的关键词向量;
[0010]选取目标任务下的所述画像向量为目标画像向量,选取目标任务下的所述关键词向量为目标关键词向量;
[0011]将所述目标画像向量和所述目标关键词向量输入至待训练的召回装置,利用所述待训练的召回装置计算所述目标画像向量和所述目标关键词向量的相似度;
[0012]计算所述相似度和预设的相似阈值的损失值,当所述损失值小于预设的损失阈值时,得到训练完成的召回装置,将待测文本输入至所述训练完成的召回装置,得到召回文本。
[0013]可选地,所述计算所述相似度和预设的相似阈值的损失值,包括:
[0014]利用如下公式计算所述相似度和预设的相似阈值的损失值:
[0015][0016][0017][0018]其中,L
k
(1,

,θ
k
,θ
s
)所述损失值,K表示任务总数,k表示第k个任务,表示目标任务中第t迭代训练时第k个任务的任务权重,其中t代表训练迭代次数,ω
k,0
和是权重计算模型的超参数,X是输入样本数据,L
k

k
,θ
s
)表示第k个任务的损失函数,θ
s
是所有任务的共享参数,θ
k
是每个任务单独的独立参数,表示样本是否在任务k场景N的样本空间,其中其中表示第i个场景在第k个任务中的标签,N表示存在N个场景,是在第i个场景和第k个任务中的真实值,是在第i个场景和第k个任务中的损失函数。
[0019]可选地,所述计算所述目标画像向量和所述目标关键词向量的相似度,包括:
[0020]利用如下公式计算所述目标画像向量和所述目标关键词向量的相似度:
[0021][0022]其中,d(x,y)为所述相似度,x
i
为所述目标画像向量中第i个目标画像分向量,y
i
为所述目标关键词向量中第i个目标关键词分向量,n表示所述目标用户画像中的所述目标画像分向量个数。
[0023]可选地,所述对所述产品关键词进行赋权量化计算,得到每个所述产品关键词的关键词向量,包括:
[0024]利用预先训练的语料模型将每个所述产品关键词表征为n维的词向量;
[0025]对所述词向量进行进行赋权量化计算,得到所述关键词信息的关键词权重向量;
[0026]按照预设的向量维度设定对所述关键词权重向量进行向量维度调整,得到所述关键词信息的关键词向量。
[0027]可选地,所述提取所述产品数据的产品关键词,包括:
[0028]利用预设的停用词表,对所述产品数据的停用词进行过滤;
[0029]对过滤后的产品数据进行去低频词处理;
[0030]对去低频词处理后得到的产品数据进行分词处理,得到产品关键词。
[0031]可选地,所述对所述基础用户画像中的画像语义进行加权计算,得到每个所述画像语义的画像向量,包括:
[0032]利用预设的向量提取模型获取所述基础用户画像中的画像语义;
[0033]根据预设的向量函数对所述画像语义进行加权计算,得到所述画像语义的向量画像向量。
[0034]可选地,所述根据所述基础信息生成基础用户画像,包括:
[0035]从所述基础信息中选取其中一个信息为目标信息;
[0036]对所述目标信息进行核心语义提取,得到信息语义;
[0037]对所述信息语义进行向量化处理,得到语义向量;
[0038]将所有基础信息对应的语义向量拼接为所述基础用户画像。
[0039]为了解决上述问题,本专利技术还提供一种召回文本的生成装置,所述装置包括:
[0040]用户画像模块,用于获取用户的基础信息,根据所述基础信息生成基础用户画像;
[0041]画像向量模块,用于对所述基础用户画像中的画像语义进行加权计算,得到每个所述画像语义的画像向量;
[0042]产品关键词模块,用于获取产品的产品数据,提取所述产品数据的产品关键词;
[0043]关键词向量模块,用于对所述产品关键词进行赋权量化计算,得到每个所述产品关键词的关键词向量;
[0044]目标向量模块,用于选取目标任务下的所述画像向量为目标画像向量,选取目标任务下的所述关键词向量为目标关键词向量;
[0045]相似度模块,用于将所述目标画像向量和所述目标关键词向量输入至待训练的召回装置,利用所述待训练的召回装置计算所述目标画像向量和所述目标关键词向量的相似度;
[0046]优化模块,用于计算所述相似度和预设的相似阈值的损失值,当所述损失值小于预设的损失阈值时,得到训练完成的召回装置,将待测文本输入至所述训练完成的召回装置,得到召回文本。
[0047]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0048]至少一个处理器;以及,
[0049]与所述至少一个处理器通信连接的存储器;其中,
[0050]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的召回文本的生成方法。
[0051]为了解决上述问题,本专利技术还本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种召回文本的生成方法,其特征在于,所述方法包括:获取用户的基础信息,根据所述基础信息生成基础用户画像;对所述基础用户画像中的画像语义进行加权计算,得到每个所述画像语义的画像向量;获取产品的产品数据,提取所述产品数据的产品关键词;对所述产品关键词进行赋权量化计算,得到每个所述产品关键词的关键词向量;选取目标任务下的所述画像向量为目标画像向量,选取目标任务下的所述关键词向量为目标关键词向量;将所述目标画像向量和所述目标关键词向量输入至待训练的召回装置,利用所述待训练的召回装置计算所述目标画像向量和所述目标关键词向量的相似度;计算所述相似度和预设的相似阈值的损失值,当所述损失值小于预设的损失阈值时,得到训练完成的召回装置,将待测文本输入至所述训练完成的召回装置,得到召回文本。2.如权利要求1所述的召回文本的生成方法,其特征在于,所述计算所述相似度和预设的相似阈值的损失值,包括:利用如下公式计算所述相似度和预设的相似阈值的损失值:利用如下公式计算所述相似度和预设的相似阈值的损失值:利用如下公式计算所述相似度和预设的相似阈值的损失值:其中,L
k
(1,...,θ
k
,θ
s
)所述损失值,K表示任务总数,k表示第k个任务,表示目标任务中第t迭代训练时第k个任务的任务权重,其中t代表训练迭代次数,ω
k,0
和是权重计算模型的超参数,X是输入样本数据,L
k

k
,θ
s
)表示第k个任务的损失函数,θ
s
是所有任务的共享参数,θ
k
是每个任务单独的独立参数,表示样本是否在任务k场景N的样本空间,其中中表示第i个场景在第k个任务中的标签,N表示存在N个场景,是在第i个场景和第k个任务中的真实值,是在第i个场景和第k个任务中的损失函数。3.如权利要求1所述的召回文本的生成方法,其特征在于,所述计算所述目标画像向量和所述目标关键词向量的相似度,包括:利用如下公式计算所述目标画像向量和所述目标关键词向量的相似度:其中,d(x,y)为所述相似度,x
i
为所述目标画像向量中第i个目标画像分向量,y
i
为所述
目标关键词向量中第i个目标关键词分向量,n表示所述目标用户画像中的所述目标画像分向量个数。4.如权利要求1所述的召回文本的生成方法,其特征在于,所述对所述产品关键词进行赋权量化计算,得到每个所述产品关键词的关键词向量,包括:利用预先训练的语料模型将每个所述产...

【专利技术属性】
技术研发人员:刘元震
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1