主题模型训练和主题预测方法、装置、设备及存储介质制造方法及图纸

技术编号:30104972 阅读:23 留言:0更新日期:2021-09-18 09:12
本申请实施例提供了一种主题模型训练和主题预测方法、装置、设备及存储介质,涉及人工智能技术领域,在该方法中,采用综合模态特征提取器对综合模态参考数据进行特征提取,获得综合模态参考数据的综合模态特征,实现对综合模态参考数据中各个单模态参考数据的数据特征融合,故基于获得的各个综合模态特征进行聚类,获得目标主题模型时,每个聚类获得的主题特征可以更加准确地表征各个主题,从而提高主题模型的预测性能。进一步地,采用综合模态特征提取器,对目标综合模态数据的目标综合模态数据进行特征提取,获得目标综合模态特征,然后基于目标综合模态特征从目标主题模型中匹配目标综合模态数据的目标主题,从而提高主题预测的准确性。预测的准确性。预测的准确性。

【技术实现步骤摘要】
主题模型训练和主题预测方法、装置、设备及存储介质


[0001]本专利技术实施例涉及人工智能
,尤其涉及一种主题模型训练和主题预测方法、装置、设备及存储介质。

技术介绍

[0002]在个性化的信息流推荐中,文章主题与文章分类、文章标签类似,是一种非常重要的用于刻画文章的特征,通常情况下,每一个主题下的文章的语义信息都比较类似。
[0003]相关技术采用离线构建的主题模型来获得文章的主题,目前主流的主题模型构建方法是先对文章的文本内容进行分词、去停用词的处理,然后使用吉布斯采样算法得到文章

主题的表示和主题

词的表示。
[0004]然而,上述方法在构建主题模型时只使用了文章的文本信息。随着文章内容的丰富,文章中不再仅仅包括文本信息,还包括其他信息。相关技术仅使用文本信息构建主题模型,容易导致获得的主题模型的预测准确性较低,进而导致主题预测的准确性较低。

技术实现思路

[0005]本申请实施例提供了一种主题模型训练和主题预测方法、装置、设备及存储介质,用于提高主题模型的预测准确性以及主题预测的准确性。
[0006]一方面,本申请实施例提供了一种主题模型训练方法,该方法包括:获取综合模态参考数据集合,所述综合模态参考数据集合中的每个综合模态参考数据包括至少两个不同模态的单模态参考数据;采用已训练的综合模态特征提取器,分别对各个综合模态参考数据进行特征提取,获得各个综合模态参考数据各自对应的综合模态特征,所述已训练的综合模态特征提取器是采用综合模态样本数据集合迭代训练获得的;对获得的各个综合模态特征进行聚类,获得多个主题特征;基于所述多个主题特征以及所述多个主题特征分别对应的主题,构建目标主题模型。
[0007]一方面,本申请实施例提供了一种主题预测方法,该方法包括:获取目标综合模态数据;采用已训练的综合模态特征提取器,对所述目标综合模态数据进行特征提取,获得目标综合模态特征;将所述目标综合模态特征输入目标主题模型,获得所述目标综合模态数据在所述目标主题模型下的主题概率分布,所述目标主题模型是采用上述主题模型训练方法获得的;基于所述主题概率分布,确定与所述目标综合模态数据匹配的目标主题。
[0008]一方面,本申请实施例提供了一种主题模型训练装置,该装置包括:第一获取模块,用于获取综合模态参考数据集合,所述综合模态参考数据集合中
的每个综合模态参考数据包括至少两个不同模态的单模态参考数据;第一特征提取模块,用于采用已训练的综合模态特征提取器,分别对各个综合模态参考数据进行特征提取,获得各个综合模态参考数据各自对应的综合模态特征,所述已训练的综合模态特征提取器是采用综合模态样本数据集合迭代训练获得的;聚类模块,用于对获得的各个综合模态特征进行聚类,获得多个主题特征;模型构建模块,用于基于所述多个主题特征以及所述多个主题特征分别对应的主题,构建目标主题模型。
[0009]可选地,还包括模型训练模块;所述模型训练模型具体用于:采用综合模态样本数据集合对待训练的综合模态特征提取器进行迭代训练,获得已训练的综合模态特征提取器,所述综合模态样本数据集合中的每个综合模态样本数据包括至少两个单模态样本数据;其中,在每次迭代过程中,执行以下操作:采用待训练的综合模态特征提取器,对综合模态样本数据中的各个单模态样本数据分别进行特征提取,获得综合模态样本特征;基于所述综合模态样本特征,确定至少一个单模态预测数据以及所述各个单模态样本数据之间的关联关系;基于所述至少一个单模态预测数据以及所述各个单模态样本数据之间的关联关系,对所述待训练的综合模态特征提取器进行参数调整。
[0010]可选地,所述聚类模块具体用于:对获得的各个综合模态特征进行聚类,获得多个特征集合;针对所述多个特征集合,分别执行以下操作:对一个特征集合中的各个综合模态特征进行加权平均操作,获得所述一个特征集合对应的主题的主题特征。
[0011]可选地,所述聚类模块具体用于:对一个特征集合中的各个综合模态特征进行加权平均操作,获得所述一个特征集合对应的主题特征;基于所述一个特征集合对应的主题特征,生成所述一个特征集合对应的主题。
[0012]可选地,所述至少两个不同模态的单模态参考数据包括文本模态参考数据和图像模态参考数据。
[0013]一方面,本申请实施例提供了一种主题预测装置,该装置包括:第二获取模块,用于获取目标综合模态数据;第二特征提取模块,用于采用已训练的综合模态特征提取器,对所述目标综合模态数据进行特征提取,获得目标综合模态特征;匹配模块,用于将所述目标综合模态特征输入目标主题模型,获得所述目标综合模态数据在所述目标主题模型下的主题概率分布,并基于所述主题概率分布,确定与所述目标综合模态数据匹配的目标主题,所述目标主题模型是采用上述主题模型训练装置获得的。
[0014]可选地,所述匹配模块具体用于:
确定所述目标综合模态特征,分别与所述目标主题模型中各个主题特征的特征相似度;将获得的各个特征相似度进行归一化处理,获得所述各个特征相似度分别对应的主题概率;基于所述各个特征相似度分别对应的主题概率,获得所述目标综合模态数据在所述目标主题模型下的主题概率分布。
[0015]可选地,所述匹配模块具体用于:从所述主题概率分布中,获取最大主题概率;从所述目标主题模型中获取所述最大主题概率对应的主题,作为与所述目标综合模态数据匹配的目标主题。
[0016]可选地,还包括标签提取模块;所述标签提取模块具体用于:对所述目标主题进行分词,获得所述目标主题对应的分词序列;从所述目标主题对应的分词序列中,选取至少一个目标分词作为所述目标综合模态数据的特征标签。
[0017]一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述主题模型训练方法或主题预测方法的步骤。
[0018]一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述主题模型训练方法或主题预测方法的步骤。
[0019]本申请实施例中,采用综合模态特征提取器,对综合模态参考数据进行特征提取,获得综合模态参考数据的综合模态特征,实现了对综合模态参考数据中各个单模态参考数据的数据特征融合,故基于获得的各个综合模态特征进行聚类,获得目标主题模型时,每个聚类获得的主题特征可以更加准确地表征各个主题,从而提高了主题模型的预测性能,进而提高基于主题模型进行主题预测的准确性。
附图说明
[0020]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本申请实施例提供的一种文章界面示意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种主题模型训练方法,其特征在于,包括:获取综合模态参考数据集合,所述综合模态参考数据集合中的每个综合模态参考数据包括至少两个不同模态的单模态参考数据;采用已训练的综合模态特征提取器,分别对各个综合模态参考数据进行特征提取,获得各个综合模态参考数据各自对应的综合模态特征,所述已训练的综合模态特征提取器是采用综合模态样本数据集合迭代训练获得的;对获得的各个综合模态特征进行聚类,获得多个主题特征;基于所述多个主题特征以及所述多个主题特征分别对应的主题,构建目标主题模型。2.如权利要求1所述的方法,其特征在于,所述已训练的综合模态特征提取器是采用以下方式训练获得的:采用综合模态样本数据集合对待训练的综合模态特征提取器进行迭代训练,获得已训练的综合模态特征提取器,所述综合模态样本数据集合中的每个综合模态样本数据包括至少两个单模态样本数据;其中,在每次迭代过程中,执行以下操作:采用待训练的综合模态特征提取器,对综合模态样本数据中的各个单模态样本数据分别进行特征提取,获得综合模态样本特征;基于所述综合模态样本特征,确定至少一个单模态预测数据以及所述各个单模态样本数据之间的关联关系;基于所述至少一个单模态预测数据以及所述各个单模态样本数据之间的关联关系,对所述待训练的综合模态特征提取器进行参数调整。3.如权利要求1所述的方法,其特征在于,所述对获得的各个综合模态特征进行聚类,获得多个主题特征,包括:对获得的各个综合模态特征进行聚类,获得多个特征集合;针对所述多个特征集合,分别执行以下操作:对一个特征集合中的各个综合模态特征进行加权平均操作,获得所述一个特征集合对应的主题的主题特征。4.如权利要求3所述的方法,其特征在于,所述对一个特征集合中的各个综合模态特征进行加权平均操作,获得所述一个特征集合对应的主题的主题特征,包括:对一个特征集合中的各个综合模态特征进行加权平均操作,获得所述一个特征集合对应的主题特征;基于所述一个特征集合对应的主题特征,生成所述一个特征集合对应的主题。5.如权利要求1至4任一所述的方法,其特征在于,所述至少两个不同模态的单模态参考数据包括文本模态参考数据和图像模态参考数据。6.一种主题预测方法,其特征在于,包括:获取目标综合模态数据;采用已训练的综合模态特征提取器,对所述目标综合模态数据进行特征提取,获得目标综合模态特征;将所述目标综合模态特征输入目标主题模型,获得所述目标综合模态数据在所述目标主题模型下的主题概率分布,所述目标主题模型是采用权利要求1至5任一所述的方法获得
的;基于所述主题概率分布,确定与所述目标综合模态数据匹配的目标主题。7.如权利要求6所述的方法,...

【专利技术属性】
技术研发人员:邓文超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1