当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于连续与离散混合表征的预训练模型及其训练方法技术

技术编号:37974973 阅读:6 留言:0更新日期:2023-06-30 09:50
本发明专利技术公开了一种基于连续与离散混合表征的预训练模型及其训练方法,所述预训练模型由多个支持连续与离散表征的新型Transformer架构组成,该架构包括:连续语义表征获取模块,用于获取连续语义表征;离散语义表征获取模块,用于获取离散语义表征;融合模块,用于将所述连续语义表征与所述离散语义表征进行融合,获得混合语义表征;输出模块,用于输出上述三种语义表征。本发明专利技术能够解决现有预训练模型对数据噪声敏感的问题;通过离散化表征降低大规模预训练模型的参数空间,为大规模预训练模型的原型设计提供新思路;同时,也为大规模预训练模型的应用也提供新方向,输出结构化知识图表征,增加模型的可解释性,推动基于离散表征的逻辑推理的发展。的逻辑推理的发展。的逻辑推理的发展。

【技术实现步骤摘要】
一种基于连续与离散混合表征的预训练模型及其训练方法


[0001]本专利技术涉及人工智能
,特别涉及一种基于连续与离散混合表征的预训练模型及其训练方法。

技术介绍

[0002]预训练模型是人工智能领域的发展热点,它旨在利用海量文本数据进行模型预训练,并将其得到的模型快速的迁移到下游任务上。随着BERT、GPT3、T5等大规模预训练模型的相继提出,预训练模型技术在自然语言处理、计算机视觉等人工智能领域大放异彩,并取得优异的效果。虽然当前预训练模型能在一系列下游任务上取得很好的效果,但其仅能在连续语义空间下,使用连续语义表征来刻画文本数据中的信息,导致其对数据噪声的鲁棒性较差,并且难以赋予模型以推理和决策等认知能力。与之相反,由于语言文字本身是离散的,离散语义表征天然地适合进行复杂地推理和决策学习,并且离散表征对噪声数据有良好的鲁棒性。然而由于编码稀疏、离散变量不可导等问题,构建基于离散语义表征的预训练模型是极具挑战的。因此,如何构建基于离散语义表征的预训练模型,如何综合利用连续语义表征和离散语义表征的优势,是提高模型在推理、决策等方面的认知能力的重要途径。

技术实现思路

[0003]针对上述问题,本专利技术旨在提供一种基于连续与离散混合表征的预训练模型及其训练方法。
[0004]本专利技术的技术方案如下:
[0005]一方面,提供一种基于连续与离散混合表征的预训练模型,由多个支持连续与离散表征的新型Transformer架构组成,所述新型Transformer架构包括:
[0006]连续语义表征获取模块,用于获取连续语义表征;
[0007]离散语义表征获取模块,用于获取离散语义表征;
[0008]融合模块,用于将所述连续语义表征与所述离散语义表征进行融合,获得混合语义表征;
[0009]输出模块,用于输出所述连续语义表征、离散语义表征以及所述混合语义表征。
[0010]作为优选,所述离散语义表征获取模块包括分解模块、离散化模块以及组合模块;
[0011]所述分解模块用于将所述连续语义表征分解为多个义原表征;
[0012]所述离散化模块用于将多个所述义原表征进行离散化,获得离散化后的义原表征;
[0013]所述组合模块用于所述离散化后的义原表征进行加权组合,获得离散语义表征。
[0014]作为优选,所述连续语义表征获取模块采用传统Transformer架构获取输入词的连续语义表征。
[0015]作为优选,所述分解模块基于稀疏注意力机制以动态获取义原表征,所述义原表征的个数通过所述稀疏注意力机制的输出自动确定,非零值的注意力分数所对应的义原表
征将被自动选择。
[0016]作为优选,所述离散化模块采用向量量化变分自动编码器将输入的每一个义原表征映射为离散表征。
[0017]作为优选,所述组合模块采用注意力机制实现离散化后的义原表征之间的加权组合。
[0018]作为优选,所述融合模块先经过自注意力机制,然后再将连续语义表征与离散语义表征进行均值融合。
[0019]另一方面,还提供一种基于连续与离散混合表征的预训练模型的训练方法,通过以下预训练任务来学习所述预训练模型的参数:
[0020]下一句预测任务,用于让预训练模型学到句间逻辑关系;
[0021]掩码词预测任务,用于让预训练模型学到词间语义关系;
[0022]受控连续语义分解任务,用于让预训练模型学习到词的连续语义表征到义原表征的正确映射关系;
[0023]语义组合任务,用于让预训练模型学习到离散组合操作前后的语义不变性。
[0024]作为优选,学习过程中,优化目标包括:
[0025](1)针对混合语义表征
[0026]a)最小化其在下一句预测任务上的损失
[0027]b)最小化其在掩码词预测任务上的损失
[0028](2)针对连续语义表征
[0029]a)最小化其在下一句预测任务上的损失
[0030]b)最小化其在掩码词预测任务上的损失
[0031](3)针对离散语义表征
[0032]a)最小化其在下一句预测任务上的损失
[0033]b)最小化其在掩码词预测任务上的损失
[0034]c)语义组合任务的损失
[0035]i.最小化向量量化变分自动编码器中,离散语义表征与连续语义表征之间的向量量化损失和信息投入损失
[0036]ii.最大化离散语义表征与连续语义表征之差,在下一句预测任务上的损失
[0037]iii.最大化离散语义表征与连续语义表征之差,在掩码词预测任务上的损失
[0038]iv.最大化离散语义表征与连续语义表征之差的熵
[0039]d)受控连续语义分解任务的损失
[0040]i.最小化分解出的义原表征与真实义原之间的不匹配率
[0041]基于以上损失函数,结合文本数据进行训练,即可获得所述基于混合表征的预训练模型。
[0042]本专利技术的有益效果是:
[0043]本专利技术能够解决现有预训练模型对数据噪声敏感的问题;通过离散化表征降低大规模预训练模型的参数空间,为大规模预训练模型的原型设计提供新思路;同时,也为大规模预训练模型的应用也提供新方向,输出结构化知识图表征,增加模型的可解释性,推动基于离散表征的逻辑推理的发展。
附图说明
[0044]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]图1为本专利技术基于连续与离散混合表征的预训练模型框架示意图;
[0046]图2为本专利技术支持连续与离散表征的新型Transformer架构示意图;
[0047]图3为本专利技术受控连续语义分解任务示意图;
[0048]图4为本专利技术语义组合任务示意图。
具体实施方式
[0049]下面结合附图和实施例对本专利技术进一步说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的技术特征可以相互结合。需要指出的是,除非另有指明,本申请使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。本专利技术公开使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
[0050]一方面,如图1所示,本专利技术提供一种基于连续与离散混合表征的预训练模型,由多个支持连续与离散表征的新型Transformer架构组成,所述新型Transformer架构如图2所示,包括:
[0051](1)连续语义表征获取模块,用于获取连续语义表征;
[0052]在一个具体的实施例中,所述连续语义表征获取模块采用传统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于连续与离散混合表征的预训练模型,其特征在于,由多个支持连续与离散表征的新型Transformer架构组成,所述新型Transformer架构包括:连续语义表征获取模块,用于获取连续语义表征;离散语义表征获取模块,用于获取离散语义表征;融合模块,用于将所述连续语义表征与所述离散语义表征进行融合,获得混合语义表征;输出模块,用于输出所述连续语义表征、离散语义表征以及所述混合语义表征。2.根据权利要求1所述的基于连续与离散混合表征的预训练模型,其特征在于,所述离散语义表征获取模块包括分解模块、离散化模块以及组合模块;所述分解模块用于将所述连续语义表征分解为多个义原表征;所述离散化模块用于将多个所述义原表征进行离散化,获得离散化后的义原表征;所述组合模块用于所述离散化后的义原表征进行加权组合,获得离散语义表征。3.根据权利要求1所述的基于连续与离散混合表征的预训练模型,其特征在于,所述连续语义表征获取模块采用传统Transformer架构获取输入词的连续语义表征。4.根据权利要求2所述的基于连续与离散混合表征的预训练模型,其特征在于,所述分解模块基于稀疏注意力机制以动态获取义原表征,所述义原表征的个数通过所述稀疏注意力机制的输出自动确定,非零值的注意力分数所对应的义原表征将被自动选择。5.根据权利要求2所述的基于连续与离散混合表征的预训练模型,其特征在于,所述离散化模块采用向量量化变分自动编码器将输入的每一个义原表征映射为离散表征。6.根据权利要求2所述的基于连续与离散混合表征的预训练模型,其特征在于,所述组合模块采用注意力机制实现离散化后的义原表征之间的加权组合。7.根据权利要求1

...

【专利技术属性】
技术研发人员:雷文强黄晨吕建成
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1