一种基于连续与离散混合表征的预训练模型及其训练方法技术

技术编号：37974973 阅读：6 留言：0更新日期：2023-06-30 09:50

本发明专利技术公开了一种基于连续与离散混合表征的预训练模型及其训练方法，所述预训练模型由多个支持连续与离散表征的新型Transformer架构组成，该架构包括：连续语义表征获取模块，用于获取连续语义表征；离散语义表征获取模块，用于获取离散语义表征；融合模块，用于将所述连续语义表征与所述离散语义表征进行融合，获得混合语义表征；输出模块，用于输出上述三种语义表征。本发明专利技术能够解决现有预训练模型对数据噪声敏感的问题；通过离散化表征降低大规模预训练模型的参数空间，为大规模预训练模型的原型设计提供新思路；同时，也为大规模预训练模型的应用也提供新方向，输出结构化知识图表征，增加模型的可解释性，推动基于离散表征的逻辑推理的发展。的逻辑推理的发展。的逻辑推理的发展。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于连续与离散混合表征的预训练模型及其训练方法

[0001]本专利技术涉及人工智能
，特别涉及一种基于连续与离散混合表征的预训练模型及其训练方法。

技术介绍

[0002]预训练模型是人工智能领域的发展热点，它旨在利用海量文本数据进行模型预训练，并将其得到的模型快速的迁移到下游任务上。随着BERT、GPT3、T5等大规模预训练模型的相继提出，预训练模型技术在自然语言处理、计算机视觉等人工智能领域大放异彩，并取得优异的效果。虽然当前预训练模型能在一系列下游任务上取得很好的效果，但其仅能在连续语义空间下，使用连续语义表征来刻画文本数据中的信息，导致其对数据噪声的鲁棒性较差，并且难以赋予模型以推理和决策等认知能力。与之相反，由于语言文字本身是离散的，离散语义表征天然地适合进行复杂地推理和决策学习，并且离散表征对噪声数据有良好的鲁棒性。然而由于编码稀疏、离散变量不可导等问题，构建基于离散语义表征的预训练模型是极具挑战的。因此，如何构建基于离散语义表征的预训练模型，如何综合利用连续语义表征和离散语义表征的优势，是提高模型在推理、决策等方面的认知能力的重要途径。

技术实现思路

[0003]针对上述问题，本专利技术旨在提供一种基于连续与离散混合表征的预训练模型及其训练方法。
[0004]本专利技术的技术方案如下：
[0005]一方面，提供一种基于连续与离散混合表征的预训练模型，由多个支持连续与离散表征的新型Transformer架构组成，所述新型Transformer架构包括：
[0...

【技术保护点】

【技术特征摘要】
1.一种基于连续与离散混合表征的预训练模型，其特征在于，由多个支持连续与离散表征的新型Transformer架构组成，所述新型Transformer架构包括：连续语义表征获取模块，用于获取连续语义表征；离散语义表征获取模块，用于获取离散语义表征；融合模块，用于将所述连续语义表征与所述离散语义表征进行融合，获得混合语义表征；输出模块，用于输出所述连续语义表征、离散语义表征以及所述混合语义表征。2.根据权利要求1所述的基于连续与离散混合表征的预训练模型，其特征在于，所述离散语义表征获取模块包括分解模块、离散化模块以及组合模块；所述分解模块用于将所述连续语义表征分解为多个义原表征；所述离散化模块用于将多个所述义原表征进行离散化，获得离散化后的义原表征；所述组合模块用于所述离散化后的义原表征进行加权组合，获得离散语义表征。3.根据权利要求1所述的基于连续与离散混合表征的预训练模型，其特征在于，所述连续语义表征获取模块采用传统Transformer架构获取输入词的连续语义表征。4.根据权利要求2所述的基于连续与离散混合表征的预训练模型，其特征在于，所述分解模块基于稀疏注意力机制以动态获取义原表征，所述义原表征的个数通过所述稀疏注意力机制的输出自动确定，非零值的注意力分数所对应的义原表征将被自动选择。5.根据权利要求2所述的基于连续与离散混合表征的预训练模型，其特征在于，所述离散化模块采用向量量化变分自动编码器将输入的每一个义原表征映射为离散表征。6.根据权利要求2所述的基于连续与离散混合表征的预训练模型，其特征在于，所述组合模块采用注意力机制实现离散化后的义原表征之间的加权组合。7.根据权利要求1
‑
...

【专利技术属性】
技术研发人员：雷文强，黄晨，吕建成，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人