预训练模型数据处理方法、电子设备及计算机存储介质技术

技术编号：33716712 阅读：14 留言：0更新日期：2022-06-06 09:01

本申请实施例提供了一种预训练模型数据处理方法、电子设备及计算机存储介质，其中，预训练模型数据处理方法包括：获取训练样本数据，每个训练样本数据包括多轮表格问答训练样本，每轮表格问答训练样本包括自然语言查询语句和对应的数据库模式数据；将训练样本数据输入预训练模型进行特征提取，获得多轮表格问答训练样本对应的多个样本特征；基于多个样本特征和对应的正负例标签，以及预设的对比学习损失函数，对预训练模型进行训练，其中，所述正负例标签根据所述多个样本特征对应的多个数据库查询语句之间的相似度确定，所述正负例标签用于表征当前样本特征与所述多个样本特征中的其它样本特征是否语义相关。的其它样本特征是否语义相关。的其它样本特征是否语义相关。

全部详细技术资料下载

【技术实现步骤摘要】
预训练模型数据处理方法、电子设备及计算机存储介质

[0001]本申请实施例涉及表格问答
，尤其涉及一种预训练模型数据处理方法、电子设备及计算机存储介质。

技术介绍

[0002]由于数据结构清晰、易于维护，表格/SQL数据库成为各行各业应用最普遍的结构化数据，也是智能对话系统和搜索引擎等的重要答案来源。传统表格查询需要专业技术人员撰写查询语句（如SQL语句）来完成，因门槛高，阻碍了表格查询的大规模应用。表格问答技术（也称为TableQA）通过将自然语言直接转换为SQL查询，允许用户使用自然语言与表格数据库直接交互，越来越被广泛使用。
[0003]一个表格问答系统主要由三部分组成，包括自然语言理解部分、对话管理部分和自然语言生成部分。其中，自然语言理解部分主要执行语义解析算法，将自然语言问句转为对应可执行的SQL语句；对话管理部分执行多轮的状态跟踪和策略优化；自然语言生成部分则根据解析出的SQL语句和SQL的执行结果生成对应的回复。对于自然语言理解部分，目前多通过预训练模型的训练输出对后续表格问答系统的自然语言理解部分进行功能支持。预训练模型是一种迁移学习的应用，其通过自监督学习从大规模数据中获得与具体任务无关的模型参数，并且，在支持一个新任务时，只需要利用该任务的标注数据对预训练模型进行微调即可实现。
[0004]但是，因目前研究较多的是单轮的 TableQA 问题，因此目前的预训练模型也基本都在解决单轮的情况。而在真实场景中，用户经常需要通过多轮询问才能获得期待的答案，所以多轮的 TableQA...

【技术保护点】

【技术特征摘要】
1.一种预训练模型数据处理方法，包括：获取训练样本数据，其中，每个训练样本数据包括多轮表格问答训练样本，每轮表格问答训练样本包括自然语言查询语句和对应的数据库模式数据；将所述训练样本数据输入预训练模型进行特征提取，获得多轮表格问答训练样本对应的多个样本特征；基于所述多个样本特征分别对应的正负例标签，以及预设的对比学习损失函数，对所述预训练模型进行训练，其中，所述正负例标签根据所述多个样本特征对应的多个数据库查询语句之间的相似度确定，所述正负例标签用于表征当前样本特征与所述多个样本特征中的其它样本特征是否语义相关。2.根据权利要求1所述的方法，其中，所述多个样本特征分别对应的正负例标签通过以下方式确定：获取为所述多轮表格问答训练样本预先生成的多个数据库查询语句；根据预设的杰卡德函数，计算所述多个数据库查询语句之间的相似度；根据所述相似度，确定所述多轮表格问答训练样本分别对应的正负例标签；将所述多轮表格问答训练样本分别对应的正负例标签，作为对应的所述多个样本特征的正负例标签。3.根据权利要求1所述的方法，其中，所述基于所述多个样本特征分别对应的正负例标签，以及预设的对比学习损失函数，对所述预训练模型进行训练，包括：通过最小化所述预设的对比学习损失函数，拉近所述正负例标签中指示为正例的样本特征之间的距离，并且，拉远所述正负例标签中指示为负例的样本特征之间的距离；根据所述对比学习损失函数经最小化处理后的损失值，对所述预训练模型进行训练。4.根据权利要求1所述的方法，其中，所述将所述训练样本数据输入预训练模型进行特征提取，包括：将多轮表格问答训练样本中的自然语言查询语句进行第一拼接，获得第一拼接数据；将多轮表格问答训练样本中的数据库模式数据进行第二拼接，获得第二拼接数据；对第一拼接数据和第二拼接数据进行拼接，并且，在拼接后的自然语言查询语句之间、拼接后的数据库模式数据之间，以及所述自然语言查询语句和所述数据库模式数据之间均插...

【专利技术属性】
技术研发人员：惠彬原，黎槟华，李永彬，孙健，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人