训练数据的生成方法、模型训练方法以及装置制造方法及图纸

技术编号：37507169 阅读：19 留言：0更新日期：2023-05-07 09:44

本公开提供了一种训练数据的生成方法、模型训练方法以及装置，涉及深度学习、自然语言处理等人工智能技术领域。具体实现方案为：在获取属于同一领域下的多个第一文档后，从文档库中获取与第一文档匹配的第二文档，并根据各个第一文档以及各个第二文档来生成段落集合，针对段落集合中的各个段落，从问题库中获取与段落对应的问题；根据各个段落以及对应的问题，生成用于训练问答匹配模型的训练数据。由此，通过文档库来丰富对应领域下的文档，并基于丰富后的文档以及问题库来生成用于训练问答匹配模型的训练数据，降低了训练数据的获取成本的同时，丰富了训练数据的多样性。丰富了训练数据的多样性。丰富了训练数据的多样性。

全部详细技术资料下载

【技术实现步骤摘要】
训练数据的生成方法、模型训练方法以及装置

[0001]本公开涉及计算机
，具体涉及深度学习、自然语言处理等人工智能
，尤其涉及训练数据的生成方法、模型训练方法以及装置。

技术介绍

[0002]相关技术中，在基于通用问答匹配模型对指定领域下的问答匹配模型进行训练的过程中，往往需要指定领域下的大量的问答对，以对指定领域下的问答匹配模型进行模型，然而，指定领域下的大量的问答对难以获取，从而造成指定领域下的问答匹配模型的训练成本较高。

技术实现思路

[0003]本公开提供了一种用于训练数据的生成方法、模型训练方法以及装置。
[0004]根据本公开的一方面，提供了一种训练数据的生成方法，包括：获取多个第一文档，其中，所述多个第一文档所属的领域是相同的；针对各个第一文档，从文档库中获取与所述第一文档匹配的第二文档；根据所述多个第一文档以及与各个所述第一文档匹配的第二文档生成段落集合；针对所述段落集合中的各个段落，从问题库中获取与所述段落对应的问题；根据各个段落以及对应的问题，生成用于训练问答匹配模型的训练数据。
[0005]根据本公开的另一方面，提供了一种问答匹配模型的训练方法，所述方法包括：获取如前述的训练数据的生成方法所生成的训练数据；根据所述训练数据，对问答匹配模型进行训练。
[0006]根据本公开的另一方面，提供了一种训练数据的生成装置，包括：第一获取模块，用于获取多个第一文档，其中，所述多个第一文档所属的领域是相同的；第二获取模块，用于针对各个第一文档，从文档库中获取...

【技术保护点】

【技术特征摘要】
1.一种训练数据的生成方法，包括：获取多个第一文档，其中，所述多个第一文档所属的领域是相同的；针对各个第一文档，从文档库中获取与所述第一文档匹配的第二文档；根据所述多个第一文档以及与各个所述第一文档匹配的第二文档生成段落集合；针对所述段落集合中的各个段落，从问题库中获取与所述段落对应的问题；根据各个段落以及对应的问题，生成用于训练问答匹配模型的训练数据。2.根据权利要求1所述的方法，其中，所述方法还包括：通过第一语句集合中各个语句以及包含所述语句的第一文档预先构建倒排索引表，其中，所述第一语句集合是对所述多个第一文档进行语句切分得到的；所述针对各个第一文档，从文档库中获取与所述第一文档匹配的第二文档，包括：针对所述文档库中的各个原始文档，查询所述倒排索引表，以从多个所述第一文档中获取包含所述原始文档的切分语句的候选文档；确定所述候选文档和所述原始文档之间的第一相似度；在所述第一相似度大于相似度阈值的情况下，则将所述原始文档作为所述第二文档。3.根据权利要求2所述的方法，其中，所述确定所述候选文档和所述原始文档之间的第一相似度，包括：确定所述候选文档和所述原始文档之间的多个相似度特征；根据所述多个相似度特征，确定所述候选文档和所述原始文档之间的第一相似度。4.根据权利要求2所述的方法，其中，在通过第一语句集合中各个语句以及包含所述语句的第一文档预先构建倒排索引表之前，所述方法还包括：获取所述文档库所对应的第二语句集合；确定所述第二语句集合和所述第一语句集合的共有语句；将所述第一语句集合中除了所述共有语句之外的语句删除。5.根据权利要求1所述的方法，其中，所述针对所述段落集合中的各个段落，从问题库中获取与所述段落对应的问题，包括：针对所述段落集合中的各个段落，确定所述段落与所述问题库中各个问题之间的第二相似度；根据所述第二相似度，从所述问题库中获取与所述段落对应的问题。6.根据权利要求5所述的方法，其中，所述针对所述段落集合中的各个段落，确定所述段落与所述问题库中各个问题之间的第二相似度，包括：针对所述段落集合中的各个段落，根据双塔模型中的第一子模型对所述段落进行向量表示，以得到所述段落的第一表示向量；根据所述双塔模型中的第二子模型确定所述问题库中各个问题所对应的第二表示向量；根据所述第一表示向量和各个所述第二表示向量之间的向量内积结果，确定所述段落与所述问题库中各个问题之间的第二相似度。7.根据权利要求1
‑
6中任一项所述的方法，其中，所述根据各个段落以及对应的问题，生成用于训练问答匹配模型的训练数据，包括：针对各个段落，根据所述段落以及对应的问题形成一个问答对；
确定所述问答对中的所述段落和问题之间的问答匹配度；在所述问答匹配度大于或者等于预设匹配度阈值的情况下，采用第一标签对所述问答对进行标注，其中，所述第一标签用于表示所述问答对中的段落与问题匹配；在所述问答匹配度小于预设匹配度阈值的情况下，采用第二标签对所述问答对进行标注，其中，所述第二标签用于表示所述问答对中的段落与问题不匹配。8.一种问答匹配模型的训练方法，所述方法包括：获取如权利要求1
‑
7中任一项所述的方法所生成的训练数据；根据所述训练数据，对问答匹配模型进行训练。9.一种训练数据的生成装置，包括：第一获取模块，用于获取多个第一文档，其中，所述多个第一文档所属的领域是相同的；第二获取模块，用于针对各个第一文档，从文档库中获取与所述第一文档匹配的第二文档；第一生成模块，用于根据所述多个第一文档以及与各个所述第一文档匹配的第二文档生成段落集合；第三获取模块，用于针对所述段落集...

【专利技术属性】
技术研发人员：刘坤，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人