训练数据的生成方法、模型训练方法以及装置制造方法及图纸

技术编号:37507169 阅读:19 留言:0更新日期:2023-05-07 09:44
本公开提供了一种训练数据的生成方法、模型训练方法以及装置,涉及深度学习、自然语言处理等人工智能技术领域。具体实现方案为:在获取属于同一领域下的多个第一文档后,从文档库中获取与第一文档匹配的第二文档,并根据各个第一文档以及各个第二文档来生成段落集合,针对段落集合中的各个段落,从问题库中获取与段落对应的问题;根据各个段落以及对应的问题,生成用于训练问答匹配模型的训练数据。由此,通过文档库来丰富对应领域下的文档,并基于丰富后的文档以及问题库来生成用于训练问答匹配模型的训练数据,降低了训练数据的获取成本的同时,丰富了训练数据的多样性。丰富了训练数据的多样性。丰富了训练数据的多样性。

【技术实现步骤摘要】
训练数据的生成方法、模型训练方法以及装置


[0001]本公开涉及计算机
,具体涉及深度学习、自然语言处理等人工智能
,尤其涉及训练数据的生成方法、模型训练方法以及装置。

技术介绍

[0002]相关技术中,在基于通用问答匹配模型对指定领域下的问答匹配模型进行训练的过程中,往往需要指定领域下的大量的问答对,以对指定领域下的问答匹配模型进行模型,然而,指定领域下的大量的问答对难以获取,从而造成指定领域下的问答匹配模型的训练成本较高。

技术实现思路

[0003]本公开提供了一种用于训练数据的生成方法、模型训练方法以及装置。
[0004]根据本公开的一方面,提供了一种训练数据的生成方法,包括:获取多个第一文档,其中,所述多个第一文档所属的领域是相同的;针对各个第一文档,从文档库中获取与所述第一文档匹配的第二文档;根据所述多个第一文档以及与各个所述第一文档匹配的第二文档生成段落集合;针对所述段落集合中的各个段落,从问题库中获取与所述段落对应的问题;根据各个段落以及对应的问题,生成用于训练问答匹配模型的训练数据。
[0005]根据本公开的另一方面,提供了一种问答匹配模型的训练方法,所述方法包括:获取如前述的训练数据的生成方法所生成的训练数据;根据所述训练数据,对问答匹配模型进行训练。
[0006]根据本公开的另一方面,提供了一种训练数据的生成装置,包括:第一获取模块,用于获取多个第一文档,其中,所述多个第一文档所属的领域是相同的;第二获取模块,用于针对各个第一文档,从文档库中获取与所述第一文档匹配的第二文档;第一生成模块,用于根据所述多个第一文档以及与各个所述第一文档匹配的第二文档生成段落集合;第三获取模块,用于针对所述段落集合中的各个段落,从问题库中获取与所述段落对应的问题;第二生成模块,用于根据各个段落以及对应的问题,生成用于训练问答匹配模型的训练数据。
[0007]根据本公开的另一方面,提供了一种问答匹配模型的训练装置,包括:获取如前所述的训练数据的生成方法所生成的训练数据;根据所述训练数据,对问答匹配模型进行训练。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的训练数据的生成方法,或者,问题匹配模型的训练方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例公开的训练数据的生成方法,或者,问题匹配模型的训练方法。
office Word,文本文档)文档、Excel(Microsoft Office Excel,电子表格)文档、PPT(Microsoft Office PowerPoint,演示文档)文档、TXT(Text File,文本文件)文档、PDF(Portable Document Format,便捷式文档格式)文档等等。
[0032]其中,本示例中以文档为文本文档为例进行示例性描述。
[0033]步骤102,针对各个第一文档,从文档库中获取与第一文档匹配的第二文档。
[0034]在一些示例性的实施方式中,针对各个第一文档,可确定出该第一文档和文档库中各个原始文档之间的相似度,并根据相似度,从文档库中获取与该第一文档匹配的第二文档。作为一种示例,可从文档库中获取最大相似度所对应的原始文档,并将所获取到的原始文档作为与该第一文档匹配的第二文档。作为另一种示例,可从文档库中,获取相似度大于预设相似度阈值所对应的原始文档,并将所获取到的原始文档作为与该第一文档匹配的第二文档。
[0035]其中,本示例中的文档库中包括大量的原始文档。其中,本示例中的文档库是对大量非同源的原始文档进行结构规范化而构建出的。
[0036]例如,可对搜索日志、各类知识型文档以及贴吧、客服等对话数据进行结构规范化,并基于结构规范化的文档来构建文档库。
[0037]步骤103,根据多个第一文档以及与各个第一文档匹配的第二文档生成段落集合。
[0038]其中,需要说明的是,在不同应用场景中,根据多个第一文档以及与各个第一文档匹配的第二文档生成段落集合的实现方式有很多,示例性说明如下:
[0039]作为一种示例,可对各个第一文档以及各个第二文档分别进行分段处理,以得到分段结果,并根据分段结果生成段落集合。
[0040]作为另一种示例,可根据多个第一文档与各个第一文档匹配的第二文档构建目标文档集合,并对目标文档集合中的所有文档进行分段处理,以生成段落集合。
[0041]步骤104,针对段落集合中的各个段落,从问题库中获取与段落对应的问题。
[0042]步骤105,根据各个段落以及对应的问题,生成用于训练问答匹配模型的训练数据。
[0043]在一些示例中,针对各个段落,可根据该段落以及对应的问题来构建一个问答对。对应地,可根据所构建出的多个问答对,来生成用于第一文档所属的领域下的问答匹配模型的训练数据。
[0044]本公开实施例提供的训练数据的生成方法,在获取属于同一领域下的多个第一文档后,从文档库中获取与第一文档匹配的第二文档,并根据各个第一文档以及各个第二文档来生成段落集合,针对段落集合中的各个段落,从问题库中获取与段落对应的问题;根据各个段落以及对应的问题,生成用于训练问答匹配模型的训练数据。由此,通过文档库来丰富对应领域下的文档,并基于丰富后的文档以及问题库来生成用于训练问答匹配模型的训练数据,降低了训练数据的获取成本的同时,降低了训练数据的获取成本的同时,丰富了训练数据的多样性。
[0045]在一些示例性的实施方式中,为了可以高效地从文档库中获取与第一文档匹配的第二文档,可通过分别将文档库中的每个原始文档查询基于多个第一文档所预先建立的倒排索引表,来确定出与第一文档匹配的第二文档。为了可以清楚理解这个过程,下面结合图2对该过程进行示例性描述。
[0046]图2是根据本公开第二实施例的示意图。
[0047]如图2所示,该训练数据的生成方法可以包括:
[0048]步骤201,获取多个第一文档,其中,多个第一文档所属的领域是相同的。
[0049]步骤202,通过第一语句集合中各个语句以及包含语句的第一文档预先构建倒排索引表,其中,第一语句集合是对多个第一文档进行语句切分得到的。
[0050]在一些示例性的实施方式中,在对多个第一文档进行语句划分,得到第一语句集合后,可对第一语句集合进行无实质意义语句过滤和/或去重处理。在一些示例中,为了进一步节省倒排索引表的空间,可对第一语句集合进行无实质意义语句过滤和去重处理。由此,可以将第一语句集合中重复的语句以及无实质意义的语句过滤掉,以减少上述语句对后续处理的影响。
[0051]在一些示例性的实施方式中,为了进一步节省倒本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练数据的生成方法,包括:获取多个第一文档,其中,所述多个第一文档所属的领域是相同的;针对各个第一文档,从文档库中获取与所述第一文档匹配的第二文档;根据所述多个第一文档以及与各个所述第一文档匹配的第二文档生成段落集合;针对所述段落集合中的各个段落,从问题库中获取与所述段落对应的问题;根据各个段落以及对应的问题,生成用于训练问答匹配模型的训练数据。2.根据权利要求1所述的方法,其中,所述方法还包括:通过第一语句集合中各个语句以及包含所述语句的第一文档预先构建倒排索引表,其中,所述第一语句集合是对所述多个第一文档进行语句切分得到的;所述针对各个第一文档,从文档库中获取与所述第一文档匹配的第二文档,包括:针对所述文档库中的各个原始文档,查询所述倒排索引表,以从多个所述第一文档中获取包含所述原始文档的切分语句的候选文档;确定所述候选文档和所述原始文档之间的第一相似度;在所述第一相似度大于相似度阈值的情况下,则将所述原始文档作为所述第二文档。3.根据权利要求2所述的方法,其中,所述确定所述候选文档和所述原始文档之间的第一相似度,包括:确定所述候选文档和所述原始文档之间的多个相似度特征;根据所述多个相似度特征,确定所述候选文档和所述原始文档之间的第一相似度。4.根据权利要求2所述的方法,其中,在通过第一语句集合中各个语句以及包含所述语句的第一文档预先构建倒排索引表之前,所述方法还包括:获取所述文档库所对应的第二语句集合;确定所述第二语句集合和所述第一语句集合的共有语句;将所述第一语句集合中除了所述共有语句之外的语句删除。5.根据权利要求1所述的方法,其中,所述针对所述段落集合中的各个段落,从问题库中获取与所述段落对应的问题,包括:针对所述段落集合中的各个段落,确定所述段落与所述问题库中各个问题之间的第二相似度;根据所述第二相似度,从所述问题库中获取与所述段落对应的问题。6.根据权利要求5所述的方法,其中,所述针对所述段落集合中的各个段落,确定所述段落与所述问题库中各个问题之间的第二相似度,包括:针对所述段落集合中的各个段落,根据双塔模型中的第一子模型对所述段落进行向量表示,以得到所述段落的第一表示向量;根据所述双塔模型中的第二子模型确定所述问题库中各个问题所对应的第二表示向量;根据所述第一表示向量和各个所述第二表示向量之间的向量内积结果,确定所述段落与所述问题库中各个问题之间的第二相似度。7.根据权利要求1

6中任一项所述的方法,其中,所述根据各个段落以及对应的问题,生成用于训练问答匹配模型的训练数据,包括:针对各个段落,根据所述段落以及对应的问题形成一个问答对;
确定所述问答对中的所述段落和问题之间的问答匹配度;在所述问答匹配度大于或者等于预设匹配度阈值的情况下,采用第一标签对所述问答对进行标注,其中,所述第一标签用于表示所述问答对中的段落与问题匹配;在所述问答匹配度小于预设匹配度阈值的情况下,采用第二标签对所述问答对进行标注,其中,所述第二标签用于表示所述问答对中的段落与问题不匹配。8.一种问答匹配模型的训练方法,所述方法包括:获取如权利要求1

7中任一项所述的方法所生成的训练数据;根据所述训练数据,对问答匹配模型进行训练。9.一种训练数据的生成装置,包括:第一获取模块,用于获取多个第一文档,其中,所述多个第一文档所属的领域是相同的;第二获取模块,用于针对各个第一文档,从文档库中获取与所述第一文档匹配的第二文档;第一生成模块,用于根据所述多个第一文档以及与各个所述第一文档匹配的第二文档生成段落集合;第三获取模块,用于针对所述段落集...

【专利技术属性】
技术研发人员:刘坤
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1