问答语料库的构建方法和装置、问答方法、设备及介质制造方法及图纸

技术编号:38734951 阅读:14 留言:0更新日期:2023-09-08 23:22
本申请实施例提供了一种问答语料库的构建方法和装置、问答方法、设备及介质,属于金融科技技术领域。该方法包括:获取历史对话数据;其中,历史对话数据包括历史问答数据和对话标识数据;根据对话标识数据对历史问答数据进行数据切分处理,得到初始问答数据;根据第一预设数据量对初始问答数据进行数据量筛选,得到候选问答数据;根据预设的目标问题模型对原始提问数据进行内容识别,得到原始提问数据的目标提问标签;其中,目标提问标签用于表示原始提问数据的内容类别为问题类或者非问题类;根据目标提问标签对候选问答数据进行筛选,得到目标问答数据;根据目标问答数据构建问答语料库。本申请实施例能够提高问答语料库的构建效率。率。率。

【技术实现步骤摘要】
问答语料库的构建方法和装置、问答方法、设备及介质


[0001]本申请涉及金融科技
,尤其涉及一种问答语料库的构建方法和装置、问答方法、设备及介质。

技术介绍

[0002]目前,在金融科技领域,能够基于问答语料库对用户的提问进行智能答复,例如对用户提问的保险咨询进行智能答复。相关技术中,通过人工标注的方式构建问答语料库或对问答语料库进行语料扩充。但是,上述方法需要耗费较长的人工标注时间,从而对问答语料库的构建效率造成影响。因此,如何提高问答语料库的构建效率成了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种问答语料库的构建方法和装置、设备及介质,旨在提高问答语料库的构建效率。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种问答语料库的构建方法,所述方法包括:
[0005]获取历史对话数据;其中,所述历史对话数据包括历史问答数据和对话标识数据;其中,所述对话标识数据用于标识所述历史问答数据的问答信息;
[0006]根据所述对话标识数据对所述历史问答数据进行数据切分处理,得到初始问答数据;
[0007]根据第一预设数据量对所述初始问答数据进行数据量筛选,得到候选问答数据;其中,所述候选问答数据包括原始提问数据;
[0008]根据预设的目标问题模型对所述原始提问数据进行内容识别,得到所述原始提问数据的目标提问标签;其中,所述目标提问标签用于表示所述原始提问数据的内容类别为问题类或者非问题类;
[0009]根据所述目标提问标签对所述候选问答数据进行筛选,得到目标问答数据;
[0010]根据所述目标问答数据构建问答语料库。
[0011]在一些实施例,所述目标提问标签包括问题正标签,所述问题正标签用于表示所述原始提问数据的内容类别为问题类;
[0012]所述根据所述目标提问标签对所述候选问答数据进行筛选,得到目标问答数据,包括:
[0013]根据所述问题正标签从所述原始提问数据中筛选出目标提问数据;
[0014]获取所述候选问答数据中所述目标提问数据的数据量,得到目标数据量;
[0015]若所述目标数据量小于第二预设数据量,将所述候选问答数据作为所述目标问答数据。
[0016]在一些实施例,所述根据第一预设数据量对所述初始问答数据进行数据量筛选,
得到候选问答数据,包括:
[0017]对所述初始问答数据进行语义识别,得到初始语义向量;
[0018]将所述初始语义向量与预设语义向量进行语义匹配,得到第一匹配结果;
[0019]将所述第一匹配结果表示语义匹配的所述初始语义向量作为目标语义向量,根据所述目标语义向量从所述初始问题数据中筛选出关键问答数据;
[0020]根据所述第一预设数据量对所述关键问答数据进行数据量筛选,得到所述候选问答数据。
[0021]在一些实施例,所述关键问答数据包括关键提问数据;
[0022]所述根据所述第一预设数据量对所述关键问答数据进行数据量筛选,得到所述候选问答数据,包括:
[0023]获取所述关键提问数据的提问数据,得到提问数据量;
[0024]若所述提问数据量小于所述第一预设数据量,将所述关键问答数据作为所述候选问答数据。
[0025]在一些实施例,在所述根据预设的目标问题模型对所述原始提问数据进行内容识别,得到所述原始提问数据的目标提问标签之前,所述方法还包括训练所述目标问题模型,具体包括:
[0026]获取样本提问数据和所述样本提问数据的样本提问标签;其中,所述样本提问标签用于表征所述样本提问数据的内容类别为问题类或非问题类;
[0027]根据预设的原始问题模型对所述样本提问数据进行内容识别,得到原始提问标签;其中,所述原始提问标签用于表征所述样本提问数据的数据类别为问题类或非问题类;
[0028]根据所述样本提问标签和所述原始提问标签对所述原始问题模型进行参数调整,得到所述目标问题模型。
[0029]在一些实施例,所述获取样本提问数据,包括:
[0030]获取训练提问数据;
[0031]对所述训练提问数据进行语义识别,得到训练语义向量;
[0032]将所述训练语义向量与预设语义向量进行语义匹配,得到第二匹配结果;
[0033]将所述第二匹配结果表示语义匹配的所述训练语义向量作为关键语义向量,根据所述关键语义向量从所述训练提问数据中筛选出所述样本提问数据。
[0034]为实现上述目的,本申请实施例的第二方面提出了一种问答方法,所述方法包括:
[0035]获取待解答数据;
[0036]将所述待解答数据与预设问答语料库中的目标问答数据进行语义匹配,得到第三匹配结果;其中,所述问答语料库为根据第一方面所述的方法构建得到;
[0037]将所述第三匹配结果表示语义匹配的所述目标问答数据作为关键问题数据;其中,所述关键问答数据包括关键答复数据;
[0038]根据所述关键答复数据进行答复处理,得到所述待解答数据的答案数据。
[0039]为实现上述目的,本申请实施例的第三方面提出了一种问答语料库的构建装置,所述装置包括:
[0040]数据获取模块,用于获取历史对话数据;其中,所述历史对话数据包括历史问答数据和对话标识数据;其中,所述对话标识数据用于标识所述历史问答数据的问答信息;
[0041]数据切分模块,用于根据所述对话标识数据对所述历史问答数据进行数据切分处理,得到初始问答数据;
[0042]第一数据筛选模块,用于根据第一预设数据量对所述初始问答数据进行数据量筛选,得到候选问答数据;其中,所述候选问答数据包括原始提问数据;
[0043]内容识别模块,用于根据预设的目标问题模型对所述原始提问数据进行内容识别,得到所述原始提问数据的目标提问标签;其中,所述目标提问标签用于表示所述原始提问数据的内容类别为问题类或者非问题类;
[0044]第二数据筛选模块,用于根据所述目标提问标签对所述候选问答数据进行筛选,得到目标问答数据;
[0045]问答语料库构建模块,用于根据所述目标问答数据构建问答语料库。
[0046]为实现上述目的,本申请实施例的第四方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面或第二方面所述的方法。
[0047]为实现上述目的,本申请实施例的第五方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面或第二方面所述的方法。
[0048]本申请提出的问答语料库的构建方法和装置、设备及介质,其通过目标问题模型对原始提问数据进行内容识别,得到对应的目标提问标签。通过目标提问标签对候选问答数据进行筛选,得到目标问答数据,而后根据目标问答数据构建得到问答语料库。由此可知,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答语料库的构建方法,其特征在于,所述方法包括:获取历史对话数据;其中,所述历史对话数据包括历史问答数据和对话标识数据;其中,所述对话标识数据用于标识所述历史问答数据的问答信息;根据所述对话标识数据对所述历史问答数据进行数据切分处理,得到初始问答数据;根据第一预设数据量对所述初始问答数据进行数据量筛选,得到候选问答数据;其中,所述候选问答数据包括原始提问数据;根据预设的目标问题模型对所述原始提问数据进行内容识别,得到所述原始提问数据的目标提问标签;其中,所述目标提问标签用于表示所述原始提问数据的内容类别为问题类或者非问题类;根据所述目标提问标签对所述候选问答数据进行筛选,得到目标问答数据;根据所述目标问答数据构建问答语料库。2.根据权利要求1所述的方法,其特征在于,所述目标提问标签包括问题正标签,所述问题正标签用于表示所述原始提问数据的内容类别为问题类;所述根据所述目标提问标签对所述候选问答数据进行筛选,得到目标问答数据,包括:根据所述问题正标签从所述原始提问数据中筛选出目标提问数据;获取所述候选问答数据中所述目标提问数据的数据量,得到目标数据量;若所述目标数据量小于第二预设数据量,将所述候选问答数据作为所述目标问答数据。3.根据权利要求1所述的方法,其特征在于,所述根据第一预设数据量对所述初始问答数据进行数据量筛选,得到候选问答数据,包括:对所述初始问答数据进行语义识别,得到初始语义向量;将所述初始语义向量与预设语义向量进行语义匹配,得到第一匹配结果;将所述第一匹配结果表示语义匹配的所述初始语义向量作为目标语义向量,根据所述目标语义向量从所述初始问题数据中筛选出关键问答数据;根据所述第一预设数据量对所述关键问答数据进行数据量筛选,得到所述候选问答数据。4.根据权利要求3所述的方法,其特征在于,所述关键问答数据包括关键提问数据;所述根据所述第一预设数据量对所述关键问答数据进行数据量筛选,得到所述候选问答数据,包括:获取所述关键提问数据的提问数据,得到提问数据量;若所述提问数据量小于所述第一预设数据量,将所述关键问答数据作为所述候选问答数据。5.根据权利要求1至4任一项所述的方法,其特征在于,在所述根据预设的目标问题模型对所述原始提问数据进行内容识别,得到所述原始提问数据的目标提问标签之前,所述方法还包括训练所述目标问题模型,具体包括:获取样本提问数据和所述样本提问数据的样本提问标签;其中,所述样本提问标签用于表征所述样本提问数据的内容类别为问题类或非问题...

【专利技术属性】
技术研发人员:谢忠玉
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1