问答知识库的构建方法、装置及电子设备制造方法及图纸

技术编号:35413349 阅读:14 留言:0更新日期:2022-11-03 11:10
本申请提供了一种问答知识库的构建方法、装置及电子设备,方法包括:获取多个第一对话文本;针对每个第一对话文本,执行以下步骤:将第一对话文本进行短句分割和标识标注,得到第一结构化对话文本;将第一结构化对话文本输入至预设的问答识别模型进行预测,得到每个短句标识对应的输出标签;基于每个短句标识对应的输出标签进行短句拼接处理,得到第一对话文本对应的问答对;基于多个第一对话文本对应的问答对构建问答知识库。本申请能够通过训练好的模型对获取的多个对话文本自动化进行问答对识别,并基于识别出的问答对完成问答知识库的构建,从而实现端对端的方式的知识库构建,而不需要逐条检测,知识库构建成本降低。知识库构建成本降低。知识库构建成本降低。

【技术实现步骤摘要】
问答知识库的构建方法、装置及电子设备


[0001]本申请涉及人工智能
,尤其是涉及一种问答知识库的构建方法、装置及电子设备。

技术介绍

[0002]问答机器人的核心任务是有效回答用户各式各样的问题。而回答问题需要知识,通常问答系统所使用的知识的表现形式是问题

答案对(Question

Answer Pair),这些信息通常由了解实际业务场景的人整理而成,在问答系统里,这些问题

答案对的集合通常被命名为问答知识库。
[0003]不同的场景会有完全不一样的知识库,即便某一固定场景下,比如保险销售场景,因产品内容和渠道等的不同,也需要配置不同的知识库,如果完全由人工来完成需要的时间成本是比较大的,因为其不仅要对业务有深入的理解还需要阅览大量的真实场景中坐席或者销售人员与客户的对话,从中抽取高频且有价值的客户问题以及合适回答,构建问答知识库。
[0004]现有技术中通常采用Pipeline流水线形式的抽取方式,先识别问题再抽取答案,形成问答对。这种方式采用的是流水线形式,逐条检测,机器人问答对开发成本高。

技术实现思路

[0005]本申请的目的在于提供一种问答知识库的构建方法、装置及电子设备,能够通过训练好的模型对获取的多个对话文本自动化进行问答对识别,并基于识别出的问答对完成问答知识库的构建,从而实现端对端的方式的知识库构建,而不需要逐条检测,知识库构建成本降低。
[0006]第一方面,本申请实施例提供一种问答知识库的构建方法,方法包括:获取多个第一对话文本;针对每个第一对话文本,执行以下步骤:将第一对话文本进行短句分割和标识标注,得到第一结构化对话文本;第一结构化对话文本包括标注有问题标识、答案标识和短句标识的多个顺序排列的短句;将第一结构化对话文本输入至预设的问答识别模型进行预测,得到每个短句标识对应的输出标签;基于每个短句标识对应的输出标签进行短句拼接处理,得到第一对话文本对应的问答对;基于多个第一对话文本对应的问答对,构建问答知识库。
[0007]在本申请较佳的实施方式中,上述将第一对话文本进行短句分割和标识标注,得到第一结构化对话文本的步骤,包括:分别以问题标识和答案标识作为第一对话文本中问题文本和答案文本的前缀;分别针对问题文本和答案文本,根据文本中的标点符号,将文本分割成多个短句,并标注每个短句对应的短句标识,得到第一结构化对话文本。
[0008]在本申请较佳的实施方式中,上述基于每个短句标识对应的输出标签进行短句拼接处理,得到第一对话文本对应的问答对的步骤,包括:如果存在输出标签为非问非答标签的短句标识,将短句标识对应的短句删除;将短句标识对应的输出标签为问题首句标签、问
题非首句标签的短句进行顺序拼接,得到第一对话文本对应的问句;将短句标识对应的输出标签为答案首句标签、答案非首句标签的短句进行顺序拼接,得到第一对话文本对应的答案。
[0009]在本申请较佳的实施方式中,上述基于多个第一对话文本对应的问答对,构建问答知识库的步骤,包括:对多个第一对话文本对应的问答对进行聚类处理,得到多个相似问题集;基于多个相似问题集构建问答知识库。
[0010]在本申请较佳的实施方式中,上述基于多个相似问题集构建问答知识库的步骤包括:针对每个相似问题集,抽取相似问题集中的一个问题确定为标准问题,将其它问题确定为相似问题,将标准问题对应的答案确定为标准答案;将多个相似问题集分别对应的标准问题、相似问题和标准答案添加至预设数据库,得到问答知识库。
[0011]在本申请较佳的实施方式中,上述问答识别模型的训练过程如下:获取多个第二对话文本;对多个第二对话文本分别进行短句分割、标识标注及标签标注,生成训练样本集;训练样本集中的样本包括:标注有问题标识、答案标识、短句标识及每个短句标识对应的标签的第二结构化对话文本;标签包括以下中的多项:问题首句标签、问题非首句标签、答案首句标签、答案非首句标签、非问非答标签;通过训练样本集对预训练模型进行训练,得到问答识别模型。
[0012]在本申请较佳的实施方式中,上述通过训练样本集对预训练模型进行训练的过程中,采用ADAM算法对模型的输出标签和标注标签进行拟合,并采用CrossEntropyLoss作为损失函数。
[0013]第二方面,本申请实施例还提供一种问答知识库的构建装置,装置包括:文本获取模块,用于获取多个第一对话文本;问答对识别模块,用于针对每个第一对话文本,执行以下步骤:将第一对话文本进行短句分割和标识标注,得到第一结构化对话文本;第一结构化对话文本包括标注有问题标识、答案标识和短句标识的多个顺序排列的短句;将第一结构化对话文本输入至预设的问答识别模型进行预测,得到每个短句标识对应的输出标签;基于每个短句标识对应的输出标签进行短句拼接处理,得到第一对话文本对应的问答对;知识库构建模块,用于基于多个第一对话文本对应的问答对,构建问答知识库。
[0014]第三方面,本申请实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面所述的方法。
[0015]第四方面,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述第一方面所述的方法。
[0016]本申请实施例提供的问答知识库的构建方法、装置及电子设备中,首先获取多个第一对话文本;针对每个第一对话文本,执行以下步骤:将第一对话文本进行短句分割和标识标注,得到第一结构化对话文本;第一结构化对话文本包括标注有问题标识、答案标识和短句标识的多个顺序排列的短句;将第一结构化对话文本输入至预设的问答识别模型进行预测,得到每个短句标识对应的输出标签;基于每个短句标识对应的输出标签进行短句拼接处理,得到第一对话文本对应的问答对;基于多个第一对话文本对应的问答对,构建问答知识库。本申请实施例能够通过训练好的模型对获取的多个对话文本自动化进行问答对识
别,并基于识别出的问答对完成问答知识库的构建,从而实现端对端的方式的知识库构建,而不需要逐条检测,知识库构建成本降低。
附图说明
[0017]为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本申请实施例提供的一种问答知识库的构建方法的流程图;
[0019]图2为本申请实施例提供的另一种问答知识库的构建方法的流程图;
[0020]图3为本申请实施例提供的一种训练样本标注示意图;
[0021]图4为本申请实施例提供的一种问答知识库的构建装置的结构框图;
[0022]图5为本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答知识库的构建方法,其特征在于,所述方法包括:获取多个第一对话文本;针对每个第一对话文本,执行以下步骤:将所述第一对话文本进行短句分割和标识标注,得到第一结构化对话文本;所述第一结构化对话文本包括标注有问题标识、答案标识和短句标识的多个顺序排列的短句;将所述第一结构化对话文本输入至预设的问答识别模型进行预测,得到每个短句标识对应的输出标签;基于每个短句标识对应的输出标签进行短句拼接处理,得到所述第一对话文本对应的问答对;基于多个所述第一对话文本对应的问答对,构建问答知识库。2.根据权利要求1所述的方法,其特征在于,将所述第一对话文本进行短句分割和标识标注,得到第一结构化对话文本的步骤,包括:分别以问题标识和答案标识作为所述第一对话文本中问题文本和答案文本的前缀;分别针对所述问题文本和答案文本,根据文本中的标点符号,将文本分割成多个短句,并标注每个短句对应的短句标识,得到第一结构化对话文本。3.根据权利要求1所述的方法,其特征在于,基于每个短句标识对应的输出标签进行短句拼接处理,得到所述第一对话文本对应的问答对的步骤,包括:如果存在输出标签为非问非答标签的短句标识,将所述短句标识对应的短句删除;将短句标识对应的输出标签为问题首句标签、问题非首句标签的短句进行顺序拼接,得到所述第一对话文本对应的问句;将短句标识对应的输出标签为答案首句标签、答案非首句标签的短句进行顺序拼接,得到所述第一对话文本对应的答案。4.根据权利要求1所述的方法,其特征在于,基于多个所述第一对话文本对应的问答对,构建问答知识库的步骤,包括:对多个所述第一对话文本对应的问答对进行聚类处理,得到多个相似问题集;基于多个所述相似问题集构建问答知识库。5.根据权利要求4所述的方法,其特征在于,基于多个所述相似问题集构建问答知识库的步骤包括:针对每个相似问题集,抽取所述相似问题集中的一个问题确定为标准问题,将其它问题确定为相似问题,将所述标准问题对应的答案确定为标准答案;将多...

【专利技术属性】
技术研发人员:张晗杜新凯吕超谷姗姗
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1