一种FAQ相似问题生成方法及系统技术方案

技术编号:32503593 阅读:14 留言:0更新日期:2022-03-02 10:13
本发明专利技术提供一种FAQ相似问题生成方法及系统,其中,方法包括:构建标准FAQ数据集;基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;基于标准FAQ数据集和相似问题数据集,构建相似问题生成深度学习模型;获取待处理的FAQ数据;基于相似问题生成深度学习模型和待处理的FAQ数据,生成对应待处理的FAQ数据对应的第二相似问题数据集。本发明专利技术的FAQ相似问题生成方法及系统,可以依据标准FAQ批量生成高质量、泛化性好的相似FAQ,用于后续的模型训练。用于后续的模型训练。用于后续的模型训练。

【技术实现步骤摘要】
一种FAQ相似问题生成方法及系统


[0001]本专利技术涉及人工智能
,特别涉及一种FAQ相似问题生成方法及系统。

技术介绍

[0002]智能客服机器人,是一种使用自然语言与用户进行交流的人工智能信息系统,它采用包括自然语言理解、机器学习技术在内的多项智能人机交互技术,能够识别并理解用户以文字或语音形式提出的问题,通过语义分析理解用户意图,并以拟人化的方式与用户沟通,向用户提供信息咨询等相关服务。目前的智能客服会话的核心是进行用户意图匹配,只有明确了意图,才能给出针对性的回答,意图识别就是针对已知的训练语料(如语料格式为\((x,y)\)格式的元组列表,其中\(x\)为训练语料,\(y\)为期望输出类别或者称为意图)采用选定的算法构建一个模型,而后基于构建的模型对未知的文本进行分类。流程梳理如下:准备训练数据,按照固定的格式进行;抽取所需要的特征,形成特征向量;抽取的特征向量与对应的期望输出(也就是目标label)一起输入到机器学习算法中,训练出一个预测模型;对新到的数据采取同样的特征抽取,得到用于预测的特征向量;使用训练好的预测模型,对处特征处理后的新数据进行预测,并返回结果。
[0003]但由于用户用词习惯或知识储备的不同,对于相同意思的问题,不同用户会采用不同的描述方式,不同的用户对于同一个意图会使用不同的表达方式,因此同一个意图的相似问题需要人工构建训练语料用于有监督的分类任务,费时费力,人工标注数据具有高昂的代价,利用有限的标注数据,获取到更多的训练数据,满足有监督模型训练的要求,训练出泛化能力更强的模型就变的极其重要。

技术实现思路

[0004]本专利技术目的之一在于提供了一种FAQ相似问题生成方法及系统,可以依据标准FAQ批量生成高质量、泛化性好的相似FAQ,用于后续的模型训练。
[0005]本专利技术实施例提供的一种FAQ相似问题生成方法,包括:构建标准FAQ数据集;基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;基于标准FAQ数据集和相似问题数据集,构建相似问题生成深度学习模型;获取待处理的FAQ数据;基于相似问题生成深度学习模型和待处理的FAQ数据,生成对应待处理的FAQ数据对应的第二相似问题数据集。
[0006]优选的,基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似
问题数据集,包括:提取标准FAQ数据集中任一标准FAQ数据;解析标准FAQ数据,确定第一问题数据和第一答案数据;将大数据平台上各个存储节点存储的FAQ数据集作为目标数据集;将第一问题数据与目标数据集中的各个FAQ数据中的第二问题数据进行匹配,获取目标数据集中与第一问题数据相匹配的第二问题数据作为第一待筛选数据并构建第一待筛选数据集;将第一答案数据与目标数据集中的各个FAQ数据中的第二答案数据进行匹配,获取目标数据集中与第一答案数据相匹配的第二答案数据对应的第二问题数据作为第二待筛选数据并构建第二待筛选数据集;基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集。
[0007]优选的,基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集,包括:将第一待筛选数据集与第二待筛选数据集中相同的数据作为标准FAQ数据的第一问题数据的相似问题数据并构建为第一数据集;将第一待筛选数据集中与第一数据集中相同的数据删除,获得第三待筛选数据集;将第二待筛选数据集中与第一数据集中相同的数据删除,获得第四待筛选数据集;将第三待筛选数据集中的各个第二问题数据对应的第二答案数据与第一数据集中各个第二问题数据对应的第二答案数据进行匹配,当第一数据集中存在匹配符合项时,将第三待筛选数据集中的第二答案数据对应得第二问题数据添加进第一数据集中并将其从第三待筛选数据集中删除;将第四待筛选数据集中的各个第二问题数据与第一数据集中各个第二问题数据进行匹配,当第一数据集中存在匹配符合项时,将第四待筛选数据集中的第二问题数据添加进第一数据集中并将其从第四待筛选数据集中删除;直至第三待筛选数据集和第四待筛选数据集中不存在可以添加进第一数据集中的第二问题数据时,将第一数据集作为第一相似问题数据集。
[0008]优选的,基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:提取标准FAQ数据集中任一标准FAQ数据;基于标准FAQ数据,生成相似问题数据获取请求;将相似问题数据获取请求发送至大数据平台上的各个数据处理节点;接收各个数据处理节点对于相似问题数据获取请求的反馈数据;解析各个数据处理节点的反馈数据,获取多个第三待筛选数据;基于第三待筛选数据对应的反馈的数据处理节点的权限值,确定各个第三待筛选数据对应的信任值,信任值的计算公式如下:;
其中,为信任值,为第个反馈数据包含第三待筛选数据的数据处理节点的权限值;为反馈数据包含第三待筛选数据的数据处理节点的数目;基于信任值大于预设的信任阈值的第三待筛选数据,构建第二数据集;基于信任值小于等于预设的信任阈值的第三待筛选数据,构建第五待筛选数据集;将第五待筛选数据集中的各个第三待筛选数据中的第三问题数据分别与第二数据集中的第三问题数据以及标准FAQ数据中的第一问题数据匹配并且将第五待筛选数据集中的各个第三待筛选数据对应的第三答案数据分别与第二数据集中的第三问题数据对应的第三答案数据以及标准FAQ数据中的第一问题数据对应的第一答案数据匹配,当同时匹配符合时,将第五待筛选数据集中的第三待筛选数据添加进第二数据集并将其从第五待筛选数据集中删除;直至第五待筛选数据集中不存在可添加至第二数据集中的数据时,将第二数据集作为第一相似问题数据集。
[0009]优选的,FAQ相似问题生成方法,还包括:获取对于第二相似问题集的异常反馈的异常数据;对异常数据进行验证;当验证通过时,基于异常数据,确定异常的相似问题数据并将其从第一相似问题集中删除;基于删除后的第一相似问题集和标准FAQ数据集,重新构建相似问题生成深度学习模型;其中,对异常数据进行验证,包括:基于异常数据反馈的用户的反馈值,确定异常数据的效用值,计算公式如下:;其中,为效用值,为异常数据的第个用户的反馈值;为异常数据的第个用户的权限值;为异常数据的反馈的用户的总数;当效用值大于预设的验证阈值时,确定验证通过。
[0010]优选的,FAQ相似问题生成方法,还包括:通过人工对异常数据的验证进行抽查,对验证错误的异常数据对应的用户的反馈值进行调整,获取需要调整的用户的反馈值的历史调整记录;基于历史调整记录,确定用户的反馈值的调整次数;基于调整次数和预设的调整次数与调整值对照表,确定此次反馈值的调整值。
[0011]本专利技术还提供一种FAQ相似问题生成系统,包括:数据集构建模块,用于构建标准FAQ数据集;相似集构建模块,用于基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;
模型构建模块,基于标准FAQ数据集和相似问题数据集,构建相似问题生成深度学习模型;获取模块,用于获取待处理的FAQ数据;生成模块,用于基于相似问题本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种FAQ相似问题生成方法,其特征在于,包括:构建标准FAQ数据集;基于所述标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;基于所述标准FAQ数据集和所述相似问题数据集,构建相似问题生成深度学习模型;获取待处理的FAQ数据;基于所述相似问题生成深度学习模型和所述待处理的FAQ数据,生成对应所述待处理的FAQ数据对应的第二相似问题数据集。2.如权利要求1所述的FAQ相似问题生成方法,其特征在于,所述基于所述标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:提取所述标准FAQ数据集中任一标准FAQ数据;解析所述标准FAQ数据,确定第一问题数据和第一答案数据;将所述大数据平台上各个存储节点存储的FAQ数据集作为目标数据集;将所述第一问题数据与所述目标数据集中的各个FAQ数据中的第二问题数据进行匹配,获取所述目标数据集中与所述第一问题数据相匹配的所述第二问题数据作为第一待筛选数据并构建第一待筛选数据集;将所述第一答案数据与所述目标数据集中的各个FAQ数据中的第二答案数据进行匹配,获取所述目标数据集中与所述第一答案数据相匹配的所述第二答案数据对应的所述第二问题数据作为第二待筛选数据并构建第二待筛选数据集;基于所述第一待筛选数据集和所述第二待筛选数据集,构建所述第一相似问题数据集。3.如权利要求2所述的FAQ相似问题生成方法,其特征在于,所述基于所述第一待筛选数据集和所述第二待筛选数据集,构建所述第一相似问题数据集,包括:将所述第一待筛选数据集与所述第二待筛选数据集中相同的数据作为所述标准FAQ数据的所述第一问题数据的所述相似问题数据并构建为第一数据集;将所述第一待筛选数据集中与所述第一数据集中相同的数据删除,获得第三待筛选数据集;将所述第二待筛选数据集中与所述第一数据集中相同的数据删除,获得第四待筛选数据集;将所述第三待筛选数据集中的各个所述第二问题数据对应的所述第二答案数据与所述第一数据集中各个所述第二问题数据对应的所述第二答案数据进行匹配,当所述第一数据集中存在匹配符合项时,将所述第三待筛选数据集中的所述第二答案数据对应得所述第二问题数据添加进所述第一数据集中并将其从所述第三待筛选数据集中删除;将所述第四待筛选数据集中的各个所述第二问题数据与所述第一数据集中各个所述第二问题数据进行匹配,当所述第一数据集中存在匹配符合项时,将所述第四待筛选数据集中的所述第二问题数据添加进所述第一数据集中并将其从所述第四待筛选数据集中删除;直至所述第三待筛选数据集和所述第四待筛选数据集中不存在可以添加进所述第一数据集中的所述第二问题数据时,将所述第一数据集作为所述第一相似问题数据集。
4.如权利要求1所述的FAQ相似问题生成方法,其特征在于,所述基于所述标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:提取所述标准FAQ数据集中任一标准FAQ数据;基于所述标准FAQ数据,生成相似问题数据获取请求;将所述相似问题数据获取请求发送至所述大数据平台上的各个数据处理节点;接收各个所述数据处理节点对于所述相似问题数据获取请求的反馈数据;解析各个所述数据处理节点的所述反馈数据,获取多个第三待筛选数据;基于所述第三待筛选数据对应的反馈的所述数据处理节点的权限值,确定各个所述第三待筛选数据对应的信任值,所述信任值的计算公式如下:;其中,为所述信任值,为第个所述反馈数据包含所述第三待筛选数据的所述数据处理节点的权限值;为所述反馈数据包含所述第三待筛选数据的所述数据处理节点的数目;基于所述信任值大于预设的信任阈值的所述第三待筛选数据,构建第二数据集;基于所述信任值小于等于预设的信任阈值的所述第三待筛选数据,构建第五待筛选数据集;将所述第五待筛选数据集中的各个所述第三待筛选数据中的第三问题数据分别与所述第二数据集中的第三问题数据以及所述标准FAQ数据中的第一问题数据匹配并且将所述第五待筛选数据集中的各个所述第三待筛选数据对应的第三答案数据分别与所述第二数据集中的第三问题数据对应的所述第三答案数据以及所述标准FAQ数据中的第一问题数据对应的第一答案数据匹配,当同时匹配符合时,将所述第五待筛选数据集中的所述第三待筛选数据添加进所述第二数据集并将其从第五待筛选数据集中删除;直至所述第五待筛选数据集中不存在可添加至所述第二数据集中的数据时,将所述第二数据集作为所述第一相似问题数据集。5.如权利要求1所述的FAQ相似问题生成方法,其特征在于,还包括:获取对于所述第二相似问题集的异常反馈的异常数据;对所述异常数据进行验证;当验证通过时,基于所述异常数据,确定异常的相似问题数据并将其从所述第一相似问题集中删除;基于删除后的所述第一相似问题集和所述标准FAQ数据集,重新构建所述相似问题生成深度学习模型;其中,对所述异常数据进行验证,包括:基于异常数据反馈的用户的反馈值,确定所述异常数据的效用值,计算公式如下:;
其中,为所述效用值,为所述异常数据的第个用户的反馈值;为所述异常数据的第个用户的权限值;为所述异常数据的反馈的用户...

【专利技术属性】
技术研发人员:嵇望陈默梁青王伟凯安毫亿
申请(专利权)人:杭州远传新业科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1