一种FAQ相似问题生成方法及系统技术方案

技术编号：32503593 阅读：14 留言：0更新日期：2022-03-02 10:13

本发明专利技术提供一种FAQ相似问题生成方法及系统，其中，方法包括：构建标准FAQ数据集；基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集；基于标准FAQ数据集和相似问题数据集，构建相似问题生成深度学习模型；获取待处理的FAQ数据；基于相似问题生成深度学习模型和待处理的FAQ数据，生成对应待处理的FAQ数据对应的第二相似问题数据集。本发明专利技术的FAQ相似问题生成方法及系统，可以依据标准FAQ批量生成高质量、泛化性好的相似FAQ，用于后续的模型训练。用于后续的模型训练。用于后续的模型训练。

全部详细技术资料下载

【技术实现步骤摘要】
一种FAQ相似问题生成方法及系统

[0001]本专利技术涉及人工智能
，特别涉及一种FAQ相似问题生成方法及系统。

技术介绍

[0002]智能客服机器人，是一种使用自然语言与用户进行交流的人工智能信息系统，它采用包括自然语言理解、机器学习技术在内的多项智能人机交互技术，能够识别并理解用户以文字或语音形式提出的问题，通过语义分析理解用户意图，并以拟人化的方式与用户沟通，向用户提供信息咨询等相关服务。目前的智能客服会话的核心是进行用户意图匹配，只有明确了意图，才能给出针对性的回答，意图识别就是针对已知的训练语料(如语料格式为\((x,y)\)格式的元组列表，其中\(x\)为训练语料，\(y\)为期望输出类别或者称为意图)采用选定的算法构建一个模型，而后基于构建的模型对未知的文本进行分类。流程梳理如下：准备训练数据，按照固定的格式进行；抽取所需要的特征，形成特征向量；抽取的特征向量与对应的期望输出（也就是目标label）一起输入到机器学习算法中，训练出一个预测模型；对新到的数据采取同样的特征抽取，得到用于预测的特征向量；使用训练好的预测模型，对处特征处理后的新数据进行预测，并返回结果。
[0003]但由于用户用词习惯或知识储备的不同，对于相同意思的问题，不同用户会采用不同的描述方式，不同的用户对于同一个意图会使用不同的表达方式，因此同一个意图的相似问题需要人工构建训练语料用于有监督的分类任务，费时费力，人工标注数据具有高昂的代价，利用有限的标注数据，获取到更多的训练数据，满足有监督模型训练的要求，训练出泛化能...

【技术保护点】

【技术特征摘要】
1.一种FAQ相似问题生成方法，其特征在于，包括：构建标准FAQ数据集；基于所述标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集；基于所述标准FAQ数据集和所述相似问题数据集，构建相似问题生成深度学习模型；获取待处理的FAQ数据；基于所述相似问题生成深度学习模型和所述待处理的FAQ数据，生成对应所述待处理的FAQ数据对应的第二相似问题数据集。2.如权利要求1所述的FAQ相似问题生成方法，其特征在于，所述基于所述标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集，包括：提取所述标准FAQ数据集中任一标准FAQ数据；解析所述标准FAQ数据，确定第一问题数据和第一答案数据；将所述大数据平台上各个存储节点存储的FAQ数据集作为目标数据集；将所述第一问题数据与所述目标数据集中的各个FAQ数据中的第二问题数据进行匹配，获取所述目标数据集中与所述第一问题数据相匹配的所述第二问题数据作为第一待筛选数据并构建第一待筛选数据集；将所述第一答案数据与所述目标数据集中的各个FAQ数据中的第二答案数据进行匹配，获取所述目标数据集中与所述第一答案数据相匹配的所述第二答案数据对应的所述第二问题数据作为第二待筛选数据并构建第二待筛选数据集；基于所述第一待筛选数据集和所述第二待筛选数据集，构建所述第一相似问题数据集。3.如权利要求2所述的FAQ相似问题生成方法，其特征在于，所述基于所述第一待筛选数据集和所述第二待筛选数据集，构建所述第一相似问题数据集，包括：将所述第一待筛选数据集与所述第二待筛选数据集中相同的数据作为所述标准FAQ数据的所述第一问题数据的所述相似问题数据并构建为第一数据集；将所述第一待筛选数据集中与所述第一数据集中相同的数据删除，获得第三待筛选数据集；将所述第二待筛选数据集中与所述第一数据集中相同的数据删除，获得第四待筛选数据集；将所述第三待筛选数据集中的各个所述第二问题数据对应的所述第二答案数据与所述第一数据集中各个所述第二问题数据对应的所述第二答案数据进行匹配，当所述第一数据集中存在匹配符合项时，将所述第三待筛选数据集中的所述第二答案数据对应得所述第二问题数据添加进所述第一数据集中并将其从所述第三待筛选数据集中删除；将所述第四待筛选数据集中的各个所述第二问题数据与所述第一数据集中各个所述第二问题数据进行匹配，当所述第一数据集中存在匹配符合项时，将所述第四待筛选数据集中的所述第二问题数据添加进所述第一数据集中并将其从所述第四待筛选数据集中删除；直至所述第三待筛选数据集和所述第四待筛选数据集中不存在可以添加进所述第一数据集中的所述第二问题数据时，将所述第一数据集作为所述第一相似问题数据集。
4.如权利要求1所述的FAQ相似问题生成方法，其特征在于，所述基于所述标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集，包括：提取所述标准FAQ数据集中任一标准FAQ数据；基于所述标准FAQ数据，生成相似问题数据获取请求；将所述相似问题数据获取请求发送至所述大数据平台上的各个数据处理节点；接收各个所述数据处理节点对于所述相似问题数据获取请求的反馈数据；解析各个所述数据处理节点的所述反馈数据，获取多个第三待筛选数据；基于所述第三待筛选数据对应的反馈的所述数据处理节点的权限值，确定各个所述第三待筛选数据对应的信任值，所述信任值的计算公式如下：;其中，为所述信任值，为第个所述反馈数据包含所述第三待筛选数据的所述数据处理节点的权限值；为所述反馈数据包含所述第三待筛选数据的所述数据处理节点的数目；基于所述信任值大于预设的信任阈值的所述第三待筛选数据，构建第二数据集；基于所述信任值小于等于预设的信任阈值的所述第三待筛选数据，构建第五待筛选数据集；将所述第五待筛选数据集中的各个所述第三待筛选数据中的第三问题数据分别与所述第二数据集中的第三问题数据以及所述标准FAQ数据中的第一问题数据匹配并且将所述第五待筛选数据集中的各个所述第三待筛选数据对应的第三答案数据分别与所述第二数据集中的第三问题数据对应的所述第三答案数据以及所述标准FAQ数据中的第一问题数据对应的第一答案数据匹配，当同时匹配符合时，将所述第五待筛选数据集中的所述第三待筛选数据添加进所述第二数据集并将其从第五待筛选数据集中删除；直至所述第五待筛选数据集中不存在可添加至所述第二数据集中的数据时，将所述第二数据集作为所述第一相似问题数据集。5.如权利要求1所述的FAQ相似问题生成方法，其特征在于，还包括：获取对于所述第二相似问题集的异常反馈的异常数据；对所述异常数据进行验证；当验证通过时，基于所述异常数据，确定异常的相似问题数据并将其从所述第一相似问题集中删除；基于删除后的所述第一相似问题集和所述标准FAQ数据集，重新构建所述相似问题生成深度学习模型；其中，对所述异常数据进行验证，包括：基于异常数据反馈的用户的反馈值，确定所述异常数据的效用值，计算公式如下：;
其中，为所述效用值，为所述异常数据的第个用户的反馈值；为所述异常数据的第个用户的权限值；为所述异常数据的反馈的用户...

【专利技术属性】
技术研发人员：嵇望，陈默，梁青，王伟凯，安毫亿，
申请(专利权)人：杭州远传新业科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人