一种基于孪生网络BERT模型的智能问答匹配方法及系统技术方案

技术编号:28131667 阅读:18 留言:0更新日期:2021-04-19 11:54
一种基于孪生网络BERT模型的智能问答匹配方法及系统,涉及智能分类技术领域,所述方法包括S1:收集问题和答案作为数据集;S2:对所述数据集中的问题进行分词操作,获得智能问答语料库;S3:将智能问答语料库导入数据库,在数据库中建立词语对应问题的倒排索引;S4:获取用户问题,将用户问题分词后得到的每个词语放入数据库中检索得到若干候选问题;S5:分别利用编辑距离、TF

【技术实现步骤摘要】
一种基于孪生网络BERT模型的智能问答匹配方法及系统


[0001]本专利技术涉及智能问答
,尤其是涉及一种基于孪生网络BERT模型的智能问答匹配方法及系统。

技术介绍

[0002]客服是一种解答顾客疑问,满足顾客合理诉求的职业。其形式以文字客服为主,如淘宝客服、京东客服等。客服是一种机械重复性高,人力密集型的工作。客服人员每天需要接收大量顾客的不同情绪,难免会影响服务质量。
[0003]基于NLP技术实现的客服问答系统,可以精准捕捉用户意图,理解用户自然语言提问,将答案直接返回给用户,能够有效减少客服的工作量。
[0004]在银行领域,有很多不同的理财产品或业务系统,用户或客户经理在操作中难免遇到很多问题,针对这些问题,如果用人工的方式进行解答将会浪费大量人力成本。另外还存在以下几点问题:1、银行已有的问答系统也只是主要基于关键字匹配,无法完全理解用户的问题,给出的答案往往不尽人意,用户体验也十分不好。2、很多问题都是来自同一产品或业务,有的问题可能只差几个字,但是问题的意思完全不相同,如果回答相同则会造成错误,导致一定的经济损失,这是传统的问答系统难以解决的问题。基于以上问题,本专利技术提出了一种针对银行业务的基于孪生网络BERT模型的智能问答匹配方法。

技术实现思路

[0005]有鉴于此,本专利技术提出了一种基于孪生网络BERT模型的智能问答匹配方法及系统,在用户输入问题后,快速准确的从问答问答数据库中匹配相似度最高的问题并显示其答案。
[0006]为实现上述目的,本专利技术采用如下技术方案:
[0007]根据本专利技术的第一方面,提供了一种基于孪生网络BERT模型的智能问答匹配方法,所述方法包括以下步骤:
[0008]S1:收集问题和答案作为数据集;
[0009]S2:对所述数据集中的问题进行分词操作,获得智能问答语料库;
[0010]S3:将智能问答语料库导入数据库,在数据库中建立词语对应问题的倒排索引;
[0011]S4:获取用户问题,将用户问题分词后得到的每个词语放入数据库中检索得到若干候选问题;
[0012]S5:分别利用编辑距离、TF

IDF和word2vec三种算法得出用户问题与每个候选问题的字面相似度得分,并利用基于孪生网络的BERT模型得出用户问题与每个候选问题的语义相似度得分;
[0013]S6:将所述S5中得到的字面相似度得分和语义相似度得分输入逻辑回归模型,得到最终得分,将最终得分最高的候选问题作为最相似问题,从数据库中检索最相似问题对应的答案,完成智能问答匹配。
[0014]进一步的,所述S1具体包括:
[0015]收集问题和答案,根据关键词词典将问题和答案中的关键词别称改写为标准表述方式,将改写后的问题和答案作为数据集。
[0016]进一步的,所述S2具体包括:
[0017]利用结巴分词工具对所述数据集中的问题进行分词、过滤停用词,获得智能问答语料库,所述智能问答语料库包括词语、问题和答案。
[0018]进一步的,所述S4具体包括:
[0019]利用结巴分词工具对用户问题进行分词、过滤停用词,将用户问题分词后得到的每个词语放入数据库中检索得到若干候选问题;
[0020]进一步的,所述S5具体包括:
[0021]基于编辑距离算法获得用户问题与每个候选问题的字面相似度得分;
[0022]基于TF

IDF算法分别获得用户问题和每个候选问题的词频向量,将用户问题的词频向量与每个候选问题的词频向量的余弦相似度作为字面相似度得分;
[0023]基于word2vec算法分别获得用户问题和每个候选问题的句向量,将用户问题的句向量与每个候选问题的句向量的余弦相似度作为字面相似度得分;
[0024]将用户问题分别与每个候选问题分别组合,同时输入基于孪生网络的BERT模型,两个BERT模型共享参数,采用平均池化策略,得到输入的两个问题的语义向量,将两个语义向量的余弦相似度作为语义相似度得分。
[0025]进一步的,所述编辑距离算法指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数,次数越少则相似度越高。
[0026]进一步的,所述S6具体包括:
[0027]将3种字面相似度得分和语义相似度得分作为特征,对每一个特征乘以一个权重,训练逻辑回归模型,得到最终得分,将最终得分最高的候选问题作为最相似问题,从数据库中检索最相似问题对应的答案,完成智能问答匹配。
[0028]根据本专利技术的第二方面,提供了一种基于孪生网络BERT模型的智能问答匹配系统,包括:
[0029]数据采集模块,用于收集问题和答案作为数据集;
[0030]语料库构建模块,用于对所述数据集中的问题进行分词操作,获得智能问答语料库;
[0031]数据库索引模块,用于将智能问答语料库导入数据库,在数据库中建立词语对应问题的倒排索引;
[0032]问题检索模块,用于获取用户问题,将用户问题分词后得到的每个词语放入数据库中检索得到若干候选问题;
[0033]相似度计算模块,用于分别基于编辑距离、TF

IDF和word2vec三种算法得出用户问题与每个候选问题的字面相似度得分,并基于孪生网络的BERT模型得出用户问题与每个候选问题的语义相似度得分;
[0034]问答匹配模块,用于将所述S5中得到的字面相似度得分和语义相似度得分输入逻辑回归模型,得到最终得分,将最终得分最高的候选问题作为最相似问题,从数据库中检索最相似问题对应的答案,完成智能问答匹配。
[0035]根据本专利技术的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如前所述方法的步骤。
[0036]根据本专利技术的第四方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如前所述方法的步骤。
[0037]相对于现有技术,本专利技术所述的一种基于孪生网络BERT模型的智能问答匹配方法及系统具有以下优势:
[0038]1、本专利技术所提供的方法能够根据历史问题和答案构建问答数据集,并对用户的提问进行自动回复,极大地节省人力成本。
[0039]2、BERT预训练模型能够很好地得到文本的深度语义信息,本专利技术的方法采用BERT模型用于句向量提取,采用平均池化策略和余弦相似度的方法能够很好地度量文本间的语义相似度。
[0040]3、BERT模型虽然能力强大,但是也在计算时间太长的问题。本方法通过BERT+Siamese Network(孪生网络)的网络结构预先训练得到问题库中所有问题的句向量表征,每次匹配只需计算输入问题的BERT向量和计算其与候选问题的余弦相似度,极大减少了计算时间。
[0041]4、本方法先通过检索召回模块对问题进行粗筛,大大减轻后续本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于孪生网络BERT模型的智能问答匹配方法,其特征在于,所述方法包括以下步骤:S1:收集问题和答案作为数据集;S2:对所述数据集中的问题进行分词操作,获得智能问答语料库;S3:将智能问答语料库导入数据库,在数据库中建立词语对应问题的倒排索引;S4:获取用户问题,将用户问题分词后得到的每个词语放入数据库中检索得到若干候选问题;S5:分别利用编辑距离、TF

IDF和word2vec三种算法得出用户问题与每个候选问题的字面相似度得分,并利用基于孪生网络的BERT模型得出用户问题与每个候选问题的语义相似度得分;S6:将所述S5中得到的字面相似度得分和语义相似度得分输入逻辑回归模型,得到最终得分,将最终得分最高的候选问题作为最相似问题,从数据库中检索最相似问题对应的答案,完成智能问答匹配。2.根据权利要求1所述的一种基于孪生网络BERT模型的智能问答匹配方法,其特征在于,所述S1具体包括:收集问题和答案,根据关键词词典将问题和答案中的关键词别称改写为标准表述方式,将改写后的问题和答案作为数据集。3.根据权利要求1所述的一种基于孪生网络BERT模型的智能问答匹配方法,其特征在于,所述S2具体包括:利用结巴分词工具对所述数据集中的问题进行分词、过滤停用词,获得智能问答语料库,所述智能问答语料库包括词语、问题和答案。4.根据权利要求1所述的一种基于孪生网络BERT模型的智能问答匹配方法,其特征在于,所述S4具体包括:利用结巴分词工具对用户问题进行分词、过滤停用词,将用户问题分词后得到的每个词语放入数据库中检索得到若干候选问题。5.根据权利要求1所述的一种基于孪生网络BERT模型的智能问答匹配方法,其特征在于,所述S5具体包括:基于编辑距离算法获得用户问题与每个候选问题的字面相似度得分;基于TF

IDF算法分别获得用户问题和每个候选问题的词频向量,将用户问题的词频向量与每个候选问题的词频向量的余弦相似度作为字面相似度得分;基于word2vec算法分别获得用户问题和每个候选问题的句向量,将用户问题的句向量与每个候选问题的句向量的余弦相似...

【专利技术属性】
技术研发人员:李振鲍东岳张刚尹正徐超彭加欣任鹏飞张雨枫马圣楠
申请(专利权)人:民生科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1