一种问题回复匹配方法、系统、服务器及存储介质技术方案

技术编号:36249022 阅读:18 留言:0更新日期:2023-01-07 09:41
本发明专利技术公开了一种问题回复匹配方法、系统、服务器及存储介质,该方法包括:获取用户类别和用户提问内容;对用户提问内容进行分词,获得问题分词;根据关键词库和自定义业务词典标识问题分词中的关键词;过滤问题分词中的干扰词;匹配与用户提问内容相似度最高的N个相似问题;匹配相似问题对应的标准问答对并返回用户。本发明专利技术结合了知识库和深度学习算法模型,能有效提升问题回复匹配的效率和精准度。能有效提升问题回复匹配的效率和精准度。能有效提升问题回复匹配的效率和精准度。

【技术实现步骤摘要】
一种问题回复匹配方法、系统、服务器及存储介质


[0001]本专利技术涉及人工智能咨询
,具体涉及一种问题回复匹配方法、系统、服务器及存储介质。

技术介绍

[0002]随着互联网行业的发展,各大企业对于答复用户问题的需求大幅提高,然而人工客服存在着培训和管理成本高、员工工作效率低、工作重复度高、服务质量不稳定等问题,也给企业带来了很大的压力。
[0003]人工智能技术的普及促进了智能咨询机器人的发展,智能咨询机器人能够24小时在线为用户回复问题,提高了问题回复的效率,也为企业节省了大量的人工服务成本。但现有的智能咨询机器人也同样存在着许多问题。
[0004]1.由于智能咨询机器人的问题匹配多基于分词后计算相似度,在此过程中,不常见的专业词汇可能被错误分词,从而无法正确匹配与该专业词汇有关的问答对,这也导致了智能咨询机器人在面对不同业务场景时回复准确率低。
[0005]2.问题回复匹配过程中,智能咨询机器人没有面向用户进行分类,也没有设置用户的问题匹配权限。由于不同用户群体涉及同一关键词的提问内容可能关联着不同的问题或回复,使得智能咨询机器人提供的回复并不适合用户的实际情况,影响了问题回复的准确率,在数据安全性上也存在一定问题。
[0006]3.现有的语料知识库多基于数据服务器,语料数据的调用速度较慢,回复匹配系统的计算性能低。
[0007]综上所述,现有智能咨询机器人主要面临着问题回复匹配相关性差、精确度低、计算性能低的问题。

技术实现思路

[0008]针对上述现有技术,本专利技术提供一种问题回复匹配方法、系统、服务器及存储介质,针对多种用户自身情况和提问情况,提供最接近、最契合用户意图的问题回复匹配,大大提升了回复精确度和回复匹配效率。
[0009]为实现上述目的,本专利技术通过以下技术方案得以实现:
[0010]第一方面,提供一种问题回复匹配方法,包括以下步骤:
[0011]获取用户类别和用户提问内容;
[0012]对用户提问内容进行分词,获得问题分词;
[0013]根据关键词库和自定义业务词典标识问题分词中的关键词;
[0014]过滤问题分词中的干扰词;
[0015]匹配与用户提问内容相似度最高的N个相似问题;
[0016]匹配相似问题对应的标准问答对并返回用户。
[0017]在第一方面的可选实施例中,过滤问题分词中的干扰词包括以下步骤:
[0018]将问题分词与知识库中的敏感词库进行匹配;
[0019]若问题分词中存在敏感词,则向用户返回存在敏感词的提醒;
[0020]若问题分词中不存在敏感词,则将问题分词与知识库中的停用词和符号库进行匹配;
[0021]剔除问题分词中的停用词和符号。
[0022]在第一方面的可选实施例中,匹配与用户提问内容相似度最高的N个相似问题包括以下步骤:
[0023]识别问题分词中是否包括关键词标识;
[0024]当识别到关键词标识时,通过搜索引擎根据关键词在知识库中搜索与用户提问内容相似度最高的前N个相似问题;
[0025]当未识别到关键词标识时,将问题分词通过算法模型转换为向量;
[0026]通过Pysparnn从知识库的相似问题索引文件中召回与用户提问内容相似度排名前N的相似问题;
[0027]通过孪生神经网络计算相似问题与用户输入内容的相似度,对相似问题按相似度进行降序排列;
[0028]输出相似度达到预设阈值的相似问题;
[0029]所述预设阈值由预先设置、人工调整确定。
[0030]具体地,所述相似问题索引文件在用户提问前生成,包括以下步骤:
[0031]当相似问题以字、词形式存储时,输入BM25字、词模型和Tf

idf字、词模型中转化为字、词维度的向量;
[0032]当相似问题以文本形式存储时,输入fasttext模型转化为文本维度的向量;
[0033]将字、词、文本维度的向量输入Sentence2Vector模型,获取字、词、文本维度的索引文件;
[0034]将字、词、文本维度的索引文件输入神经网络中进行评估和排序,输出最优的相似问题索引文件。
[0035]优选地,通过神经网络对字、词、文本维度的索引文件进行加权计算,输出加权后的相似问题索引文件。
[0036]进一步地,在用户提问前,将知识库中语料信息分字、分词、分文本聚类统计存储,相似问题以字、词、文本形式输入算法模型。
[0037]进一步地,在构建孪生神经网络对召回的相似问题进行排序的过程中,使用Attention机制、Pooling池化、损失度计算优化相似度计算过程。
[0038]在第一方面的可选实施例中,所述匹配相似问题对应的标准问答对并返回用户包括以下步骤:
[0039]匹配相似问题对应的标准问答对;
[0040]识别标准问答对的类别标识;
[0041]向用户优先返回包含该用户类别标识的标准问答对。
[0042]基于上述方案,优选地,所述向用户优先返回包含该用户类别标识的标准问答对还包括以下步骤:
[0043]在匹配到的标准问题中剔除包含其他用户类别标识的标准问答对,优先向用户返
回包含该用户类别标识的标准问答对,再返回不包含用户类别标识的公共标准问答对。
[0044]在第一方面的可选实施例中,优选地,当未获取到用户提问内容时,根据用户类别匹配该类别热门标准问答对并返回用户。
[0045]第二方面,提供一种问题匹配系统,包括:
[0046]知识库模块,包括数据服务器和Nosql服务器,存储匹配所需的数据供其他模块调用;
[0047]文本处理模块,对用户提问内容进行分词,对问题分词进行处理;
[0048]深度学习模块,通过问题分词匹配与用户提问内容相似度最高的N个相似问题;
[0049]用户交互模块,获取用户操作指令和输入内容,向用户返回匹配结果和指引;
[0050]问答对匹配模块,对标准问答对、热门标准问答对进行匹配、分类。
[0051]在第二方面的可选实施例中,所述匹配所需的数据包括:用户类别、相似问题、关键词、敏感词、停用词和符号、相似度阈值、相似问题和标准问答对的关系、标准问答对和用户类别标识的关系、热门标准问答对和用户类别标识的关系等。
[0052]在第二方面的可选实施例中,文本处理模块对用户提问内容进行分词,筛选用户提问内容中的敏感词,过滤用户提问内容中的停用词和符号。
[0053]在第二方面的可选实施例中,用户交互模块中包括用户终端,所述用户终端为PC端、APP、手机端、智能终端中的一种。
[0054]在第二方面的可选实施例中,深度学习模块的计算内容包括:引擎搜索、Pysparnn召回、文本匹配、Attention机制、文本序列化、孪生神经网络、用户类别筛选、相似度过滤。
[0055本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问题回复匹配方法,其特征在于,包括以下步骤:获取用户类别和用户提问内容;对用户提问内容进行分词,获得问题分词;根据关键词库和自定义业务词典标识问题分词中的关键词;过滤问题分词中的干扰词;匹配与用户提问内容相似度最高的N个相似问题;匹配相似问题对应的标准问答对并返回用户。2.根据权利要求1所述的方法,其特征在于,所述过滤问题分词中的干扰词包括以下步骤:将问题分词与知识库中的敏感词库进行匹配;若问题分词中存在敏感词,则向用户返回存在敏感词的提醒;若问题分词中不存在敏感词,则将问题分词与知识库中的停用词和符号库进行匹配;剔除问题分词中的停用词和符号。3.根据权利要求1所述的方法,其特征在于,所述匹配与用户提问内容相似度最高的N个相似问题包括以下步骤:识别问题分词中是否包括关键词标识;当识别到关键词标识时,通过搜索引擎根据关键词在知识库中搜索与用户提问内容相似度最高的前N个相似问题;当未识别到关键词标识时,将问题分词通过算法模型转换为向量;通过Pysparnn从知识库的相似问题索引文件中召回与用户提问内容相似度排名前N的相似问题;通过孪生神经网络计算相似问题与用户输入内容的相似度,对相似问题按相似度进行降序排列;输出相似度达到预设阈值的相似问题;所述预设阈值由预先设置、人工调整确定。4.根据权利要求3所述的方法,其特征在于,所述相似问题索引文件的生成包括以下步骤:当相似问题以字、词形式存储时,输入BM25字、词模型和Tf

idf字、词模型中转化为字、词维度的向量;当相似问题以文本形式存储时,输入fasttext模型转化为文本维度的向量;将字、词、文本维度的向量输入Sentence2...

【专利技术属性】
技术研发人员:李同兵孟祥锐谢镇宇温嘉敦唐世洁
申请(专利权)人:深圳市雁联计算系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1