NLP技术的虚拟客服自动问答方法、存储介质及设备技术

技术编号:37135362 阅读:12 留言:0更新日期:2023-04-06 21:34
本发明专利技术公开了一种NLP技术的虚拟客服自动问答方法、存储介质及设备,该虚拟客服自动问答方法包括:收集共享研发平台上使用者提出的问题文本数据,将收集的问题文本数据进行预处理后,进行分类,并给出分类后的每条问题文本数据的标准答案,存入问题数据库;将分类后的每条问题文本数据输入词袋模型、TF

【技术实现步骤摘要】
NLP技术的虚拟客服自动问答方法、存储介质及设备


[0001]本专利技术属于自然语言处理
,具体地,涉及一种NLP技术的虚拟客服自动问答方法、存储介质及设备。

技术介绍

[0002]随着越来越多的企业开始重视数字化转型,研发团队工作效率的提升推动企业战略目标实现的必由之路。尤其在大型企业中,将每个研发团队根据自己的实践和探索成果进行整合,逐步形成企业的技术服务能力、企业规范标准等,最终成为企业内部共享研发平台。平台能够为企业内部的所有团队开放提供能力资源,将精英团队先进的实践经验推广应用至所有团队。
[0003]在共享研发平台的使用过程中,用户会根据自己的使用体验,在平台的线上客服模块对使用问题进行提问,平台的工作人员针对不同的问题给出相应的解答。鉴于共享研发平台功能点的确定性,用户常见问题种类有限,重复回答使用不同提问方法所提出的相同问题,严重增加了共享研发平台运营人员的工作量。

技术实现思路

[0004]针对现有技术中存在的问题,本专利技术提供了一种NLP技术的虚拟客服自动问答方法、存储介质及设备,将新提出的问题文本数据与问题数据库中的问题文本数据计算余弦相似度,根据余弦相似度匹配最优的标准答案,实现虚拟客服自动问答,大大减轻了共享研发平台运营人员的工作量。
[0005]为实现上述目的,本专利技术采用如下技术方案:一种NLP技术的虚拟客服自动问答方法,具体包括如下步骤:
[0006]步骤1、收集共享研发平台上使用者提出的问题文本数据,将收集的问题文本数据进行预处理后,进行分类,并给出分类后的每条问题文本数据的标准答案,存入问题数据库;
[0007]步骤2、依次将每一类问题文本数据输入词袋模型中,输出词频矩阵;
[0008]步骤3、将词频矩阵输入到TF

IDF模型中,输出每一类问题文本数据的TF

IDF权重矩阵,所述TF

IDF权重矩阵的每一行代表一条问题文本数据;
[0009]步骤4、将使用者新提出的问题文本数据进行预处理后输入词袋模型中,输出词频向量,并将词频向量输入到TF

IDF模型中,输出TF

IDF向量;
[0010]步骤5、根据新提出的问题文本数据中的关键词找出每一类问题文本数据的TF

IDF权重矩阵中匹配度最高的TF

IDF向量,将新提出的问题文本数据的TF

IDF向量与匹配度最高的TF

IDF向量进行余弦相似度计算,选取余弦相似度值最大的一类问题文本数据的TF

IDF权重矩阵;
[0011]步骤6、将新提出的问题文本数据的TF

IDF向量与选取的余弦相似度值最大的一类问题文本数据的TF

IDF权重矩阵进行余弦相似度计算,若所有的余弦相似度值均小于阈
值,将无匹配问题的提醒发送给人工客服,人工客服进行答复;否则,虚拟客服将余弦相似度最大的5个问题文本数据对应的标准答案输出。
[0012]进一步地,所述问题文本数据的预处理包括:对问题文本数据进行分词和清洗;所述分词的过程为:通过精准模式将问题文本数据进行分词;所述清洗的过程为:将问题文本数据中的停用词、不规则字符进行剔除,并将问题文本数据中的同义词进行统一。
[0013]进一步地,所述词袋模型设置的参数包括:最大关键词个数、最大词频以及最小词频。
[0014]进一步地,所述余弦相似度的计算过程为:
[0015][0016]其中,c为TF

IDF向量的维度,i为c的索引,为TF

IDF权重矩阵中TF

IDF向量的第i维度值,为新提出的问题文本数据的TF

IDF向量的第i维度值。
[0017]进一步地,还包括:将人工客服答复的问题及答复存储到问题数据库中,重复步骤2

3,更新TF

IDF权重矩阵。
[0018]进一步地,本专利技术还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序使计算机执行所述的基于NLP技术的虚拟客服自动问答方法。
[0019]进一步地,本专利技术还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现所述的一基于NLP技术的虚拟客服自动问答方法。
[0020]与现有技术相比,本专利技术具有如下有益效果:本专利技术基于NLP技术的虚拟客服自动问答方法将问题数据库中的问题文本数据输入词袋模型、TF

IDF模型后,输出TF

IDF权重矩阵,通过TF

IDF权重矩阵与新提出问题文本数据的TF

IDF向量进行余弦相似度计算,通过余弦相似度值的大小匹配对应的标准答案,实现虚拟客服的自动问答,答复准确率高,用户体验好,同时大大减轻了运营人员的工作量,降低了运营成本,减少计算资源的投入。此外,本专利技术基于NLP技术的虚拟客服自动问答方法能自动筛选出问题数据库中没有的问题文本,对问题数据库进行补充,提升运营效率。
附图说明
[0021]图1为本专利技术NLP技术的虚拟客服自动问答方法的流程图;
[0022]图2为本专利技术中对问题文本数据的预处理流程图;
[0023]图3为本专利技术中问题文本数据向量化流程图。
具体实施方式
[0024]下面结合附图对本专利技术的技术方案作进一步地解释说明。
[0025]如图1,本专利技术提供了一种NLP技术的虚拟客服自动问答方法,具体包括如下步骤:
[0026]步骤1、共享研发平台的运营人员,通过平台的客服模块或内部问题解答群聊等途径,收集共享研发平台上使用者提出的问题文本数据,将收集的问题文本数据进行预处理后,进行分类,并给出分类后的每条问题文本数据的标准答案,存入问题数据库。如图2,本
专利技术中问题文本数据的预处理包括:对问题文本数据进行分词和清洗;具体地,分词的过程为:通过精准模式将问题文本数据进行分词,使得问题文本数据中的词语能够被精确地切分;清洗的过程为:运营人员在收集问题文本数据时,可能存在制表符、空格、换页符等停用词和不规则字符,会对后期问题文本数据的匹配结果造成影响,需要将问题文本数据中的停用词、不规则字符进行剔除,同时,问题文本数据中的同义词也会对问题文本数据的匹配过程造成干扰,需要将问题文本数据中的同义词进行统一。本专利技术中问题文本数据的分类过程为:先进行问题文本数据聚类,再进行问题文本数据的关键词提取。
[0027]如图3为本专利技术中问题文本数据向量化流程图,包括:步骤2、依次将每一类问题文本数据输入词袋模型中,输出词频矩阵,词袋模型一种最基本的文本表示模型,可将每一条问题文本数据看作是词汇的集合,忽略词汇之间的顺序,仅关联词汇出现的次数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种NLP技术的虚拟客服自动问答方法,其特征在于,具体包括如下步骤:步骤1、收集共享研发平台上使用者提出的问题文本数据,将收集的问题文本数据进行预处理后,进行分类,并给出分类后的每条问题文本数据的标准答案,存入问题数据库;步骤2、依次将每一类问题文本数据输入词袋模型中,输出词频矩阵;步骤3、将词频矩阵输入到TF

IDF模型中,输出每一类问题文本数据的TF

IDF权重矩阵,所述TF

IDF权重矩阵的每一行代表一条问题文本数据;步骤4、将使用者新提出的问题文本数据进行预处理后输入词袋模型中,输出词频向量,并将词频向量输入到TF

IDF模型中,输出TF

IDF向量;步骤5、根据新提出的问题文本数据中的关键词找出每一类问题文本数据的TF

IDF权重矩阵中匹配度最高的TF

IDF向量,将新提出的问题文本数据的TF

IDF向量与匹配度最高的TF

IDF向量进行余弦相似度计算,选取余弦相似度值最大的一类问题文本数据的TF

IDF权重矩阵;步骤6、将新提出的问题文本数据的TF

IDF向量与选取的余弦相似度值最大的一类问题文本数据的TF

IDF权重矩阵进行余弦相似度计算,若所有的余弦相似度值均小于阈值,将无匹配问题的提醒发送给人工客服,人工客服进行答复;否则,虚拟客服将余弦相似度最大的5个问题文本数据对应的标...

【专利技术属性】
技术研发人员:韩晔张骏陈婧高旭巍王海莺
申请(专利权)人:中电信数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1