数据处理方法、装置及系统制造方法及图纸

技术编号:23932903 阅读:31 留言:0更新日期:2020-04-25 02:06
本申请涉及一种数据处理方法、装置及系统,数据处理方法包括获取原始问答数据;对原始问答数据进行处理操作,生成训练数据和测试数据,处理操作包括数据清洗和/或数据筛选;建立虚拟客服问答模型,将训练数据输入虚拟客服问答模型;将测试数据输入训练好的虚拟客服问答模型进行问答测试。本申请可以提高虚拟客服问答模型冷启动初期训练效果,通过生成训练数据训练虚拟客服问答模型可以减少人力投入,并且有利于模型推广使用;通过测试数据测试虚拟客服问答模型,使虚拟客服问答效果可评估,提高回答问题正确率,从而提高用户体验。

Data processing method, device and system

【技术实现步骤摘要】
数据处理方法、装置及系统
本申请涉及机器学习
,尤其是一种数据处理方法、装置及系统。
技术介绍
伴随着互联网及移动互联网的发展,一方面,互联网使用人数持续增长,通过互联网咨询业务问题的人数越来越多;另一方面神经网络算法得到广泛应用,自然语言处理领域也取得突破性进展。为应对业务咨询量的高速增长,很多公司开始使用自然语言处理(NLP,NaturalLanguageProcessing)模型生成一个虚拟机器人来处理用户问题,以降低客服人力成本。对一般企业来说,在准备NLP模型初期,往往没有足够业务数据去训练模型,NLP模型需要以冷启动方式来运行,冷启动是指机器学习模型在启动初期无法得到足够的训练数据,需使用一些特定的方法不断对自身模型进行修正,以达到预期训练效果。目前,NLP模型初期,模型冷启动时采集的训练数据是通过人工模仿用户提问及回答产生,而这种方法不仅耗费大量人力,人力成本不能评估,而且,由于凭借人工经验生成训练数据,每个客服系统需要重新投入人力训练客服机器人,导致模型的推广性差,另一方面,由于训练数据数量有限,模型的测试不够充分,导致虚拟机器人在回答用户问题时会出现答非所问等状况发生,影响用户体验。
技术实现思路
为至少在一定程度上克服NLP模型初期,模型冷启动时采集的训练数据是通过人工模仿用户提问及回答产生,不仅耗费大量人力,而且模型的推广性差,另一方面,由于训练数据数量有限,模型的测试不够充分,影响用户体验的问题,本申请提供一种数据处理方法、装置及系统。第一方面,本申请提供一种数据处理方法,包括:获取原始问答数据;对所述原始问答数据进行处理操作,生成训练数据和测试数据,所述处理操作包括数据清洗和/或数据筛选;建立虚拟客服问答模型,将所述训练数据输入所述虚拟客服问答模型;将所述测试数据输入训练好的虚拟客服问答模型进行问答测试。进一步的,所述原始问答数据包括:内部数据和外部数据,所述内部数据包括系统中已经存在的历史问答数据;所述外部数据包括通过人工客服记录保存的对话数据。进一步的,所述数据清洗包括对所述原始问答数据中的特定字符进行删除,所述特定字符包括符号、数字、字母、感叹词、敏感词中的一种或多种。进一步的,所述数据筛选包括按照预设句子长度筛选符合业务逻辑句子,所述句子包括问句和答句。进一步的,在所述生成训练数据和测试数据前,还包括:预设标准问答数据;对所述原始问答数据进行标注以建立所述原始问答数据和所述标准问答数据的映射。进一步的,所述方法还包括:对原始问答数据标注结果进行审核。进一步的,所述虚拟客服问答模型为利用卷积神经算法建立的自然语言处理模型。进一步的,所述方法还包括:评估所述虚拟客服问答模型,所述评估所述虚拟客服问答模型包括判断虚拟客服问答模型是否满足上线条件。第二方面,本申请提供一种数据处理装置,包括:获取模块,用于获取原始问答数据;生成模块,用于对所述原始问答数据进行处理操作,生成训练数据和测试数据,所述处理操作包括数据清洗和/或数据筛选;模型建立模块,用于建立虚拟客服问答模型,将所述训练数据输入所述虚拟客服问答模型;模型测试模块,用于将所述测试数据输入训练好的虚拟客服问答模型进行问答测试。第三方面,本申请提供一种数据处理系统,包括:存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序以实现权利要求上述数据处理方法。本申请的实施例提供的技术方案可以包括以下有益效果:本申请通过对原始问答数据进行处理操作,生成训练数据和测试数据,将训练数据输入虚拟客服问答模型,将测试数据输入训练好的虚拟客服问答模型进行问答测试,提高虚拟客服问答模型冷启动初期训练效果,通过生成训练数据训练虚拟客服问答模型可以减少人力投入,并且有利于模型推广使用;通过测试数据测试虚拟客服问答模型,使虚拟客服问答效果可评估,提高回答问题正确率,从而提高用户体验。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。图1是本申请一个实施例提供的一种数据处理方法的流程图。图2是本申请另一个实施例提供的一种数据处理方法的流程图。图3是本申请一个实施例提供的另一种数据处理方法的流程图。图4是本申请一个实施例提供的一种数据处理装置的功能结构图。图5是本申请一个实施例提供的一种数据处理系统的结构框图。具体实施方式下面结合附图和实施例对本专利技术进行详细的描述。图1是本申请一个实施例提供的数据处理方法的模块图。如图1所示,本实施例提供的数据处理方法,包括:S11:获取原始问答数据;S12:对原始问答数据进行处理操作,生成训练数据和测试数据,处理操作包括数据清洗和/或数据筛选;S13:建立虚拟客服问答模型,将训练数据输入虚拟客服问答模型;S14:将测试数据输入训练好的虚拟客服问答模型进行问答测试。传统NLP模型初期,模型冷启动时采集的训练数据是通过人工模仿用户提问及回答产生,因此会出现训练语料不足以及缺少测试数据的问题,因训练语料不足导致问答模型回答准确率低;因缺少测试数据导致无法有效评估问答模型的实际问答效果。并且,由于采集的训练数据是通过人工模仿用户提问及回答产生,由于缺乏规范化的数据处理流程和模型评估方法,导致无法预估人员投入量。另一方面,由于训练数据数量有限,模型的测试不够充分,导致虚拟机器人在回答用户问题时会出现答非所问等状况发生,影响用户体验。本实施例中,通过对原始问答数据进行处理操作,生成训练数据和测试数据,将训练数据输入虚拟客服问答模型,将测试数据输入训练好的虚拟客服问答模型进行问答测试,提高虚拟客服问答模型冷启动初期训练效果,通过生成训练数据训练虚拟客服问答模型可以减少人力投入,并且有利于模型推广使用;通过测试数据测试虚拟客服问答模型,使虚拟客服问答效果可评估,提高回答问题正确率,从而提高用户体验。图2是本申请另一个实施例提供的一种数据处理方法的模块图。如图2所示,本实施例的数据处理方法,包括:S21:获取原始问答数据;作为本专利技术可选的一种实现方式,原始问答数据包括:内部数据和外部数据,内部数据包括系统中已经存在的历史问答数据,现有问答服务系统所记录下来的问答记录,问答记录的数据可以直接作为原始问答数据,也可以对问答记录的数据进行初步筛选,筛选条件例如为:取问答得分较低,针对用户提出的问题,问答服务系统会评估用户的问题与知识库中所有答案的关联度,关联度之和为一分,关联度分数越高,越能确认用户在问的问题,同时在每一次问答后邀请用户对问答效果进行打分,最终,筛选出问答得分在0.7分以本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取原始问答数据;/n对所述原始问答数据进行处理操作,生成训练数据和测试数据,所述处理操作包括数据清洗和/或数据筛选;/n建立虚拟客服问答模型,将所述训练数据输入所述虚拟客服问答模型;/n将所述测试数据输入训练好的虚拟客服问答模型进行问答测试。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取原始问答数据;
对所述原始问答数据进行处理操作,生成训练数据和测试数据,所述处理操作包括数据清洗和/或数据筛选;
建立虚拟客服问答模型,将所述训练数据输入所述虚拟客服问答模型;
将所述测试数据输入训练好的虚拟客服问答模型进行问答测试。


2.根据权利要求1所述的数据处理方法,其特征在于,所述原始问答数据包括:
内部数据和外部数据,所述内部数据包括系统中已经存在的历史问答数据;所述外部数据包括通过人工客服记录保存的对话数据。


3.根据权利要求1所述的数据处理方法,其特征在于,所述数据清洗包括对所述原始问答数据中的特定字符进行删除,所述特定字符包括符号、数字、字母、感叹词、敏感词中的一种或多种。


4.根据权利要求1所述的数据处理方法,其特征在于,所述数据筛选包括按照预设句子长度筛选符合业务逻辑句子,所述句子包括问句和答句。


5.根据权利要求1所述的数据处理方法,其特征在于,在所述生成训练数据和测试数据前,还包括:
预设标准问答数据;
对所述原始问答数据进行标注以建立所述原始问答数...

【专利技术属性】
技术研发人员:何鹏飞
申请(专利权)人:上海中通吉网络技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1