数据标记方法及装置、智能问答方法及系统制造方法及图纸

技术编号:21629008 阅读:34 留言:0更新日期:2019-07-17 11:06
本申请实施例公开了数据标记方法及装置、智能问答方法及系统,该数据标记方法包括:依据预先设置的关键词从原始数据中提取出待标记数据;采用基于密度的聚类算法对待标记数据进行聚类,得到聚类后的各聚类集;其中,聚类后的各聚类集与待标记数据的大小比值不大于预设大小比值;获取对各聚类集进行人工标记的标记结果;依据标记结果对待标记数据中还未标记的剩余数据进行标记。采用本申请实施例,不仅可以用更少的人力物力成本来实现人工标注,而且使得聚类集中的数据可以获得精确的标注结果。进一步的,对于待标注数据中剩余未被标记的数据,还可以依据对聚类集的人工标注结果进行标注,还能提高未被标注过的剩余数据的标注结果的精确度。

Data Marking Method and Device, Intelligent Question Answering Method and System

【技术实现步骤摘要】
数据标记方法及装置、智能问答方法及系统
本申请涉及互联网数据处理
,特别涉及一种对互联网业务中的问句数据标记方法及装置,一种基于数据标记的智能问答方法及系统,一种基于数据标记的答案获取方法及客户端,以及,一种服务器。
技术介绍
目前,很多公司都存在一定数量的工单,例如:对于互联网交易来说,用户会向客服提问,客服会针对客户的问题进行回复,而用户向客户提问可以理解为求助工单。这些工单对于产品的改进和自主服务机器人的训练都可以起到很重要的作用。但是,这些工单中原始数据的存在形式都是自然语言形式,因而无法被机器所使用,例如:工单中的原始数据无法直接作为机器学习的训练样本被使用。因此,需要对这些原始数据进行标注,从而生成机器可以使用的数据。
技术实现思路
专利技术人在研究过程中发现,在现有技术中,由于工单中的原始数据涉及到用户的隐私等,因此,一般都是通过技术人员对所有原始数据人工进行标注,这样不仅会耗费大量的人力和财力,而且标记效率和准确度都很低。基于此,本申请提供了一种数据标记方法,用以采用基于密度的聚类算法,对原始数据进行聚类,得到大小小于原始数据的预设大小比值的聚类集,这类聚类集采用人工标注得到标注结果,从而利用聚类集的标注结果再对其他原始数据进行标记。因为人工标注的数据不需要覆盖全部原始数据,只需要对小于原始数据的预设大小比值的聚类集中的问句数据进行标记,从而减少了人力物力财力的消耗,也提高了标记数据的效率和准确度。本申请还提供了一种数据标记装置,用以保证上述方法在实际中的实现及应用。为了解决上述问题,本申请公开了一种数据标记方法,该方法包括:依据预先设置的关键词从原始数据中提取出待标记数据;采用基于密度的聚类算法对所述待标记数据进行聚类,得到聚类后的各聚类集;其中,聚类后的各聚类集与所述待标记数据的大小比值不大于预设大小比值;获取对所述各聚类集进行人工标记的标记结果;依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记。其中,所述依据预先设置的关键词从原始数据中提取出待标记数据,包括:从数据源获取原始数据,所述原始数据包括:用户标识、客服标识、各条原始数据的数据标识和各原始数据的内容;所述用户标识为提出问题的提问用户的标识,所述客服标识为回答问题的客服的标识;按照预设的问句关键词,从所述原始数据中抽取出各提问用户的问句数据;判断各问句数据的长度是否大于预设的长度阈值,如果是,则从大于所述长度阈值的各问句数据中,删除满足预设删除条件的问句数据,得到所述待标记数据;所述预设删除条件为:涉及用户的账号、密码和/或无意义的独立字符。其中,所述删除满足预设删除条件的问句数据之后,还包括:将各删除后的问句数据转化成相同维度的各问句向量,并将所述各问句向量作为所述待标记数据。其中,所述采用基于密度的聚类算法对所述待标记数据进行聚类,得到聚类后的各聚类集,包括:设置基于密度的聚类算法的距离阈值和密度阈值,所述预设的大小比值由所述距离阈值和所述密度阈值确定,所述距离阈值用于表示聚类后每一类聚类集中各待标记数据之间的最大距离,所述密度阈值用于表示:每一类聚类集中各待标记数据的总个数的最大值;依据设置了距离阈值和密度阈值的聚类算法,对所述待标记数据进行聚类,得到聚类后的各聚类集。其中,所述依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记,包括:依据所述标记结果训练数据标记模型,所述数据标记模型为递归神经网络模型,训练样本为:所述各聚类集中的各问句数据及每个问句所属的聚类集对应的各标记结果;依据所述训练好的数据标记模型,对所述待标记数据中还未标记的剩余数据进行标记。其中,所述依据所述训练好的数据标记模型,对所述待标记数据中还未标记的剩余数据进行标记,包括:将待标记数据中还未标记的剩余数据作为所述数据标记模型的输入,获取所述数据标记模型输出的、各剩余数据关于标记结果的概率分布值;判断各剩余数据的概率分布值是否大于预设概率阈值,如果是,则针对概率分布值大于预设概率阈值的剩余数据,直接依据该概率分布值对应的标记结果标记该剩余数据。其中,所述依据所述训练好的数据标记模型,对所述待标记数据中还未标记的剩余数据进行标记,还包括:针对概率分布值小于或等于预设概率阈值的剩余数据,获取该部分剩余数据在输入所述数据标记模型后且输出概率分布值之前,对应的内部状态向量数据;将所述内部状态向量数据作为待标记数据,执行所述采用基于密度的聚类算法对所述待标记数据进行聚类,得到聚类后的各聚类集的步骤,以便对所述内部状态向量数据进行标记。本申请实施例还公开了一种基于数据标记的智能问答方法,该方法应用于智能问答系统中的服务器上,所述服务器对应保存有:各个聚类集、标记结果和答案,所述标记结果表示一个聚类集归属的一类问题;该方法包括:响应于客户端发送的、需要客服回答的待回答问句,基于密度的聚类算法对所述待回答问句进行聚类,得到所述待回答问句所属的目标聚类集;将所述目标聚类集对应的标记结果,确定为所述待回答问句的目标标记结果;将所述目标标记结果对应的答案确定为所述待回答问句的目标答案,并将所述目标答案发送至客户端以便显示。本申请实施例还公开了一种基于数据标记的答案获取方法,该方法应用于客户端上,该方法包括:响应于提问用户输入问题,获取所述问题作为待回答问句;将所述待回答问句发送至服务器,并接收服务器返回的、所述待回答问句的目标答案;所述答案由所述服务器通过以下方式得到:所述服务器基于密度的聚类算法对所述待回答问句进行聚类,得到所述待回答问句所属的目标聚类集;将所述目标聚类集对应的标记结果,确定为所述待回答问句的目标标记结果;以及,将所述目标标记结果对应的答案确定为所述待回答问句的目标答案。本申请实施例还公开了一种数据标记装置,该装置集成于服务器上,该标记装置包括:提取单元,用于依据预先设置的关键词从原始数据中提取出待标记数据;聚类单元,用于采用基于密度的聚类算法对所述待标记数据进行聚类,得到聚类后的各聚类集;其中,聚类后的各聚类集与所述待标记数据的大小比值不大于预设大小比值;获取单元,用于获取对所述各聚类集进行人工标记的标记结果;标记单元,用于依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记。其中,所述提取单元,包括:第一获取子单元,用于从数据源获取原始数据,所述原始数据包括:用户标识、客服标识、各条原始数据的数据标识和各原始数据的内容;抽取子单元,用于按照预设的问句关键词,从所述原始数据中抽取出为各提问用户的问句数据;判断子单元,用于判断各问句数据的长度是否大于预设的长度阈值;删除子单元,用于在所述判断子单元的结果为是的情况下,从大于所述长度阈值的各问句数据中,删除满足预设删除条件的问句数据,得到所述待标记数据;所述预设删除条件为:涉及用户的账号、密码和/或无意义的独立字符。其中,所述提取单元还包括:转化子单元,用于将各删除后的问句数据转化成相同维度的问句向量,并将所述各问句向量作为所述待标记数据。其中,所述聚类单元,包括:设置子单元,用于设置基于密度的聚类算法的距离阈值和密度阈值,所述预设大小比值由所述距离阈值和所述密度阈值确定,所述距离阈值用于表示聚类后每一类聚类集中各待标记数据之间的最大距离,所述密度阈值用于表示:本文档来自技高网...

【技术保护点】
1.一种数据标记方法,其特征在于,应用于服务器上,该方法包括:依据预先设置的关键词从原始数据中提取出待标记数据;采用基于密度的聚类算法对所述待标记数据进行聚类,得到聚类后的各聚类集;其中,聚类后的各聚类集与所述待标记数据的大小比值不大于预设大小比值;获取对所述各聚类集进行人工标记的标记结果;依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记。

【技术特征摘要】
1.一种数据标记方法,其特征在于,应用于服务器上,该方法包括:依据预先设置的关键词从原始数据中提取出待标记数据;采用基于密度的聚类算法对所述待标记数据进行聚类,得到聚类后的各聚类集;其中,聚类后的各聚类集与所述待标记数据的大小比值不大于预设大小比值;获取对所述各聚类集进行人工标记的标记结果;依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记。2.根据权利要求1所述的方法,其特征在于,所述依据预先设置的关键词从原始数据中提取出待标记数据,包括:从数据源获取原始数据,所述原始数据包括:用户标识、客服标识、各条原始数据的数据标识和各原始数据的内容;所述用户标识为提出问题的提问用户的标识,所述客服标识为回答问题的客服的标识;按照预设的问句关键词,从所述原始数据中抽取出各提问用户的问句数据;判断各问句数据的长度是否大于预设的长度阈值,如果是,则从大于所述长度阈值的各问句数据中,删除满足预设删除条件的问句数据,得到所述待标记数据;所述预设删除条件为:涉及用户的账号、密码和/或无意义的独立字符。3.根据权利要求2所述的方法,其特征在于,所述删除满足预设删除条件的问句数据之后,还包括:将各删除后的问句数据转化成相同维度的各问句向量,并将所述各问句向量作为所述待标记数据。4.根据权利要求1所述的方法,其特征在于,所述采用基于密度的聚类算法对所述待标记数据进行聚类,得到聚类后的各聚类集,包括:设置基于密度的聚类算法的距离阈值和密度阈值,所述预设大小比值由所述距离阈值和所述密度阈值确定,所述距离阈值用于表示聚类后每一类聚类集中各待标记数据之间的最大距离,所述密度阈值用于表示:每一类聚类集中各待标记数据的总个数的最大值;依据设置了距离阈值和密度阈值的聚类算法,对所述待标记数据进行聚类,得到聚类后的各聚类集。5.根据权利要求1所述的方法,其特征在于,所述依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记,包括:依据所述标记结果训练数据标记模型,所述数据标记模型为递归神经网络模型,训练样本为:所述各聚类集中的各问句数据及每个问句所属的聚类集对应的各标记结果;依据所述训练好的数据标记模型,对所述待标记数据中还未标记的剩余数据进行标记。6.根据权利要求5所述的方法,其特征在于,所述依据所述训练好的数据标记模型,对所述待标记数据中还未标记的剩余数据进行标记,包括:将待标记数据中还未标记的剩余数据作为所述数据标记模型的输入,获取所述数据标记模型输出的、各剩余数据关于标记结果的概率分布值;判断各剩余数据的概率分布值是否大于预设概率阈值,如果是,则针对概率分布值大于预设概率阈值的剩余数据,直接依据该概率分布值对应的标记结果标记该剩余数据。7.根据权利要求6所述的方法,其特征在于,还包括:针对概率分布值小于或等于预设概率阈值的剩余数据,获取该部分剩余数据在输入所述数据标记模型后且输出概率分布值之前,对应的内部状态向量数据;将所述内部状态向量数据作为待标记数据,执行所述采用基于密度的聚类算法对所述待标记数据进行聚类,得到聚类后的各聚类集的步骤,以便对所述内部状态向量数据进行标记。8.一种基于数据标记的智能问答方法,其特征在于,该方法应用于智能问答系统中的服务器上,所述服务器对应保存有:各个聚类集、标记结果和...

【专利技术属性】
技术研发人员:张雨洵
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1