本发明专利技术公开了一种数据过滤方法及装置。该方法包括:获取初始语料数据以及初始语料数据的人工分类结果;根据初始语料数据及人工分类结果建立分类模型;采用分类模型对新的语料数据进行自动分类处理;当自动分类处理的准确率小于预设值时,对分类模型进行调整处理;不断重复自动分类处理以及调整处理,直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于预设值时,采用此时的分类模型对待处理语料数据进行分类处理。借助于本发明专利技术的技术方案,能够有效提高知识点分类的准确率,降低人工成本,避免了人力资源的浪费。
【技术实现步骤摘要】
本专利技术涉及信息处理
,特别是涉及一种数据过滤方法及装置。
技术介绍
在现有技术中,智能问答知识库中包括了多个知识点,在建立知识库或者向知识库中添加新的知识点的过程中需要对知识点进行过滤,将正确的知识点放入知识库中,过滤掉不需要的知识点。目前,上述处理一般都是进行人工审核,过滤掉错误的知识点,保留正确的知识点,但是,需要耗费大量的人力物力财力,并且效率低下。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的数据过滤方法及装置。本专利技术提供一种数据过滤方法,包括:获取初始语料数据以及初始语料数据的人工分类结果;根据初始语料数据及人工分类结果建立分类模型;采用分类模型对新的语料数据进行自动分类处理;当自动分类处理的准确率小于预设值时,对分类模型进行调整处理;不断重复自动分类处理以及调整处理,直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于预设值时,采用此时的分类模型对待处理语料数据进行分类处理。本专利技术还提供了一种数据过滤装置,包括:获取模块,用于获取初始语料数据以及初始语料数据的人工分类结果;分类模型建立模块,用于根据初始语料数据及人工分类结果建立分类模型;自动分类模块,用于采用分类模型对新的语料数据进行自动分类处理;调整模块,用于当自动分类处理的准确率小于预设值时,对分类模型进行调整处理;优化模块,用于不断重复调用自动分类模块进行自动分类处理以及调用调整模块进行调整处理,直至确定采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于预设值时,调用自动分类模块采用此时的分类模型对待处理语料数据进行分类处理。本专利技术有益效果如下:通过采用训练好的分类模型自动对语料数据进行分类处理,解决了现有技术中在过滤知识点时需要耗费大量的人力物力财力,并且效率低下的问题,能够有效提高知识点分类的准确率,降低人工成本,避免了人力资源的浪费。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术实施例的数据过滤方法的流程图;图2是本专利技术实施例的数据过滤方法的详细处理的流程图;图3是本专利技术实施例的数据过滤装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为了解决现有技术中在过滤知识点时需要耗费大量的人力物力财力,并且效率低下的问题,本专利技术提供了一种数据过滤方法及装置,以下结合附图以及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不限定本专利技术。方法实施例根据本专利技术的实施例,提供了一种数据过滤方法,图1是本专利技术实施例的数据过滤方法的流程图,如图1所示,根据本专利技术实施例的数据过滤方法包括如下处理:步骤101,获取初始语料数据以及初始语料数据的人工分类结果。优选地,在本专利技术实施例中,语料数据可以为智能问答日志和/或从互联网爬取的问答数据。其中,智能问答日志是指:用户在使用智能问答系统过程中产生的交互日志,每条日志至少包括:用户的问句信息以及系统反馈的答案信息。此外,在从互联网爬取问答数据时,可以从论坛、网络百科、网络知道上爬取问答数据。优选地,在本专利技术实施例中,为了方便后续处理,可以首先对语料数据进行预处理,并提取其中的问句信息。预处理具体包括如下处理:去除语料数据中的无效格式,并将其余语料数据的格式统一为文本格式,过滤脏词、敏感词和停用词中的一种或多种,并将过滤后的文本数据按照标点划分为多行,得到问答形式的文本数据。在实际应用中,上述标点可以是问号、叹号、分号或句号,也就是说,可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。随后,还可以对提取的问句信息进行分词处理,并通过新词发现方法获取新词,并根据新词重新进行分词处理,或者,首先通过新词发现方法获取新词,更新分词词典,直接使用更新后的分词词典进行分词处理。在本专利技术实施例中,分词处理可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种进行。此外,在步骤101中,人工分类结果可以为:有效领域词(即“是”)和无效领域词(即“否”)两类,这种分类以便后续将错误(无效领域词)的知识点过滤掉。该有效领域词和无效领域词可以通过对初始语料数据标注的方式表示。当然,在实际应用中,分类的方式可以由多种多样,并不限于有效领域词和无效领域词这两种分类方式,还可以为三种及三种以上的分类方式。步骤102,根据初始语料数据及人工分类结果建立分类模型。在本专利技术实施例中,可以采用SVM和朴素贝叶斯中的一种或两种建立分类模型。具体地,步骤102的处理就是根据初始语料数据及人工分类结果对分类模型进行训练的过程。在分类模型训练完成后,执行下面的步骤。步骤103,采用分类模型对新的语料数据进行自动分类处理。也就是说,向分类模型中输入新的语料数据,分类模型根据步骤102的训练结果,会对输入的新的语料数据进行自动分类处理,输出该新的语料数据是有效还是无效。步骤104,当自动分类处理的准确率小于预设值时,对分类模型进行调整处理。需要说明的是,当输入100条新的语料数据,且前10条自动分类结果与人工分类结果相同,而后90条自动分类结果与人工分类结果都不同,从而前10条自动分类的准确率为100%,而整个100条自动分类的准确率为10%,因此自动分类的准确率应该与输入新的语料数据的数目有关系。为了能客观反映自动分类处理的准确率,新的语料数据的数目不能太少;
为了提高分类效率,新的语料数据的数目也不能太多,因此,新的语料数据的范围可以为:200条-500条。其中,在步骤104中预设值的取值范围可以包括:0.5-0.99。具体地,在步骤104中自动分类处理的准确率通过以下方式获取:步骤1,获取新的语料数据的人工分类结果;也就是说,需要获取人工对新的语料数据的分类结果是无效还是有效。步骤2,比较自动分类处理的结果与人工分类结果,以获得自动分类处理的准确率。也就是说,需要将分类模型的自动分类结果与人工分类结果进行对比,从而计算分类模型自动分类结果的准确率。在步骤104中,如果自动分类处理的准确率小于预设值,则表示该自动分类模型还不稳定,需要继续进行训练以完成调整处理。在步骤104中,调整处理是指:根据所有的人工分类结果及其对应的语料数据重新建立分类模型。也就是说,利用人工分类结果和历史语料数据对分类模型进行重新训练。步骤105,不断重复自动分类处理以及调整处理,直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于预设值时,采用此时的分类模型对待处本文档来自技高网...
【技术保护点】
一种数据过滤方法,其特征在于,包括:获取初始语料数据以及所述初始语料数据的人工分类结果;根据所述初始语料数据及人工分类结果建立分类模型;采用所述分类模型对新的语料数据进行自动分类处理;当所述自动分类处理的准确率小于预设值时,对所述分类模型进行调整处理;不断重复所述自动分类处理以及所述调整处理,直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于所述预设值时,采用此时的分类模型对待处理语料数据进行分类处理。
【技术特征摘要】
1.一种数据过滤方法,其特征在于,包括:获取初始语料数据以及所述初始语料数据的人工分类结果;根据所述初始语料数据及人工分类结果建立分类模型;采用所述分类模型对新的语料数据进行自动分类处理;当所述自动分类处理的准确率小于预设值时,对所述分类模型进行调整处理;不断重复所述自动分类处理以及所述调整处理,直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于所述预设值时,采用此时的分类模型对待处理语料数据进行分类处理。2.如权利要求1所述的数据过滤方法,其特征在于,采用SVM和朴素贝叶斯中的一种或两种建立所述分类模型。3.如权利要求1所述的数据过滤方法,其特征在于,所述预设值的取值范围包括:0.5-0.99。4.如权利要求1所述的数据过滤方法,其特征在于,所述自动分类处理的准确率通过以下方式获取:获取所述新的语料数据的人工分类结果;比较所述自动分类处理的结果与所述人工分类结果,以获得所述自动分类处理的准确率。5.如权利要求1所述的数据过滤方法,其特征在于,所述调整处理包括:根据所有的人工分类结果及其对应的语料数据重新建立分类模型。6.如权利要求1所述的数据过滤方法,其特征在于,所述人工分类以及所述自动分类处理的结果为有效领域词或无效领域词。7.一种数据过滤装置,其特征在于,包括:获取模块,用于获取初始语料数据以及所述初始语料数据的人工分类结果;...
【专利技术属性】
技术研发人员:张昊,朱频频,
申请(专利权)人:上海智臻智能网络科技股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。