数据过滤方法及装置制造方法及图纸

技术编号：13743226 阅读：118 留言：0更新日期：2016-09-23 04:26

本发明专利技术公开了一种数据过滤方法及装置。该方法包括：获取初始语料数据以及初始语料数据的人工分类结果；根据初始语料数据及人工分类结果建立分类模型；采用分类模型对新的语料数据进行自动分类处理；当自动分类处理的准确率小于预设值时，对分类模型进行调整处理；不断重复自动分类处理以及调整处理，直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于预设值时，采用此时的分类模型对待处理语料数据进行分类处理。借助于本发明专利技术的技术方案，能够有效提高知识点分类的准确率，降低人工成本，避免了人力资源的浪费。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理
，特别是涉及一种数据过滤方法及装置。
技术介绍
在现有技术中，智能问答知识库中包括了多个知识点，在建立知识库或者向知识库中添加新的知识点的过程中需要对知识点进行过滤，将正确的知识点放入知识库中，过滤掉不需要的知识点。目前，上述处理一般都是进行人工审核，过滤掉错误的知识点，保留正确的知识点，但是，需要耗费大量的人力物力财力，并且效率低下。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的数据过滤方法及装置。本专利技术提供一种数据过滤方法，包括：获取初始语料数据以及初始语料数据的人工分类结果；根据初始语料数据及人工分类结果建立分类模型；采用分类模型对新的语料数据进行自动分类处理；当自动分类处理的准确率小于预设值时，对分类模型进行调整处理；不断重复自动分类处理以及调整处理，直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于预设值时，采用此时的分类模型对待处理语料数据进行分类处理。本专利技术还提供了一种数据过滤装置，包括：获取模块，用于获取初始语料数据以及初始语料数据的人工分类结果；分类模型建立模块，用于根据初始语料数据及人工分类结果建立分类模型；自动分类模块，用于采用分类模型对新的语料数据进行自动分类处理；调整模块，用于当自动分类处理的准确率小于预设值时，对分类模型进行调整处理；优化模块，用于不断重复调用自动分类模块进行自动分类处理以及调用调整模块进行调整处理，直至确定采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于预设值时，调用自动分类模块采用此时的分...

【技术保护点】
一种数据过滤方法，其特征在于，包括：获取初始语料数据以及所述初始语料数据的人工分类结果；根据所述初始语料数据及人工分类结果建立分类模型；采用所述分类模型对新的语料数据进行自动分类处理；当所述自动分类处理的准确率小于预设值时，对所述分类模型进行调整处理；不断重复所述自动分类处理以及所述调整处理，直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于所述预设值时，采用此时的分类模型对待处理语料数据进行分类处理。

【技术特征摘要】
1.一种数据过滤方法，其特征在于，包括：获取初始语料数据以及所述初始语料数据的人工分类结果；根据所述初始语料数据及人工分类结果建立分类模型；采用所述分类模型对新的语料数据进行自动分类处理；当所述自动分类处理的准确率小于预设值时，对所述分类模型进行调整处理；不断重复所述自动分类处理以及所述调整处理，直至采用调整后的分类模型对新的语料数据进行分类处理的准确率大于或等于所述预设值时，采用此时的分类模型对待处理语料数据进行分类处理。2.如权利要求1所述的数据过滤方法，其特征在于，采用SVM和朴素贝叶斯中的一种或两种建立所述分类模型。3.如权利要求1所述的数据过滤方法，其特征在于，所述预设值的取值范围包括：0.5-0.99。4.如权利要求1所述的数据过滤方法，其特征在于，所述自动分类处理的准确率通过以下方式获取：获取所述新的语料数据的人工分类结果；比较所述自动分类处理的结果与所述人工分类结果，以获得所述自动分类处理的准确率。5.如权利要求1所述的数据过滤方法，其特征在于，所述调整处理包括：根据所有的人工分类结果及其对应的语料数据重新建立分类模型。6.如权利要求1所述的数据过滤方法，其特征在于，所述人工分类以及所述自动分类处理的结果为有效领域词或无效领域词。7.一种数据过滤装置，其特征在于，包括：获取模块，用于获取初始语料数据以及所述初始语料数据的人工分类结果；...

【专利技术属性】
技术研发人员：张昊，朱频频，
申请(专利权)人：上海智臻智能网络科技股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人