机器数据类别自动发现和分类的方法及装置制造方法及图纸

技术编号：11002275 阅读：90 留言：0更新日期：2015-02-05 00:11

本发明专利技术公开了一种机器数据类别自动发现和分类的方法及装置，其中方法包括：对机器数据的源代码进行分析，找出机器数据中的固定词汇，构建包含机器数据中固定词汇的完备字典；利用所述完备字典对机器数据进行分析，过滤掉机器数据中的可变词汇；根据过滤掉可变词汇后的机器数据中固定词汇，对机器数据进行类别自动发现和分类。采用本发明专利技术可以实现对机器数据进行类别自动发现和分类，并获取较高的分类准确率，无需人工参与，无需事先利用大量的训练样本学习分类器，还可以对机器数据流进行实时分析，自动发现机器数据中出现的新类别。

全部详细技术资料下载

【技术实现步骤摘要】
机器数据类别自动发现和分类的方法及装置
本专利技术涉及数据挖掘
，尤其涉及机器数据类别自动发现和分类的方法及 >J-U ρ?α装直。
技术介绍
随着Internet和Web技术的超速发展,Internet上提供的服务越来越多，网络的日益普及以及网民数量的爆炸性增长，对Internet上提供的服务的性能和稳定性提出了更高的要求。为了能够有效地组织和分析海量提供服务的系统产生的机器数据，帮助用户迅速地从产生的机器数据中获取其所需要的信息，需要对机器数据实现类别自动发现和分类。机器数据一种特殊的文本。传统的文本分类方法主要有两类:一类是基于统计的分类方法，另一类是基于知识的分类方法。基于统计的分类方法思路是先运用向量空间模型将文本数据转换为数值特征向量，接着通过利用统计学、机器学习等领域的相关知识对数值向量进行分类计算，进而完成文本的分类工作。该方法的最大困难在于所构建的向量特征空间往往是高维且稀疏的，而寻找一种有效的特征抽取方法去降低特征空间的维度也是极其困难的，故其分类效果并不理相基于知识的分类方法的核心在于不断的更新并完善关键词库，通过比较文本与各类别词库的匹配度后，选择匹配度最高的词库类别作为该文本的所属类别。本方法相较于基于统计的分类方法的优点在于，对文本进行分类时可以获取较高的分类准确率，但缺点在于在词库更新的过程中往往需要加入较多的人工审核步骤，且对新出现的词汇反应较为滞后。总之，现有的文本分类算法都需要事先利用大量的训练样本学习分类器；并且，机器数据在数量上非常庞大，现有技术无法实现实时处...
机器数据类别自动发现和分类的方法及装置

【技术保护点】
一种机器数据类别自动发现和分类的方法，其特征在于，包括：对机器数据的源代码进行分析，找出机器数据中的固定词汇，构建包含机器数据中固定词汇的完备字典；利用所述完备字典对机器数据进行分析，过滤掉机器数据中的可变词汇；根据过滤掉可变词汇后的机器数据中固定词汇，对机器数据进行类别自动发现和分类。

【技术特征摘要】
1.一种机器数据类别自动发现和分类的方法，其特征在于，包括: 对机器数据的源代码进行分析，找出机器数据中的固定词汇，构建包含机器数据中固定词汇的完备子典；利用所述完备字典对机器数据进行分析，过滤掉机器数据中的可变词汇；根据过滤掉可变词汇后的机器数据中固定词汇，对机器数据进行类别自动发现和分类。2.如权利要求1所述的方法，其特征在于，对机器数据的源代码进行分析，找出机器数据中的固定词汇，构建包含机器数据中固定词汇的完备字典，包括: 对机器数据的源代码进行解析，找到机器数据输出部分代码；对机器数据输出部分代码进行分析，找出机器数据中的固定词汇，构建包含机器数据中固定词汇的完备子典。3.如权利要求1所述的方法，其特征在于，机器数据中的固定词汇是以硬编码的形式写入机器数据的源代码。4.如权利要求1至3任一项所述的方法，其特征在于，利用所述完备字典对机器数据进行分析，包括:利用所述完备字典对机器数据流进行实时分析。5.如权利要求1至3任一项所述的方法，其特征在于，根据过滤掉可变词汇后的机器数据中固定词汇，对机器数据进行类别自动发现和分类，包括: 根据过滤掉可变词汇后的机器数据中固定词汇，...

【专利技术属性】
技术研发人员：柳杨，唐玉芳，秦刚，江舟，孔祥鹏，张红意，
申请(专利权)人：北京数迅科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人