本发明专利技术公开了一种机器数据类别自动发现和分类的方法及装置,其中方法包括:对机器数据的源代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备字典;利用所述完备字典对机器数据进行分析,过滤掉机器数据中的可变词汇;根据过滤掉可变词汇后的机器数据中固定词汇,对机器数据进行类别自动发现和分类。采用本发明专利技术可以实现对机器数据进行类别自动发现和分类,并获取较高的分类准确率,无需人工参与,无需事先利用大量的训练样本学习分类器,还可以对机器数据流进行实时分析,自动发现机器数据中出现的新类别。
【技术实现步骤摘要】
机器数据类别自动发现和分类的方法及装置
本专利技术涉及数据挖掘
,尤其涉及机器数据类别自动发现和分类的方法及 >J-U ρ?α装直。
技术介绍
随着Internet和Web技术的超速发展,Internet上提供的服务越来越多,网络的日益普及以及网民数量的爆炸性增长,对Internet上提供的服务的性能和稳定性提出了更高的要求。为了能够有效地组织和分析海量提供服务的系统产生的机器数据,帮助用户迅速地从产生的机器数据中获取其所需要的信息,需要对机器数据实现类别自动发现和分类。 机器数据一种特殊的文本。传统的文本分类方法主要有两类:一类是基于统计的分类方法,另一类是基于知识的分类方法。 基于统计的分类方法思路是先运用向量空间模型将文本数据转换为数值特征向量,接着通过利用统计学、机器学习等领域的相关知识对数值向量进行分类计算,进而完成文本的分类工作。该方法的最大困难在于所构建的向量特征空间往往是高维且稀疏的,而寻找一种有效的特征抽取方法去降低特征空间的维度也是极其困难的,故其分类效果并不理相 基于知识的分类方法的核心在于不断的更新并完善关键词库,通过比较文本与各类别词库的匹配度后,选择匹配度最高的词库类别作为该文本的所属类别。本方法相较于基于统计的分类方法的优点在于,对文本进行分类时可以获取较高的分类准确率,但缺点在于在词库更新的过程中往往需要加入较多的人工审核步骤,且对新出现的词汇反应较为滞后。 总之,现有的文本分类算法都需要事先利用大量的训练样本学习分类器;并且,机器数据在数量上非常庞大,现有技术无法实现实时处理大量的机器数据;现有的文本分类算法只能识别出预先定义好的类别,无法检测新出现的类别。
技术实现思路
本专利技术实施例提供一种机器数据类别自动发现和分类的方法,用以实现机器数据类别自动发现和分类,该方法包括: 对机器数据的源代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备子典; 利用所述完备字典对机器数据进行分析,过滤掉机器数据中的可变词汇; 根据过滤掉可变词汇后的机器数据中固定词汇,对机器数据进行类别自动发现和分类。 一个实施例中,对机器数据的源代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备字典,包括: 对机器数据的源代码进行解析,找到机器数据输出部分代码; 对机器数据输出部分代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备字典。 一个实施例中,机器数据中的固定词汇是以硬编码的形式写入机器数据的源代码。 一个实施例中,利用所述完备字典对机器数据进行分析,包括:利用所述完备字典对机器数据流进行实时分析。 一个实施例中,根据过滤掉可变词汇后的机器数据中固定词汇,对机器数据进行类别自动发现和分类,包括: 根据过滤掉可变词汇后的机器数据中固定词汇,自动发现机器数据中出现的新类别。 本专利技术实施例还提供一种机器数据类别自动发现和分类的装置,用以实现机器数据类别自动发现和分类,该装置包括: 完备字典构建模块,用于对机器数据的源代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备字典; 可变词汇过滤模块,用于利用所述完备字典对机器数据进行分析,过滤掉机器数据中的可变词汇; 类别发现及分类模块,用于根据过滤掉可变词汇后的机器数据中固定词汇,对机器数据进行类别自动发现和分类。 一个实施例中,所述完备字典构建模块具体用于: 对机器数据的源代码进行解析,找到机器数据输出部分代码; 对机器数据输出部分代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备字典。 一个实施例中,机器数据中的固定词汇是以硬编码的形式写入机器数据的源代码。 一个实施例中,所述可变词汇过滤模块具体用于:利用所述完备字典对机器数据流进行实时分析。 —个实施例中,所述类别发现及分类模块具体用于:根据过滤掉可变词汇后的机器数据中固定词汇,自动发现机器数据中出现的新类别。 本专利技术实施例中,对机器数据的源代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备字典;利用所述完备字典对机器数据进行分析,过滤掉机器数据中的可变词汇;根据过滤掉可变词汇后的机器数据中固定词汇,对机器数据进行类别自动发现和分类;从而实现对机器数据进行类别自动发现和分类,与现有技术中基于统计的分类方法相比,可以获取较高的分类准确率;与现有技术中基于知识的分类方法相t匕,无需人工参与,无需事先利用大量的训练样本学习分类器。 进一步的,实施例中可以利用完备字典对机器数据流进行实时分析,还可以自动发现机器数据中出现的新类别。 【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中: 图1为本专利技术实施例中机器数据类别自动发现和分类的方法示意图; 图2为本专利技术实施例中源代码分析示意图; 图3为本专利技术实施例中机器数据分析示意图; 图4为本专利技术实施例中机器数据类别自动发现和分类的装置示意图。 【具体实施方式】 为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。 为了实现机器数据类别自动发现和分类,本专利技术实施例提供一种机器数据类别自动发现和分类的方法。图1为本专利技术实施例中机器数据类别自动发现和分类的方法示意图,如图1所示,本专利技术实施例中机器数据类别自动发现和分类的方法可以包括: 步骤101、对机器数据的源代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备字典; 步骤102、利用所述完备字典对机器数据进行分析,过滤掉机器数据中的可变词汇; 步骤103、根据过滤掉可变词汇后的机器数据中固定词汇,对机器数据进行类别自动发现和分类。 由图1所示流程可以得知,本专利技术实施例可以实现对机器数据进行类别自动发现和分类,与现有技术中基于统计的分类方法相比,可以获取较高的分类准确率;与现有技术中基于知识的分类方法相比,无需人工参与,无需事先利用大量的训练样本学习分类器。 具体实施时,先对机器数据的源代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备字典。即在实施例中先进行源代码分析: 机器数据和普通文本的一个重要区别是普通文本有很大的随意性;而机器数据的生成是由其源代码控制的,有固定的格式和词汇。所以机器数据的分析有其独特性和特殊性。本专利技术实施例中提出通过对其源代码进行分析,找到机器数据中出现的固定词汇,并构建完备字典。利用该完备字典进行后续的机器数据(例如日志数据)分析。 图2为本专利技术实施例中源代码分析示意图。如图2所示,实施例中对机器数据的源代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备字典,可以包括:对机器数据的源代码进行解析,找到机器数据输出本文档来自技高网...
【技术保护点】
一种机器数据类别自动发现和分类的方法,其特征在于,包括:对机器数据的源代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备字典;利用所述完备字典对机器数据进行分析,过滤掉机器数据中的可变词汇;根据过滤掉可变词汇后的机器数据中固定词汇,对机器数据进行类别自动发现和分类。
【技术特征摘要】
1.一种机器数据类别自动发现和分类的方法,其特征在于,包括: 对机器数据的源代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备子典; 利用所述完备字典对机器数据进行分析,过滤掉机器数据中的可变词汇; 根据过滤掉可变词汇后的机器数据中固定词汇,对机器数据进行类别自动发现和分类。2.如权利要求1所述的方法,其特征在于,对机器数据的源代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备字典,包括: 对机器数据的源代码进行解析,找到机器数据输出部分代码; 对机器数据输出部分代码进行分析,找出机器数据中的固定词汇,构建包含机器数据中固定词汇的完备子典。3.如权利要求1所述的方法,其特征在于,机器数据中的固定词汇是以硬编码的形式写入机器数据的源代码。4.如权利要求1至3任一项所述的方法,其特征在于,利用所述完备字典对机器数据进行分析,包括:利用所述完备字典对机器数据流进行实时分析。5.如权利要求1至3任一项所述的方法,其特征在于,根据过滤掉可变词汇后的机器数据中固定词汇,对机器数据进行类别自动发现和分类,包括: 根据过滤掉可变词汇后的机器数据中固定词汇,...
【专利技术属性】
技术研发人员:柳杨,唐玉芳,秦刚,江舟,孔祥鹏,张红意,
申请(专利权)人:北京数迅科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。