本发明专利技术提供一种目标文件的确定方法,基于存储特征字符串全集的存储单元,包括:在存储单元中选择用于确定目标文件的特征字符串集合,所述集合中包含至少一个用于确定目标文件的特征字符串;按照规则在待检测文件中查找所述集合中的特征字符串,获得查找结果,以及,判断所述查找结果是否满足第一条件,如果满足,确定所述待检测文件为目标文件。该方法可以通过规则和条件约束特征字符串查找的方式,例如模糊查找和针对被检测文件的性质、检测的目,使查找判断更有针对性,因此能够对被检测数据集合进行快速、准确判断。本发明专利技术还提供一种目标文件的确定装置。
【技术实现步骤摘要】
本专利技术涉及一种判断一个数据集合是否为所希望得到的数据集合确定方法和装置。
技术介绍
为了判断一个已经得到的数据集合是否为所希望得到的数据集合,或者,判断一个得到的文件是否为期望得到的文件,或者从大量的原始数据中查找需要查找的目标数据或数据集合,通常都要预先确定至少一个特征数据字符串,将所述已经得到的数据集合作为被检测的对象,通过检索该数据集合中是否存在特征数据字符串,就能够得知该数据集合否为期望得到的数据集合。然而,在特征数据字符串较多且处于离散状态时,一方面,如果被检测的数据集合较大或者特征数据字符串较多和/或较大,就会消耗更多的时间,使可操作性变差;另一方面,如果预先确定特征数据字符串在被检测的数据集合中可能出现的位置,则检索成功的概率将会变得非常小。例如,在面部图像数据库中查找模拟画像表示的图像是否存在,就是试图确定面部图像数据库中是否有要查找的目的画像;在一个可疑的程序中查找病毒的特征指令或数据是否存在等,就是试图确定该可疑程序是否为病毒程序。由于模拟画像表示的图像或特征指令涉及的特征数据较多且处于离散状态,因此现有的方法难以实现快速有效的查找和目标数据集合的确定。实际中还有一种情况,假设,一种病毒程序的特征全集中包含10个特征,即该种病毒程序的已知的各种变种病毒程序中,各个病毒程序或变种病毒程序的特征集合的并集中有10个特征,而各个具体的病毒程序或变种病毒程序的特征集合中包含的特征可能仅是病毒程序的特征全集中的一部分。在此情境下,更是难以确定具有病毒特征的程序样本,进而难以有效地判断一个可疑程序是否为病毒程序。
技术实现思路
本专利技术要解决的问题在于,提供一种能够对被检测数据集合进行快速、准确判断的目标文件的确定方法和装置,从而实现快速准确判断被检测文件是否为目标文件。本专利技术实施例提供的目标文件的确定方法,基于存储特征字符串全集的存储单元,包括在存储单元中选择用于确定目标文件的特征字符串集合,所述集合中包含至少一个用于确定目标文件的特征字符串;按照规则在待检测文件中查找所述集合中的字符串,获得查找结果,以及,判断所述查找结果是否满足第一条件,如果满足,确定所述待检测文件为目标文件。其中,可以按照规则采用下述步骤在待检测文件中查找所述集合中的字符串每次选择所述集合中的一个特征字符串,直到所述集合中每一个特征字符串被选择一次,对于选择出的每一个特征字符串,扫描所述待检测文件,获得特征字符串在待检测文件中的有效位置,将所有特征字符串在待检测文件中的位置作为查找结果。也可以按照规则采用下述步骤在待检测文件中查找所述集合中的字符串在所述集合中选择出一个未被选择过的特征字符串,直到累积结果满足第一规则,对于选择出的每一个特征字符串,扫描所述待检测文件,获得特征字符串在待检测文件中的有效位置,累积所述有效位置,获得累积结果,在对待检测文件查找结束后,将累积结果作为查找结果。所述第一规则为累积结果中,找到的特征字符串在待检测文件中的有效位置的和达到设定的值;或者,累积结果中,在待检测文件中被有效找到的特征字符串的个数达到设定的值;或者,累积结果中,在待检测文件中被有效找到的特征字符串的位置关系满足设定的顺序特征和/或间隔特征。所述第一条件为所述查找结果中,在待检测文件中被有效找到的特征字符串的个数达到设定的值;或者,所述查找结果中,在待检测文件中被有效找到的特征字符串的位置关系满足设定的顺序特征和/或间隔特征。所述方法还包括,确定每一个特征字符串的特征字符和按照所述特征字符构建对应特征字符串的第二规则;以及,按照下述步骤扫描所述待检测文件在待检测文件中,查找所述特征字符,直到待检测文件被查找完毕,对于每一个找到的特征字符,按照所述第二规则构建相应的特征字符串,如果所述特征字符串构建成功,将构建成功的特征字符串位置作为有效位置。而且,如果按照所述第二规则构建的特征字符串的字符与作为查找基础的特征字符串的字符完全相同或者相同的比例达到设定的数值,确定所述特征字符串构建成功。本专利技术实施例提供的目标文件的确定装置,包括存储特征字符串全集的存储单元,还包括特征字符串选择单元,在存储单元中选择用于确定目标文件的特征字符串的集合,所述集合中包含至少一个用于确定目标文件的特征字符串;文件扫描单元,用于按照规则在待检测文件中查找所述集合中的字符串,获得查找结果;判断单元,用于判断所述结果是否满足第一条件,以及,目标文件确定单元,在所述结果满足第一条件时,确定所述待检测文件为目标文件。按照本专利技术实施例提供的目标文件的确定方法和装置,需要选择用于确定目标文件的特征字符串集合,以及按照规则在待检测文件中查找所述集合中的字符串,获得查找结果后,还判断所述查找结果是否满足第一条件,从而确定所述待检测文件为目标文件。由于在确定过程中采用查找规则和判断条件,因此可以通过规则和条件约束特征字符串查找的方式,例如模糊查找和针对被检测文件的性质、检测的目,使查找判断更有针对性,因此能够对被检测数据集合进行快速、准确判断。本专利技术的其它优点在后续的文字中有详尽的叙述。附图说明图1为本专利技术所述方法的第一实施例流程图;图2为图1所述实施例采用的在待检测文件中查找特征字符窜集合的流程图;图3为图1所述实施例采用的存储特征字符串的数据库结构图;图4为本专利技术所述装置的实施例框图。具体实施例方式在实际应用中,确定一个文件(或者确定一个数据集合)是否为所希望查找的目标文件的方法有着非常广泛的应用,该方法通过特征的查找,可以确定一个文件是否为其他文件的复制品,或者确定一个文件是否受到病毒程序的感染,等等。无论是一个文件的复制品,还是一个受到病毒程序感染的文件,其中都包含有源文件的特征或者受感染的特征。这些特征通常都具有数据量较大、不确定以及数据离散度较大的特性,因此很难确定这些特征究竟有哪些会出现在待检测文件中,更难以确定这些特征在待检测文件中的存在形式和具体位置。例如一个可疑程序具有删除数据的指令特征,但是该指令特征携带什么参数以及还有哪些附加的条件才能确定该可疑程序是病毒程序却是不确定的。因此,采用现有的方法去快速发现大量这样的可疑程序要么耗费大量的时间,要么同时和单独具有较低的检测成功率。下面参照附图对本专利技术的实施例作详细说明。图1是本专利技术所述方法的第一个实施例流程图。在该实施例中,由于任何数据或文件都能够转化或归结为具有某种编码规则的字符串,例如ASCII编码的字符串,因此本实施例以字符串的查找为基础。图1的基础是预先获得的待检测文件。按照图1,首先在步骤11确定特征字符串的集合这是一个预处理的步骤,是后续步骤的基础。很多应用场合,也将所述特征字符串称为“指纹”。所述特征字符串的集合中包含确定目标文件的特征字符串,是查找相同或相似文件的基础。对于较简单的情况,有时候用一个特征字符串即可对待检测的文件进行是否为目标文件的判断,但更多的时候需要很多特征字符串才能对待检测的文件进行是否目标文件的判断,因此,所述特征字符串的集合中包含的特征字符串至少一个以上。所述集合在本实施例中采用一个二维表形式的数据库,以存储用于对某种或全部特定的目标文件进行判定使用的选定或确定的全部特征字符串及其对应的其他辅助数据,当然该数据库也可以采用其他数据结构代替,例如一个本文档来自技高网...
【技术保护点】
一种目标文件的确定方法,基于存储特征字符串全集的存储单元,其特征在于:在存储单元中选择用于确定目标文件的特征字符串集合,所述集合中包含至少一个用于确定目标文件的特征字符串;按照规则在待检测文件中查找所述集合中的特征字符串,获 得查找结果,以及,判断所述查找结果是否满足第一条件,如果满足,确定所述待检测文件为目标文件。
【技术特征摘要】
【专利技术属性】
技术研发人员:白杰,李薇,鲁征宇,
申请(专利权)人:白杰,李薇,鲁征宇,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。