本发明专利技术提供了一种处理电子文件的方法,通过标识电子文件中的内容数据的部分并确定内容数据的每个部分是具有固定目的的被动内容数据还是具有相关功能的主动内容数据来处理电子文件。如果一部分是被动内容数据,则确定是否要重新生成该部分被动内容数据。如果一部分是主动内容数据,则分析该部分来确定是否要重新生成该部分主动内容数据。然后,根据确定要重新生成的内容数据部分来创建重新生成的电子文件。
【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种处理电子文件的方法,通过标识电子文件中的内容数据的部分并确定内容数据的每个部分是具有固定目的的被动内容数据还是具有相关功能的主动内容数据来处理电子文件。如果一部分是被动内容数据,则确定是否要重新生成该部分被动内容数据。如果一部分是主动内容数据,则分析该部分来确定是否要重新生成该部分主动内容数据。然后,根据确定要重新生成的内容数据部分来创建重新生成的电子文件。【专利说明】对阻止有害代码和数据扩散的改进分案说明本申请是申请日为2007年11月8日,申请号为200780050858.7,题为“对阻止有害代码和数据扩散的改进”的中国专利申请的分案申请。
本专利技术涉及计算机系统和操作这种系统的方法,用于阻止有害代码和数据的扩散。具体地,本专利技术是对本 申请人:的相关英国专利申请0511749.4中描述的系统和方法的改进。
技术介绍
在过去的十年中,计算机系统越来越多地受到有害代码的攻击。(到目前为止)最极端的有害代码的示例是计算机病毒。如同其生物学上的同名物,计算机病毒能够使一台机器感染,然后从这台机器开始,通过征用电子邮件系统的资源,利用其所登陆的每台计算机的地址簿,将包含病毒的电子邮件从一台计算机发送到许多其它台计算机,从而感染其它机器。所产生的浪费的带宽令用户十分烦恼。此外,许多病毒在所登陆的每台计算机上执行一些有害的动作,例如可能包括擦除文件。典型地,病毒和其他恶意内容到达单独的附件文件,但是它们也可以隐藏于电子邮件的一部分中,从而可以在不需要用户明确地分离并执行代码的情况下变为激活。如字处理器、电子表格和数据库之类的许多应用包括强大的宏脚本语言,它允许文档/文件包括能够执行特定操作的脚本。病毒编写者利用这种脚本语言来编写宏病毒,从而包括文档/文件的电子邮件附件可能包含隐藏的病毒。病毒不是有害代码的唯一形式。常见的是,待分发的“免费”软件具有隐藏的“间谍软件(Spyware)”,其被隐蔽地安装在用户的计算机上,并随后把所访问的网站或其他事务报告给远端计算机。一些间谍软件将导致有害广告的显示。一些间谍软件将试图使调制解调器重复拨出高价号码,间谍软件的编写者借此从电信运营商处获得收益。其它类型的有害代码包括恶意软件、蠕虫和陷门(Trapdoor)。尽管病毒是从一台计算机至另一台计算机自我传播的,但是其它形式的有害代码通过垃圾电子邮件、在盘上的隐藏分布、或者日益增多地,从不经意访问的网站下载而得以分发。所有这些类型的有害代码具有共同点:其存在或其真实目的对它们锁定为目标的计算机的所有者和用户部是隐藏的。尽管一些类型的有害代码相对无害,但是其它的有害代码能够擦去有价值的商业数据,因而用于提供反病毒软件的行业得以发展。目前已知的反病毒软件包括在待保护的计算机上执行的程序。典型地,这种程序在监控模式下操作,其中每次访问文件时都对要访问的文件检查病毒;以及在扫描模式下操作,其中对特定位置(如盘驱动器)中的所有文件进行扫描。反病毒程序提供商监控病毒的爆发,并且当检测到新病毒时,反病毒程序公司分析该病毒并提取可以用于检测该病毒的数据。然后,这个数据可用于运行所涉及的特定反病毒程序的计算机;典型地,通过在反病毒程序公司的网站上提供该数据以便下载。以各种不同方式检测病毒。可以存储形成该病毒一部分的特征代码串,并针对输入的文件扫描该串的存在,因而该串用作病毒的“签名”或“指紋”。可选地,可以通过病毒的预期行为来检测病毒;可以解析源代码或脚本文件,以检测作为病毒特征的预定操作。不幸地,类似于它们的生物学同名物,病毒很容易“变异”;代码中的微小改变(等同于大小写字母的替换)会改变病毒的签名。因此,无论通过什么方法来检测病毒的数据文件变得极大,相应地,反病毒程序所花费的时间也随着待检查的签名或规则的个数的增加而增加。尽管这在病毒扫描模式下是可接受的,但是在监控模式下,它给访问文件所花费的时间增加了不断增长的等待时间。此外,随着下载量变大并且需要更加频繁地下载,用户将无法下载必要的更新、以及因而将无法针对最新(因而是最危险)的病毒而获得保护的风险非常闻。
技术实现思路
因此,本专利技术采用了防止有害代码的完全不同的保护方法。根据本专利技术的一方面,提供了 一种接收包含预定数据格式的内容数据的电子文件的方法,所述方法包括以下步骤:接收电子文件;确定数据格式;解析内容数据,以确定其是否符合预定数据格式,以及如果所述内容数据符合所述预定数据格式,则重新生成解析后的数据,以创建具有所述数据格式的重新生成的电子文件。还提供了相应的计算机系统、程序和承载该程序的介质。本专利技术的实施例操作用于分析每个所接收的文件,然后从中重新构造替代文件。因为并不在要保护的计算机上直接存储或访问原始文件本身,所以原始文件本身不能危害该计算机。例如,可以将原始文件以比特反转形式或不能被执行的其它形式来存储。另ー方面,将使用仅会生成“干净”代码和数据的生成器例程来生成该替代文件。因而不能够生成与所接收文件中的任何代码相匹配的有害代码。本专利技术的一部分可以基于与计算机文件有关的某些长久已知的事实的新应用。目前,输入计算机的大多数文件具有标准化的文件格式。专有程序创建其自有的文件格式(以及要由那些程序所使用的数据必须符合那些格式),但是存在在不同的专有程序之间交换数据的充分需求,即首先,通常向一个专有程序提供输入过滤器以读取由另ー专有程序所写的数据,以及其次,存在不与任何专有程序相关联的若干格式。这些通用格式的示例是ASCII文本、丰富文本格式(RTF)、超文本标记语言(HTML)和可扩展标记语言(XML)。因此,如果要通过任意应用程序来读取文件中的数据,则该数据必须精确地符合严格的标准,而且不同的文件所使用的格式是公知的。本专利技术的专利技术人实现了:尽管允许文件所使用的格式有很宽的变化,但是大多数文件包含满足某些相对窄的实用(pragmatic)限制的数据。例如,大多数操作系统和应用将会接受很长的文件标题,但是大多数用户在大多数时间使用简短并且易于识别的文件名。因此,本专利技术实施例所执行的分析可以包括:检测在其他方面符合所声称的文件类型的规范的数据是否违反了实用限制。这些“现实世界”的约束使本专利技术能够检测‘正常’的可接受文件。不与该类型的实用限制相对应的任何文件内容不被传递至生成器程序,因而不会以可执行的形式到达用户的计算机。因此将会看出,本专利技术的实施例以和已知的反病毒程序本质上不同的方式而操作。已知的反病毒程序旨在检测病毒,并使没有被检测为病毒的所有事物通过。因此,这些反病毒程序总是不能保护用户免受最大的危险;即,未知病毒的危险。所运行的每个新病毒在引起反病毒公司的注意之前,必然已经感染了多台计算机。此外,甚至在安装了反病毒软件、并且拥有更新的被检测数据集的情况下,在可以由反病毒软件检测到之前,病毒也通常会存储在受保护的计算机的硬驱动器或其它介质上。如果处于某种原因反病毒软件不能运行,则病毒处于适当的位置并可被激活。美国公开申请US2003/0145213公开了一种系统,其中在文件中检测宏或恶意代码。然后在模板中对该文件进行重构,并从该模板中删除恶意代码,从而提供干净版本的文件。通过完全的对比,本专利技术并不旨在检测病毒,或甚至典型地拒绝类似于本文档来自技高网...
【技术保护点】
一种对要传送至处理模块的电子文件进行预处理的方法,包括以下步骤:重写所述电子文件,使得所述电子文件中所述处理模块要一起处理的部分按顺序布置;以及将重写的电子文件传送至所述处理模块。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:塞缪尔·哈里森·哈顿,特雷沃·戈达德,
申请(专利权)人:格拉斯沃IP有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。