本文描述的是一种特别地用于对文件内容进行分布式索引的技术。对文件进行基于内容的索引涉及确定该文件的基于内容的索引信息是否可从外部源获得。这避免重复已执行的内容分析,尤其对于非文本文件而言内容分析是耗时且计算密集的。如果基于内容的索引信息可用,则从外部源接收它并存储它。如果基于内容的索引信息不可用或不完整,则生成并存储该文件的基于内容的索引信息。此外,与外部源共享所生成的基于内容的索引信息。一旦执行了该文件的内容分析从而生成了该文件的基于内容的索引信息,则在需要时该基于内容的索引信息是可用并可共享的。不需要重复对该文件的同一内容分析。
【技术实现步骤摘要】
【国外来华专利技术】对文件内容进行分布式索引背景信息被收集在各种类型的设备中(例如,计算机、服务器、存储介质、媒体播放器、 电话等)以供私人使用和/或公共使用。信息的量继续增长。这一增长提出了关于访问感 兴趣的信息和确定什么信息可用的挑战。为这一信息创建索引帮助访问感兴趣的信息和确定什么信息可用。通常,这一信 息包括若干类型的文件。文本文件、音频文件、视频文件、图像文件、以及图形文件是文件类 型的示例。基于内容的索引信息和非基于内容的索引信息是可被包括在文件索引中的各类 索引信息。基于内容的索引信息指的是从分析文件的内容而生成的索引信息。非基于内容 的索引信息指的是从与文件相关联的除该文件的内容之外的任何数据生成的索引信息。元 数据、文件名、以及文件描述是非基于内容的索引信息的源的示例。已经部署了在网络级操作的索引实现(例如,因特网索引搜索引擎)和在设备级 操作的索引实现(例如,计算机索引搜索引擎)。这些索引实现的有用性取决于若干因素, 如其索引的范围和其索引中包括的索引信息的类型。被索引的文件的数量和这些文件的多 样性反映了索引的范围。因为基于内容的索引信息一般比非基于内容的索引信息提供更多 的文件知识,所以索引具有文件的基于内容的索引信息是合乎需要的。虽然基于内容的索引信息是优选的,但存在着与在索引中包括基于内容的索引信 息相关联的问题。尽管生成文本文件的基于内容的索引信息在准确度、所需时间努力、以及 所需计算资源方面是切实可行的,但对非文本文件(例如,音频文件、视频文件、图像文件、 以及图形文件)而言情况并非如此。非文本文件的基于内容的索引信息的准确度变化很大 且在某些情况下不可使用。生成非文本文件的基于内容的索引信息需要大量计算资源并且 是很耗时的。在进行作为后台操作来执行的索引的情况下,生成非文本文件的基于内容的 索引信息可能因索引使用了过多计算资源而干扰正常使用模式,或者可能因未使用时间段 和可用计算资源不足以支持索引而不能完成。概述提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概 念。本概述并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确 定所要求保护的主题的范围。本文描述的是一种特别地用于对文件内容进行分布式索引的技术。基于文件的内 容来创建其索引是合乎需要的。文件可以是文本文件或非文本文件(例如,音频文件、视频 文件、图像文件、以及图形文件等)。基于内容对文件进行索引涉及确定该文件的基于内容 的索引信息是否可从外部源获得。任何单个设备以及任何设备网络都是外部源的示例。这 避免重复已执行的内容分析,尤其对于非文本文件而言内容分析是耗时且计算密集的。如 果基于内容的索引信息可用,则从外部源接收它并存储它。如果基于内容的索引信息不可 用或不完整,则生成并存储该文件的基于内容的索引信息。此外,与外部源共享所生成的基 于内容的索引信息。一旦执行了该文件的内容分析从而生成了该文件的基于内容的索引信 息,则在需要时该基于内容的索引信息是可用并可共享的。不需要重复对该文件的同一内因此,各实施例提供了一种通过分布索引生成和共享分布式索引生成的结果来对 文本文件和非文本文件进行基于内容的索引的切实可行的方式。各实施例允许基于内容的 索引信息以各种方式变化。执行不同类型的内容分析、使用多个参数设置来进行内容分析、 以及聚集对文件的不同部分执行的内容分析是使基于内容的索引信息变化的示例。附图简述合并在本说明书中并形成其一部分的附图示出了各实施例,并且与说明书一起用 于解释各实施例的原理。附图说明图1是根据各实施例的集中式索引源环境的框图。图2是根据各实施例的分散式索引源环境的框图。图3示出根据各实施例的用于对文件进行基于内容的索引的流程图。图4示出根据各实施例的用于对文件进行基于内容的索引的流程图,其中文件的 不同部分是单独索引的。图5示出根据各实施例的用于对文件进行基于内容的索引的流程图,其中基于内 容的索引包括各种索引模式,每一种索引模式都与不同类型的内容分析相对应。图6示出根据各实施例的用于对文件进行基于内容的索引的流程图,其中基于内 容的索引包括各种索引表现形式,每一种表现形式都与执行使用不同参数设置的内容分析 相对应。详细描述现在将详细参考各优选实施例,其示例在各附图中示出。尽管将结合各优选实施 例来描述本专利技术,但可以理解,其并不旨在将本专利技术限于这些实施例。相反,本专利技术旨在涵 盖可被包括在权利要求书所定义的本专利技术的精神和范围内的替换、修改和等效技术方案。 此外,在该详细描述中,阐明了众多具体细节以提供对本专利技术的全面理解。然而,本领域普 通技术人员显然可以理解,无须这些具体细节也可以实现本专利技术。在其他情况下,未详细描 述公知的方法、过程、组件和电路以免不必要地使本专利技术的各方面显得晦涩难懂。概览对文件进行基于内容的索引比对文件进行非基于内容的索引需要更多努力,尤其 是对非文本文件(例如,音频文件、视频文件、图像文件、图形文件等)而言。然而,如果索 引生成是分布式的并且如果共享分布式索引生成的结果,则基于内容的索引对任何类型的 文件而言都是切实可行的。本文描述的是一种特别地用于对文件内容进行分布式索引的技 术。文件可以是文本文件或非文本文件(例如,音频文件、视频文件、图像文件、以及图形文 件等)。根据各实施例,对文件进行基于内容的索引涉及确定该文件的基于内容的索引信 息是否可从外部源获得。任何单个设备以及任何设备网络都是外部源的示例。这避免重复 已执行的内容分析,尤其对于非文本文件而言内容分析是耗时且计算密集的。如果基于内 容的索引信息可用,则从外部源接收它并存储它。如果基于内容的索引信息不可用或不完 整,则生成并存储该文件的基于内容的索引信息。此外,与外部源共享所生成的基于内容的 索引信息。一旦执行了该文件的内容分析从而生成了该文件的基于内容的索引信息,则在 需要时该基于内容的索引信息是可用并可共享的。不需要重复对该文件的同一内容分析。4通过分布索引生成并共享该分布式索引生成的结果提供了一种对文件进行基于 内容的索引的切实可行的方式。基于内容的索引信息能以各种方式变化。执行不同类型的 内容分析、使用多个参数设置来进行内容分析、以及聚集对文件的不同部分执行的内容分 析是使基于内容的索引信息变化的示例。以下讨论将以对用于各实施例的索引源环境的描述开始。讨论随后进行至对分布 式的基于内容的索引技术的描述。索引源环境根据各实施例,生成基于内容的索引信息的时间和计算负担被分布给任何类型的 多个设备。基于内容的索引信息指的是从分析文件的内容而生成的索引信息。此外,一个 设备所生成的基于内容的索引信息与其他设备进行共享。如果第一设备已经执行了对文件 的内容分析而生成了该文件的基于内容的索引信息,则第二设备不需要对该文件重复同一 内容分析,因为第一设备所生成的基于内容的索引信息是可用的并可与第二设备共享。艮口, 外部源可以提供该文件的基于内容的索引信息以避免对该文件进行内容分析以生成该基 于内容的索引信息的时间和计算负担。存在着协作以确保不重复基于内容的索引信息的繁 重生成。外部源可以是任何类型。外部源的示例包括计算机、服务器、存储介质、媒体播放 器、以及电话。在一实施例中,外部源本文档来自技高网...
【技术保护点】
一种对文件进行基于内容的索引的方法(300),所述方法包括:确定所述文件的基于内容的索引信息是否可从外部源获得(340);如果所述文件的所述基于内容的索引信息可从所述外部源获得,则从所述外部源接收并存储所述基于内容的索引信息(350、360);以及如果发生所述文件的所述基于内容的索引信息不可从所述外部源获得和所述文件的所述基于内容的索引信息不完整中的任一种情况,则生成并存储所述文件的基于内容的索引信息并且与所述外部源共享所生成的基于内容的索引信息(370、380、390)。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:AJK坦比拉特南,F塞德,
申请(专利权)人:微软公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。