汇总与聚合以将文件就概念分类制造技术

技术编号:2868621 阅读:178 留言:0更新日期:2012-04-11 18:40
一种用来使用网络爬行器来搜索包含文件的数据库(100)的计算机网络的方法。在搜索之前,向所述网络爬行器提供概念性指导。本发明专利技术汇总来源内容(300),并且在汇总(304)上进行文本聚合(31)以产生分类(330)。使用基于所述概念性指导的种子进行所述文本聚合。然后,通过用户界面(510)向用户提供(34)所述分类以及查询输入,用来搜索所述分类,将所述用户引向所述分类的一个或更多个,以使所述用户被引向所述分类(以及到这些文件的链接),并且不向该用户提供所述文件本身。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

一般地,本专利技术有关于用来提供信息的系统与方法,更具体地说,有关于一种根据先前分类的数据资源将链接分类的改进的索引。
技术介绍
设计本专利技术是为了处理电子商务策略与设计咨询员在为其外部客户开发电子商务策略时在收集供评定与分析的信息中所具有的问题。例如,可能有很大一部分的工作时间被消耗在收集数据上,而不是评定与分析数据上。一般地,收据数据的过程在本质上一直十分特别;咨询员会仔细查看万维网、专门的研究报告、内部数据库,并且利用个人联系来收集与其需要有关的可靠信息。迄今还没有一种方法或通用工具来作为到达这些资源的单一进入点,也还没有对收集这些数据的高效率的最优方法的清楚理解。另外,也不清楚可以把什么信息(当被发现时)应用到“可交付物”(deliverable)的领域。“可交付物”为客户所要求的最终文件或产品。因此咨询员找到自己的收集信息的方法,并且使用自己最喜爱的搜索工具与自己的组织能力来帮助把信息传递给项目组。因此,需要一种系统与方法,用来组织电子商务策略与设计咨询员可用的资源,从而减少这些咨询员花费在收集信息上的时间,也提供一种系统,用来提供当前资源的最新形式。下面所述的专利技术处理该问题,并且提供了一种新型系统与方法,用来减少花费在收集信息上的时间。
技术实现思路
本专利技术具有几个目标,包括向用户提供对重要数据启动关键速度的工具,提供为电子商务战略工作收集信息的标准方法/处理,提供到相关的、最近的可靠文件与适用于电子商务战略工作的数据的单一进入点,通过将搜索标准组织在标准企业方法与客户可交付物周围,为研究收集处理增加价值,支咨询员用智能软件对准其搜索过程,并且向咨询团队提供网络化空间,以维护让人感兴趣的文件直至这些文件适用于其分析。根据一个实施例,本专利技术包括一种使用网络爬行器来搜索包含文件的数据库计算机网络的方法。在搜索之前,向所述网络爬行器提供概念性指导。本专利技术汇总来源内容,并且在汇总上进行文本聚合以产生分类。使用基于所述概念性指导的种子进行所述文本聚合。然后,本专利技术通过用户界面向用户提供所述分类以及查询输入,用来搜索所述分类,并且(响应于该查询输入)将所述用户引向所述分类的一个或更多个,以使所述用户被引向所述分类(以及到这些文件的链接),并且不向该用户提供所述文件本身。替代提供所述文件,本专利技术超链接到所述文件。所述汇总基于与所述文件关联的可扩展标记语言。每一所述文件的链接可能出现在所述分类的至少两个类别中。本专利技术确定每个都对应于用户搜索的多个类别的交叉。这些交叉表示不同类别的发生,响应于所述用户搜索,这些类别分离地返回到单一文件的链接。所述概念性指导改进所述搜索与所述文本聚合,从而将所述分类引向特定结果。在咨询员使用本专利技术(此处有时被称为“中心内容管理工具”、“HCMT”、或简称为“中心”)时还有其他好处,包括提供到当前若以个人身份购买还十分昂贵的专有研究资源的访问,紧密结合电子商务战略方法原则以清晰了解正在被研究内容以及需要获取哪些内容,提供数据的自动化分类表示以促进在搜索过程中的发现,而如果不如此将需要成千上万小时的认真阅读,并且最后存储到文件的链接而不是整个文件本身,从而使用户确信访问了原始来源而不是本系统管理员认为正确的最近信息。这些优点构成了最大的好处,即通过本专利技术中所使用的技术,具体地围绕咨询员的工作方式组织并向用户呈现信息,大幅度降低了寻找高品质信息的时间。附图说明通过以下参照附图地对本专利技术优选实施例的详细描述可以更好地理解上面的以及其他的目的、方面以及优点,其中图1为本专利技术系统实施例的示意图;图2是显示根据本专利技术实施例地处理信息的流程图;图3为图2中所示的实施例的分解图; 图4为用于运行本专利技术的硬件实施例的示意图。具体实施例方式本专利技术包括完整的内容收集、汇总、索引、分类、搜索、以及呈现应用。现有的搜索与检索系统包括关键词搜索应用,其一般被用于文本HTML(超文本标记语言)或者万维网搜索,其中使用在该文件内容中出现的关键词来检索该文件。另一种现有的应用为SQL(结构化查询语言),并且其一般用于数字数据库(诸如财务信息)--其中使用专门的语言来检索特定的数字数据。另一公知的应用被称为自然语言,并且其一般用于文本搜索,其中该系统分析该问题,以试图解释其意思,并且在此基础上检索有关文件。战略性情报系统中心系统(Hub for Strategic Intelligence system)与上述系统的不同之处在于该系统使用文本聚合(text clustering)来帮助咨询员生成商务驱动的数据分类,并且该系统呈现这些分类以支持命中列表的显示。如图1所示,对于战略咨询员存在大量的内容来源100。例如,这些资源可能包括公开或私有数据库(有些是基于收费的)、公共或私有网络(诸如因特网或企业网络)。这些资源表现为多种技术格式,包括代理文件(proxydocument)110、Lotus Notes 120、存档和/或镜像站点130、以及因特网140。在优选实施例中,本专利技术提前做一些选择,以确保本专利技术所搜扒(crawl)的来源对该商务咨询员有关。例如,在该预选择阶段,本专利技术为咨询员(用户)提供了界面,以输入条件/类别,该咨询员知道这些条件/类别将与特定客户或客户组有关,从而帮助网络爬行器(crawler)的活动。对某些数据库可能需要取得许可证。项200表示该工具使用中的收集阶段。此处,搜扒相关资源并将其转换到该文本聚合工具可以接受的格式。在优选实施例中,使用网络爬行器来搜索因特网来寻找咨询员可能感兴趣的文件。此类网络搜扒与随后的索引转换十分常见,例如,本专利技术可以使用Grand Central Station(GCS)(来自International Business Machines Corporation,Armonk,NY,USA),这个工具用来搜扒指定来源的站点或数据库(例如Lotus Notes)以从可用资源抽取文本。因此,项220表示可替换的内容交付,而项210表示GCS内容交付。基于文章文本,爬行器生成该这些文件的摘要(例如汇总)。本专利技术的一个重要方面是其基于这些汇总生成分类,这要比只读取元标签(mega tag)要可靠的多。另外,本专利技术将每一文件中的段落与小节分别分类,以更彻底地分类每一文件。此过程更可靠是因为万维网开发人员可以把任何形式的信息放入元标签之中,即使这些信息与该文件内容无关。然后,来自所有内容来源的具有摘要的文本的组合或总体就可用于分类过程。项300表示内容汇总、索引、以及分类过程。在内容汇总器310中汇总由网络爬行器如上所收集的摘要。更具体地说,内容汇总器提炼这些摘要,从而消除与内容无关的冗余的词/短语(例如副词、形容词、小品词等等)。然后经提炼的摘要(汇总)被导入分类(文本聚合)应用,诸如eClassifier 320(来自International Business Machines Corporation,Armonk,NY,USA),其使用数学算法来形成质心(centroid)、或者完美/理想概念,并且自动将所搜扒文件与这些质心相关联。这种关系被称为分类,咨询员就工作的实用性衡量这些分类。本专利技术使咨询员能够控制该文本聚合应用。这使咨询员不仅能够观察确定了哪些类本文档来自技高网...

【技术保护点】
一种搜索数据库的方法,包括以下步骤:    使用网络爬行器,搜索(200)包含文件的数据库(100)的计算机网络,其中在所述搜索之前,向所述网络爬行器提供概念性指导,并且所述搜索产生搜索结果;    汇总(300)所述搜索结果以产生汇总(304);    在所述汇总上进行文本聚合(31)以产生分类(330),使用基于所述概念性指导的种子进行所述文本聚合;以及    通过用户界面(510)提供(34)所述分类以及用来搜索所述分类的查询输入。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:埃米W乔迈克尔J丹克朱莉J皮特尔扎克拉里L普罗克特爱德华L斯米尔查克特里K图利斯
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1