当前位置: 首页 > 专利查询>浙江大学专利>正文

基于树合并的Deep Web查询接口集成方法技术

技术编号:4115966 阅读:265 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于树合并的Deep Web查询接口集成方法。用模式树来表示查询接口,利用树的结构特点来体现查询属性之间的物理布局所蕴含的逻辑关系。匹配过程中除了计算传统模式匹配中属性的语义相似度外,还引入了属性在模式树中的结构相似度,提出了计算节点之间结构相似度方法,从而提高了属性匹配的精确度。采用基于树合并来实现查询接口集成,这样的好处不仅可以继承原始查询接口的结构特征,还可以通过一次合并来实现新查询接口的加入,具备良好的扩展性。本发明专利技术除了生成集成接口之外,还可以方便地生成原始查询接口和集成接口之间属性的映射关系。

【技术实现步骤摘要】

本专利技术涉及Deep Web数据集成、垂直搜索引擎与信息提取系统技术,特别是涉及一种基于树合并的Deep Web査询接口集成方法。
技术介绍
随着互联网的飞速发展,Web在线数据库的数量也呈现出爆炸性地增长。早在2004年,UIUC大学的调查报告表明拥有在线数据库的网站数量已经达到307,000个,其背后的数据库数量已经达到366,000-535,000个,覆盖了现实世界中的各个领域。不同的网站对于同一领域内的数据库会提供不同查询能力的査询接口,所以用户不得不逐一访问各个网站的查询接口来获取更全面的数据。为了避免这些既繁琐又低效的查询,集成各个数据源中的数据已经迫在眉睫。集成数据首先要解决的就是集成各个数据源的查询接口,为用户在同一领域内的Web数据库提供统一的访问途径。模式匹配和集成是实现这一任务的关键技术。査询接口的集成过程主要可以分为两个阶段属性匹配,找到不同査询接口中的表示同一语义的属性的映射关系;模式合并,根据属性映射关系把各个异构的查询接口合并成统一的集成查询接口。近些年来,査询接口的集成受到了越来越多的研究者关注,也取得了一些成果。査询接口的自动的实现方法可以分为两大类 一类属于局部方式,是基于给定的要进行集成的查询接口集合,分析属性的隐含信息,特别是语义信息,在它们之间作属性的匹配,得到一个新的全局接口;另一类属于整体方式,是基于某个确定的领域通过对这个领域范围内大量接口的处理,发现这个领域上一般的查询接口。但是现有的研究还存在一些局限首先目前的研究对查询接口采用平面建模,没有挖掘査询属性之间的结构化信息;其次之前的査询接口的集成主要注重属性的匹配过程中,从而忽略了查询属性之间的结构关系,导致最终的集成接口无法继承原始接口的结构特征;最后,缺乏可扩展性,之前很多研究采用聚类的方法,将匹配的属性聚到同一簇中,如果有新的接口需要集成,必须重新对所有查询接口再进行聚类处理。
技术实现思路
针对
技术介绍
中存在的问题,本专利技术的目的在于提供一种基于树合并的DeepWeb查询接口集成方法,采用树结构可以充分体现查询接口属性之间的结构关4系,通过树的合并来实现查询接口的集成。该方法不但能保持各个原始接口的结构特征,还具备良好的扩展性,以适应不断频繁更新的査询接口。本专利技术解决其技术问题采用的技术方案的步骤如下1) 对经过模式抽取的查询接口进行模式树建模,把所有待集成的査询接口用模式树来建模,生成模式树集合S={Sh SfSn};2) 分析模式树中的叶子节点的语义,计算模式树中不同叶子节点的相似度;3) 利用步骤2)的相似度计算方法来进行模式树中叶子节点的属性匹配,然后采用成对的基于树合并的方式两两合并模式树,记录下合并轨迹,最终生成集成接口;4) 根据步骤3)合并过程中记录下的合并轨迹,最终产生原始査询接口与集成接口的属性映射关系。所述步骤l)中待建模的查询接口是经过结构化模式抽取,保留了査询接口在网页上的物理布局关系,建模后的模式树保持了原始查询接口的逻辑关系。所述步骤2)中的相似度计算引入了模式树的结构相似度,与语义相似度、实例相似度加权平均。所述步骤3)中査询接口的合并采用成对的方式合并首先从模式树集合S中选取第一个模式树Si作为目标树,然后每次从模式树集合S中选择一个模式树Sj作为源树,将源树合并到目标树,循环往复,直到合并完所有模式树。所述步骤3)对源树中的叶子节点的合并采取以下方法1) 首先在目标树中寻找匹配节点,如果匹配的节点是叶子节点,则合并这两个节点;2) 如果匹配节点是中间节点,说明属性之间的匹配为一个对多个,则处理复杂映射关系;3) 如果没有找到匹配节点,表明此模式树中的该节点是特有的,需要在目标树中增加该节点,为了保持集成接口的结构特征,需要将该节点插入目标树的对应的子树中。所述步骤4)中映射关系推导的数据来源是步骤3)中合并过程所做的记录;步骤4)将把步骤3)中的中间映射关系全部转换到原始查询接口到集成接口的映射关系。本专利技术具有的有益效果是充分利用了树结构能体现查询接口逻辑关系的优点,以标签、实例和结构相似度的综合为属性匹配依据,大大提高匹配准确度;基于树的合并集成方法能够有效继承各个原始査询接口的各个结构特征;该方法并且具备良好的扩展性,以适应不断频繁更新的查询接口集合,在加入新的查询接口时只需一次合并即可完成更新。附图说明附图是查询接口集成系统原理示意图。具体实施例方式现结合具体实施和示例对本专利技术的技术方案作进一步说明。1、 如附图所示,本专利技术具体实施过程和工作原理如下1) 对经过模式抽取的査询接口进行模式树建模,把所有待集成的查询接口用模式树来建模,生成模式树集合S-(Su SfSn};2) 分析模式树中的叶子节点的语义,计算模式树中不同节点的相似度;3) 利用步骤2)的相似度计算方法来进行模式树的属性匹配,然后采用成对的基于树合并的方式两两合并模式树,最终生成集成接口;4) 根据歩骤3)合并过程中记录下的合并轨迹,最终产生原始查询接口与集成接口的映射关系。2、 步骤l)中査询接口中的属性使用一个二元组A^ (Label,Instance)来表示,其中Label表示属性所对应的html标签,Instance对应属性的实例,如机票查询接口舱位所对应的属性可以表示为A={ Flight class , First, Business,Economy ,, }。3、 步骤1)中构建的模式树必须符合以下条件a)如果节点n是叶子节点,则它对应模式树S中的某一个属性Ai; b)如果节点n是树的中间节点,则它对应模式树S中的某一个组框标签;c)如果节点n是树的中间节点,则n的儿子集合C(lcl^)中的元素在模式树中的排列顺序与查询接口中的排列顺序保持一致。4、 步骤2)中属性相似度采用下面加权平均的方法计算,公式如下-Sim(AA,AB)= A ls*lSim(AA,AB)+ 、 vs*vSim(AA,AB)+ X ss*sSim(AA,AB)其中1Sim(AA,AB)为属性标签相似度计算函数;vSim(AA,AB)为属性实例相似度计算函数;sSim(AA,AB)为两个属性的结构相似度计算函数;X ls、 5和、为分别为对应相似度的权重系数。5、 步骤2)中各个相似度计算如下定义l)标签相似度采用向量空间模型,即为对应的文本向量^和?的相似度,表示62) 实例相似度的计算根据实例的类型区别对待(主要分字符类型、数值类型、货币和日期等),具体相似度计算采用了 IceQ的方法vSim(AA,AB) = v。/r )n vWu(),即两个属性的实例值域的交集除以两个实例值域的并集。3) 结构相似度计算的是节点在树结构中的结构相似度。对两个模式树分别进 行后序遍历,产生两个树的节点序列。在接下来的两重循环中,我们开始计算 两个节点的结构相似度如果两个节点都是叶子节点,sSim(s,t)即为语义和实 例的线性加权;当两者中只要有一个是非叶节点,则结构相似度为两者包含的 叶子节点的相似数量占所有节点总和的比例,公式为{xlxe /eaves) a /eoves(0,w/c力(x,y)》 5 仍 (s , ,) 二 -i-i-接下来再重新计算s和t的相似度Sim(s,t)。如果s和t高本文档来自技高网
...

【技术保护点】
一种基于树合并的Deep Web查询接口集成方法,其特征在于该方法的步骤如下:  1)对经过模式抽取的查询接口进行模式树建模,把所有待集成的查询接口用模式树来建模,生成模式树集合S={S↓[1],S↓[2]…S↓[n]};  2)分析模式树中的叶子节点的语义,计算模式树中不同叶子节点的相似度;  3)利用步骤2)的相似度计算方法来进行模式树中叶子节点的属性匹配,然后采用成对的基于树合并的方式两两合并模式树,记录下合并轨迹,最终生成集成接口;  4)根据步骤3)合并过程中记录下的合并轨迹,最终产生原始查询接口与集成接口的属性映射关系。

【技术特征摘要】
1、一种基于树合并的Deep Web查询接口集成方法,其特征在于该方法的步骤如下1)对经过模式抽取的查询接口进行模式树建模,把所有待集成的查询接口用模式树来建模,生成模式树集合S={S1,S2…Sn};2)分析模式树中的叶子节点的语义,计算模式树中不同叶子节点的相似度;3)利用步骤2)的相似度计算方法来进行模式树中叶子节点的属性匹配,然后采用成对的基于树合并的方式两两合并模式树,记录下合并轨迹,最终生成集成接口;4)根据步骤3)合并过程中记录下的合并轨迹,最终产生原始查询接口与集成接口的属性映射关系。2、 根据权利要求1所述的一种基于树合并的Deep Web查询接口集成方法,其特征在于所述步骤l)中待建模的査询接口是经过结构化模式抽取,保留了査询接口在网页上的物理布局关系,建模后的模式树保持了原始查询接口的逻辑关系。3、 根据权利要求1所述的一种基于树合并的Deep Web査询接口集成方法,其特征在于所述步骤2)中的相似度计算引入了模式树的结构相似度,与语义相似度、实例相似度加权平均。4、 根据权利要求1所述的一种基于树合并...

【专利技术属性】
技术研发人员:胡天磊陈珂陈刚寿黎但陶然
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1