当前位置: 首页 > 专利查询>东南大学专利>正文

一种实现数据库模式自动匹配的方法技术

技术编号:4667661 阅读:402 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种实现数据库模式自动匹配的方法,包括模式信息分析、模式信息分类、模式信息整合以及模式元素相似度的计算四个步骤。模式信息分析用于实现解析格式化的源模式以及目标模式的元素信息;模式信息分类用于归类模式信息分析阶段分析出的模式元素信息,将所有元素分别按名称、描述以及类型进行分类;模式信息整合用于整合模式信息分类的分类结果以及元素结构信息,构建加权模糊概念格;模式元素相似度的计算用于根据加权模糊概念格计算模式元素之间的匹配度并设定阈值确定元素之间的匹配关系。本发明专利技术的数据库模式自动匹配的方法,解决模式匹配在实际应用中出现的问题,提高计算机在解决模式匹配问题时的效率,减少CPU资源的浪费。

【技术实现步骤摘要】

本专利技术涉及,属于数据库

技术介绍
模式匹配在许多应用中都起着关键作用,如数据仓库中的数据抽取过程需要将数据源 的数据按仓库的格式转换;电子商务信息交换的处理中的异构消息的映射;以及数据集成 中全局视图的构建。由于准确的语义信息只有模式设计者才能真正掌握,不能在模式本身中完全表达,所 以模式匹配的自动实现是一个难以解决的问题,使得模式的匹配工作经常要用户大量参 与,成为数据交换的应用中的瓶颈问题。 一个高效的模式匹配算法需要一系列的基础技术 的组合,包括综合考虑语言学相关知识、数据类型的内在关联、数据实例间的关系以及领 域知识等等。目前模式匹配主要有基于模式内部信息的模式匹配和基于大规模数据以及背景知识 的模式匹配等两类。基于待匹配模式内部信息的模式匹配优点在于整合模式内聚信息,其 局限性在于模式自身语义的不完备;基于大规模数据以及背景知识的模式匹配方法充分利 用了数据实例或者以往的匹配结果,但往往不具备通用性,并且学习数据较难获取。同时, 现有方法在以下方面存在缺陷1、 多对多的复杂匹配情况的处理;2、 同名异义字段的匹配;3、 算法的执行效率。
技术实现思路
本专利技术的目的是针对现有技术的不足,提供。 本专利技术解决其技术问题采用的技术方案是,该方法包括模式信息分析、模式信息分类、模 式信息整合以及模式元素相似度的计算四个步骤;(1)所述模式信息分析用于实现解析格式化的源模式以及目标模式的元素信息,包括以下步骤A、获取源数据库模式XML文档及目标数据库模式XML文档;B、 使用XML解析工具D0M4J解析XML文档;C、 整理解析出的模式元素信息,分别生成源模式元素名集合、源模式元素名与元素 描述对集合、源模式元素名与元素类型对集合、目标模式元素名集合、目标模式元素名与 元素描述对集合以及目标模式元素名与元素类型集合;(2)所述模式信息分类用于归类模式信息分析阶段分析出的模式元素信息,将所有 元素分别按名称、描述以及类型进行分类;主要包括名称分类方法,描述分类方法以及类 型分类方法;所述名称分类方法用于根据模式元素名对源模式元素进行分类,并且计算每个目标模 式元素隶属于源模式各类别的隶属度,包括以下步骤-D、 获取源模式元素名称集;E、 对源模式元素按分隔符分解并去除公共前缀;F、 对该词集进行同义词扩展;G、 对该同义词集中的元素进行3段解析后得文本集,该文本集实际就表示了类别所 具有的特征;H、 各类别以及标识各类别的特征文本集作为训练样例送入名称分类方法,以供分类 方法学习各类别特征;未经过训练样例学习的分类方法不具有分类新样例的能力;I、 对目标模式元素,直接将各目标模式元素的3段解析字符串的集合作为待分类样 例送入已经学习完的名称分类方法,以计算出各字符串对应各源模式的各类别的评估值, 各评估值将会作为模式整合阶段的形式概念上下文的数据进行整合,名称分类方法的输出 结果的形式化表示如下P, <~< 、 , 5, …e,, >, e ,其中,w为源模式字段数,M为目标模式字段数,A是指名称分类方法输出的第/个类别,这里用源模式元素名指代各类别,向量<& 2... >是指该类别中包含的元素;^是源模式元素,^, ..、是根据评估值选取的目标元素;/是自然数;所述描述分类方法用于根据模式元素的是元素描述对源模式元素进行分类,并且计算 每个目标模式元素隶属于源模式各类别的隶属度,包括以下步骤 J、获取源模式元素描述集;K、各类别以及标识各类别的特征描述集作为训练样例送入描述分类方法,以供分类 方法学习各类别特征;6L、对于目标模式元素,直接将各目标模式元素的描述集作为待分类样例送入已经学 习完的描述分类方法,以计算出各描述对应各源模式的各类别的评估值,描述分类方法的 输出结果的形式化表示如下《,—< WV气〉,'e,其中,m为源模式字段数,"为目标模式字段数;其中&是指描述分类方法输出的第 /个类别,这里用源模式元素名指代各类别,向量< ,^,^..气>是指该类别中包含的元 素; 是源模式元素,^,^..々是根据评估值选取的目标元素;z'是自然数;所述类型分类方法用于将源模式以及目标模式各元素根据自身元素类型归类,包含以 下步骤-M、获取源模式元素名与元素类型对集合以及目标模式元素名与元素类型对集合; N、按下述规则将各元素分类i 、数值包括TINYINT, SMALLINT, MEDIUMINT, INT, BIGINT, FLOAT, DOUBLE, DECIMAL;ii字符串包括CHAR, VARCHAR, TINYBLOB , BLOB, MEDIUMBLOB, LONGBLOB, TINYTEXT, TEXT, MEDIUMTEXT, LONGTEXT, ENUM, SET;iii、日期及时间DATE, TIME, DATETIME, TIMESTAMP, YEAR;类型属于同 一类的模式元素划为一类;(3)所述模式信息整合用于整合模式信息分类的分类结果以及元素结构信息,构建 加权模糊概念格,主要是采用形式概念分析法来整合各模式分类信息及模式约束信息、构 建加权模糊形式背景,并以此为依据构建加权模糊概念格;所述加权模糊形式背景的构建包括以下步骤I、 构建形式背景的属性分别是约束属性、名称分类属性、描述分类属性以及类型 分类属性;II、 为各属性设定权值以及有效值区间所有约束属性权值为1,有效值区间为; 所有名称分类属性权值为0.8,有效值区间为;所有描述分类属性权值为0.9,有效 值区间为;所有类型分类属性权值为0.7,有效值区间为;III、 构建形式背景对象形式背景对象是所有源目标元素以及目标元素;IV、 针对形式背景各属性,填入各形式背景对象具有该属性的程度,对约束属性及类 型分类属性,以值l表示完全具有;值0表示完全不具有;对名称分类属性以及描述分类属性,填入模式分类阶段的各评估值;所述加权模糊概念格构建方法包括以下步骤 ③、将加权模糊形式背景单一化,构建对应O-l矩阵; 、遍历该矩阵,找出所有相对最大全1子矩阵; ③、去除重复矩阵; 、确定参数与偏序关系,形成最终的加权模糊概念格; (4)所述模式元素相似度的计算用于根据加权模糊概念格计算模式元素之间的匹配 度并设定阈值确定元素之间的匹配关系,采用的相似计算模型基于加权模糊概念格,计算 公式如下g ((a v 6)A ) + ag ((a - 6)A ) + (1 - or) g ((6 - c )A )尸(7)其中,g表示势函数g(P), P表示函数g的参数,为概念格中一概念子集,"为平 衡因子,表示相似的对称性,a表示概念的权重, 表示概念的每个外延对每个属性的平均隶属度,("N/6)八表示加权模糊概念格中"、6两结点公共的且只有一条向上边的祖先结点的集合,(a-"A表示那些只在fl中出现但未在6中出现的只有一条向上边的祖先结点的集合,(6-";r表示只在6中出现但未在a中出现的只有一条向上边的祖先结点的集合。有益效果本专利技术通过提取模式本身固有信息模式元素名称、元素描述以及元素类型,构建信 息文本,利用朴素贝叶斯分类方法来对信息文本归类;本文档来自技高网...

【技术保护点】
一种实现数据库模式自动匹配的方法,其特征在于该方法包括模式信息分析、模式信息分类、模式信息整合以及模式元素相似度的计算四个步骤; (1)所述模式信息分析用于实现解析格式化的源模式以及目标模式的元素信息,包括以下步骤: A、获取源数据库模式XML文档及目标数据库模式XML文档; B、使用XML解析工具DOM4J解析XML文档; C、整理解析出的模式元素信息,分别生成源模式元素名集合、源模式元素名与元素描述对集合、源模式元素名与元素类型对集合、目标模式元素名集合、目标模式元素名与元素描述对集合以及目标模式元素名与元素类型集合; (2)所述模式信息分类用于归类模式信息分析阶段分析出的模式元素信息,将所有元素分别按名称、描述以及类型进行分类;主要包括名称分类方法,描述分类方法以及类型分类方法; 所述名称分类方法用于根据模式元素名对源模式元素进行分类,并且计算每个目标模式元素隶属于源模式各类别的隶属度,包括以下步骤: D、获取源模式元素名称集; E、对源模式元素按分隔符分解并去除公共前缀; F、对该词集进行同义词扩展; G、对该同义词集中的元素进行3段解析后得文本集,该文本集实际就表示了类别所具有的特征; H、各类别以及标识各类别的特征文本集作为训练样例送入名称分类方法,以供分类方法学习各类别特征;未经过训练样例学习的分类方法不具有分类新样例的能力; I、对目标模式元素,直接将各目标模式元素的3段解析字符串的集合作为待分类样例送入已经学习完的名称分类方法,以计算出各字符串对应各源模式的各类别的评估值,各评估值将会作为模式整合阶段的形式概念上下文的数据进行整合,名称分类方法的输出结果的形式化表示如下: p↓[i]←〈e↓[s↓[i]],e↓[t↓[1]],e↓[t↓[2]]…e↓[t↓[n]]〉i∈[1,m], 其中,m为源模式字段数,n为目标模式字段数,p↓[i]是指名称分类方法输出的第i个类别,这里用源模式元素名指代各类别,向量〈e↓[s↓[i]],e↓[t↓[1]],e↓[t↓[2]]…e↓[t↓[n]]〉是指该类别中包含的元素;e↓[s↓[i]]是源模式元素,e↓[t↓[1]],e↓[t↓[2]]…e↓[t↓[n]]是根据评估值选取的目标元素;i是自然数; 所述描述分类方法用于根据模式元素的是元素描述对源模式元素进行分类,并且计算每个目标模式元素隶属于源模式各类别的隶属度,包括以下步骤: J、获取源模式元素描述集;...

【技术特征摘要】

【专利技术属性】
技术研发人员:李小平王茜王峰黄聃
申请(专利权)人:东南大学
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1