一种实现数据库模式自动匹配的方法技术

技术编号：4667661 阅读：402 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种实现数据库模式自动匹配的方法，包括模式信息分析、模式信息分类、模式信息整合以及模式元素相似度的计算四个步骤。模式信息分析用于实现解析格式化的源模式以及目标模式的元素信息；模式信息分类用于归类模式信息分析阶段分析出的模式元素信息，将所有元素分别按名称、描述以及类型进行分类；模式信息整合用于整合模式信息分类的分类结果以及元素结构信息，构建加权模糊概念格；模式元素相似度的计算用于根据加权模糊概念格计算模式元素之间的匹配度并设定阈值确定元素之间的匹配关系。本发明专利技术的数据库模式自动匹配的方法，解决模式匹配在实际应用中出现的问题，提高计算机在解决模式匹配问题时的效率，减少ＣＰＵ资源的浪费。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及，属于数据库

技术介绍
模式匹配在许多应用中都起着关键作用，如数据仓库中的数据抽取过程需要将数据源的数据按仓库的格式转换；电子商务信息交换的处理中的异构消息的映射；以及数据集成中全局视图的构建。由于准确的语义信息只有模式设计者才能真正掌握，不能在模式本身中完全表达，所以模式匹配的自动实现是一个难以解决的问题，使得模式的匹配工作经常要用户大量参与，成为数据交换的应用中的瓶颈问题。一个高效的模式匹配算法需要一系列的基础技术的组合，包括综合考虑语言学相关知识、数据类型的内在关联、数据实例间的关系以及领域知识等等。目前模式匹配主要有基于模式内部信息的模式匹配和基于大规模数据以及背景知识的模式匹配等两类。基于待匹配模式内部信息的模式匹配优点在于整合模式内聚信息，其局限性在于模式自身语义的不完备;基于大规模数据以及背景知识的模式匹配方法充分利用了数据实例或者以往的匹配结果，但往往不具备通用性，并且学习数据较难获取。同时，现有方法在以下方面存在缺陷1、多对多的复杂匹配情况的处理；2、同名异义字段的匹配；3、算法的执行效率。
技术实现思路
本专利技术的目的是针对现有技术的不足，提供。本专利技术解决其技术问题采用的技术方案是，该方法包括模式信息分析、模式信息分类、模式信息整合以及模式元素相似度的计算四个步骤；(1)所述模式信息分析用于实现解析格式化的源模式以及目标模式的元素信息，包括以下步骤A、获取源数据库模式XML文档及目标数据库模式XML文档；B、使用XML解析工具D0M4J解析XML文档；C、整理解析出的模式...

【技术保护点】
一种实现数据库模式自动匹配的方法，其特征在于该方法包括模式信息分析、模式信息分类、模式信息整合以及模式元素相似度的计算四个步骤；　（１）所述模式信息分析用于实现解析格式化的源模式以及目标模式的元素信息，包括以下步骤：　Ａ、获取源数据库模式ＸＭＬ文档及目标数据库模式ＸＭＬ文档；　Ｂ、使用ＸＭＬ解析工具ＤＯＭ４Ｊ解析ＸＭＬ文档；　Ｃ、整理解析出的模式元素信息，分别生成源模式元素名集合、源模式元素名与元素描述对集合、源模式元素名与元素类型对集合、目标模式元素名集合、目标模式元素名与元素描述对集合以及目标模式元素名与元素类型集合；　（２）所述模式信息分类用于归类模式信息分析阶段分析出的模式元素信息，将所有元素分别按名称、描述以及类型进行分类；主要包括名称分类方法，描述分类方法以及类型分类方法；　所述名称分类方法用于根据模式元素名对源模式元素进行分类，并且计算每个目标模式元素隶属于源模式各类别的隶属度，包括以下步骤：　Ｄ、获取源模式元素名称集；　Ｅ、对源模式元素按分隔符分解并去除公共前缀；　Ｆ、对该词集进行同义词扩展；　Ｇ、对该同义词集中的元素进行３段解析后得文本集，该文本集实际就表示了类别所具...

【技术特征摘要】

【专利技术属性】
技术研发人员：李小平，王茜，王峰，黄聃，
申请(专利权)人：东南大学，
类型：发明
国别省市：84[中国|南京]

全部详细技术资料下载我是这个专利的主人