一种基于一阶逻辑和神经网络的数据对应方法技术

技术编号:8022430 阅读:197 留言:0更新日期:2012-11-29 04:40
本发明专利技术属于数据迁移、数据集成领域,具体涉及一种高匹配效率和准确率的基于一阶逻辑和神经网络的数据对应方法。本发明专利技术包括:(1)分析已完成匹配的数据模式;(2)将模式转换为表向量,存放在待匹配表训练集合中;(3)对集合中的表进行特征提取;(4)存储提取的表的特征。(5)对待匹配模式中的待匹配表进行匹配;(6)对已完成匹配的模式中的字段进行训练,修正字段的表示形式和建立的神经网络;(5)使用训练好的神经网络和修正后的字段表示格式,对已完成匹配的表进行字段匹配。本发明专利技术减少了在数据对应过程中的时间,提高了匹配的效率和准确率。

【技术实现步骤摘要】

本专利技术属于数据迁移、数据集成领域,具体涉及一种高匹配效率和准确率的基于一阶逻辑和神经网络的数据对应方法
技术介绍
随着网络和数据库技术的不断发展,数据的种类和数量也在不断的增加,因此,对于异构数据的共享和相互之间的转换等技术问题也变成迫切需要解决的问题。在语义WEB、数据仓库、P2P数据库、模式集成和电子商务等领域,都对异构数据的共享和相互之间的转换进行了深入的研究。模式匹配作为实现异构数据共享的第一步,在整个数据处理过程中起到了不能替代的作用。目前实现异构数据的转换等工作大都是由操作人员手工进行,这就要求操作人员必须对数据库的信息,比如模式结构和模式中元素的语义都很熟悉,这样才能够完成对异构数据的共享和转换,因此对异构系统数据的处理是一个比较复杂的过程。随着业务复杂度和系统复杂度的不断增加,系统所需要的数据的复杂程度,都比现有 的数据情况要复杂的多,在这种情况下,单纯依靠人工来完成异构数据集成过程,显然太困难,因此对异构数据集成的自动化需求就越来越迫切。到目前为止,对数据对应的方法研究也取得了一些成果。2000年NorthwesternUniversity 开发的 SemInt (A Tool for Identifying Attribute Correspondences inHeterogeneous Database Using Neural Networks)是一个应用混合匹配技术的模式匹配系统,它主要应用神经网络技术去确定匹配候选集,并在两个模式的单属性间建立一个映射,匹配基数是 I: I ;2001 年 VLDB (Very Large Data Base)会议上提出的 Cupid (Genericschema matching with Cupid)是一种通用化的混合匹配方法,将名字匹配器与结构化匹配算法相结合,根据这个结构化算法可以推导出属性的相似度,而属性的相似度是根据属性组件(主要是属性名字和属性的数据结构)的相似性得出;2002年VLDB会议上提出的COMA (A System for Flexible Combination of Schema Matching Approaches)是一种合成的模式匹配方法,它提供一个承载了多个不同匹配器的外部知识库,并且支持多种结合匹配结果的方法;2002 年 ICDE (International Conference on Data Engineering)会议上提出的 SF(Similarity Flooding A Versatile Graph Matching Algorithm)是一种基于模式结构相似度的匹配方法;2004 年 SIGMOD (Special Interest Group on Managementof Data)会议上提出的 iMap (Discovering complex semantic matches between databaseschemas)是一种基于模式信息和实例信息的混合匹配方法;2005年I⑶E会议上提出的基于副本的模式匹配方法主要利用被匹配模式的数据集中存在的重叠数据来指明模式间的匹配关系,是一种基于实例的模式匹配技术;2005年国防科技大学在NDBC(NationalData Base Conference)会议上提出的 SMDD(Schema Mapping Method based on DataDistribution)是一种基于数据实例分析特征的模式匹配方法;2009_2010年李国徽等提出了基于函数依赖的结构匹配方法和基于部分函数依赖的结构匹配方法。前面所述的方法虽然能够解决模式匹配中的一些匹配问题,但是并不完善,并且对于历史的匹配信息并没有加以利用,导致下次再进行数据对应的操作时,仍然需要对一些已知规则的匹配利用匹配算法进行重新匹配,这样既浪费的时间也影响了匹配的准确率。而本专利技术则充分利用了历史匹配的知识,通过利用一阶逻辑和神经网络对已完成匹配模式中的信息进行训练,来完成整个数据对应的过程。
技术实现思路
本专利技术的目的在于提供一种匹配时间更短、准确率更高的基于一阶逻辑和神经网络的数据对应方法。本专利技术的目的是这样实现的本专利技术包括如下步骤 (I)分析已完成匹配的数据模式,建立待匹配模式的表和字段形式的格式;(2)将选择训练的模式转换为表向量,存放在待匹配表训练集合中,包括表名、正样本数据、负样本数据和断言集合;(3)使用一阶逻辑的表特征提取算法对集合中的表进行特征提取;(4)存储提取的表的特征;(5)使用提取的表的特征字段对待匹配模式中的待匹配表进行匹配;(6)通过生成反馈的神经网络算法对已完成匹配的模式中的字段进行训练,修正字段的表示形式和建立的神经网络;(7)使用训练好的神经网络和修正后的字段表示格式,对已完成匹配的表进行字段匹配。表的格式形式化为六元组T= (N,Ne,K,Ke,S。,D),其中N为表名,Ne为表名的中文解释,K为主键,Ke为主键的中文含义,S。为除主键之外的各个字段的名称和中文含义的集合,D为当前表中数据量的大小;对于表中字段采用十六元组Tattribute = (Dl, Le, Pe, Ct, Nt, Dt, Pk, Fk, Nu, Cv, Df, Max, Min, Ave, Var, StaDev),其中,Dl为字段名的长度,Le为数据的长度,Pr为数据的精度,Ct为字符类型,Nt为数字类型,Dt为日期类型,Pk为主键,Fk为外键,Nu为是否为空,Cv为唯一性约束,Df为默认值,Max为数据最大值,Min为数据最小值,Ave为数据平均值,Var为数据方差,StaDev为数据标准差。对待匹配模式中的待匹配表进行匹配的具体步骤包括(I)提取待匹配模式中表的表名以及表中含有的字段名;(2)顺序遍历提取的表名和字段名,在遍历的过程中,查找表规则集合,检索是否有表满足其中的规则,如果满足其规则,则将该表与表规则中的表进行匹配,标记已完成匹配的表;(3)继续遍历,直到所有表都遍历完成为止,反馈匹配结果。生成反馈的神经网络算法包括如下步骤(I)构建初始的生成反馈网络,其输入层的神经元的个数为N,输出层神经元个数为M ;(2)对生成反馈网络中的各个参数进行赋值,包括对其学习率r、网络的权重值w和每个单元的偏倚值9 ,其中网络的学习率的r的取值范围为(0.0彡r彡1.0),网络权重w和每个单元的偏倚0的取值范围分别为-I. 0彡w彡I. 0和-I. 0彡0 ^ 1.0 ;(3)对构建的生成反馈网络进行正向和逆向误差传播,同时修正权值和偏倚值;(4)将训练数据集输入到神经网络使用生成反馈的神经网络算法对网络中的节点和连接进行剪枝操作,同时对字段的初始十六元组形式进行修正。本专利技术的有益效果在于本专利技术通过将一阶逻辑与人工智能领域的神经网络融合有效的减少了数据匹配的时间。通过基于一阶逻辑的表特征提取算法来对表特征进行提取匹配,然后利用生成反馈的神经网络的算法对字段分类,进行匹配,减少了在数据对应过程中的时间,提闻了匹配的效率和准确率。附图说明 图I是基于一阶逻辑的表特征提取算法流程图;图2是利用提取的特征进行表匹配流程图;图3是生成反馈的神经网络算法的流本文档来自技高网
...

【技术保护点】
一种基于一阶逻辑和神经网络的数据对应方法,其特征在于,包括如下步骤:(1)分析已完成匹配的数据模式,建立待匹配模式的表和字段形式的格式;(2)将选择训练的模式转换为表向量,存放在待匹配表训练集合中,包括表名、正样本数据、负样本数据和断言集合;(3)使用一阶逻辑的表特征提取算法对集合中的表进行特征提取;(4)存储提取的表的特征;(5)使用提取的表的特征字段对待匹配模式中的待匹配表进行匹配;(6)通过生成反馈的神经网络算法对已完成匹配的模式中的字段进行训练,修正字段的表示形式和建立的神经网络;(7)使用训练好的神经网络和修正后的字段表示格式,对已完成匹配的表进行字段匹配。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄少滨刘国峰朴秀峰申林山刘刚刘建华
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1