一种基于隐含分类信息的模式匹配方法,属于数据库技术领域,包括发现源数据实例的可能分类、寻找分类属性和为属性匹配关联相应的过滤条件三个步骤。本发明专利技术限定了属性匹配的应用范围,提高数据交换的质量,相比于传统的Context-Based技术,本方法从数据实例中寻找真正的分类信息,来进行约束条件的构建,而不依赖于显示分类属性;不论源模式中是否存在显示分类属性,本发明专利技术中的方法都能从实例数据中提取约束信息,限制属性匹配,提高数据转换质量。
【技术实现步骤摘要】
本专利技术属于数据库领域,具体涉及数据库中关系模式之间的映射及匹配技术。特别涉及一种发现隐含分类信息提高模式匹配质量的方法。
技术介绍
随着计算机技术不断深入各个领域,数据已呈现出分布、自制、异构等特点。数据 集成、数据交换是解决多种数据源间共享问题的一个有效手段。数据集成、交换的应用领域 及其广泛,例如本体合并、数据空间、数据仓库、电子商务、生命科学、Deep Web等等。作为 数据集成、交换的准备阶段_模式匹配其主要任务是发现模式元素之间的语义相似性。如 果两个模式元素具有相似的语义则他们很可能表示相同的事物或者具有相似的意义。现 有的模式匹配技术主要分为两类。第一类技术负责发现元素间的语义相似性,主要包括 Schema-Based方法和Instances-Based方法。第二类技术负责提高模式匹配质量,即通过 约束等手段限定匹配的应用范围来提高匹配的质量。Context-Based是这一类中的代表技 术。Schema-Based方法考虑模式本身的信息,即描述模式的元数据。可用的信息包 括模式的名字、描述、结构、约束以及模式元素的数据类型等等。例如某个模式包含名字为 “products-price”的属性,而另一个模式包含名字为“p-price”属性,则他们很可能具有相 同的语义“产品价格”。Instances-Based方法主要利用依托于模式而存在的实例信息进行 模式匹配。该类技术通过对实例的数据特性进行统计,利用统计结果作为不同模式元素间 的对比依据。例如针对“student”信息表中的“age”属性,统计该属性的平均值作为该属 性与其他模式属性对比的依据,如果另一个模式的某个属性的算术平均值与“age”属性的 平均值之差在一个给定的范围内,则有理由认为他们都表示人的年龄,即这两个属性的语 义相似。此种技术可以利用数据的各方面数据特性进行匹配,例如均值、方差、分布等等。Context-Based的技术对已经发现的模式匹配进行约束。该方法利用源数据实例 中的显示分类属性(Context)约束属性匹配。这些分类属性使得匹配只对需要转换的部 分实例生效,而不影响不需要转换的数据实例。该技术分为两个阶段。第一阶段的主要任 务是发现源模式中的分类属性,其采用机器学习技术学习源数据实例和目标数据实例的特 性,然后预测显示分类属性,例如“student”信息表中的“gender”属性。第二阶段的主要 任务是根据发现的显示分类属性发现生成约束条件并将其与属性匹配进行关联。该方法的 优点在于其有效地将显示分类属性与属性匹配进行结合,并利用其作为属性匹配的约束条 件,从而使得不同模式之间的实例转换具有选择性,提高数据交换的质量。Context-Based 技术虽然能够利用数据实例本身的信息生成约束条件,但其同样存在一些缺点,这些缺点 表现在两方面(1)在利用机器学习方法寻找显示分类属性时,如果源模式同时存在一些低势 (属性的值域很小)属性,则会降低显示分类属性查找的准确率。如果存在大量的低势属 性,则很可能导致算法不能找到显示分类属性。低势属性与显示分类属性之间的混淆使得算法不能对其进行区分,导致查找准确率降低。(2)第二,该技术第一步的返回结果往往是一些候选的显示分类属性,通过这些属 性构建候选约束条件,进一步形成候选属性匹配,之后选择具有最高置信度的属性匹配,这 使得目标模式具有的属性匹配来自多个源模式,而这一现象往往不符合实际情况。同时候 选空间往往很大,导致具有最高置信度的匹配搜索非常耗费时间和资源。同时该方法对显 示分类属性的依赖性非常强,如果源模式中不具有显示分类属性,Context-Based技术则失 效。
技术实现思路
为解决现有技术的不足之处,本专利技术提出一种基于隐含分类信息的模式匹配方 法,限定了属性匹配的应用范围,提高数据交换的质量。相比于传统的Context-Based技 术,本方法从数据实例中寻找真正的分类信息,来进行约束条件的构建,而不依赖于显示分 类属性。不论源模式中是否存在显示分类属性,本专利技术中的方法都能从实例数据中提取约 束信息,限制属性匹配,提高数据转换质量。本专利技术采用的技术方案是首先,利用传统的聚类技术发现隐藏在源数据实例中 的可能的分类。将每个属性的数据实例看成数据对象,通过考虑属性层次上的聚类而不是 元组层次上的聚类提高聚类的准确性;其次,通过信息熵寻找分类属性。将源模式中的元 组看成待聚类的文档,模式的每个属性看成不同的聚类技术,使用信息熵技术评测每个文 档在不同聚类技术下出现在不同聚类结果中的分布情况。与大部分属性的聚类结果都不相 同的属性的熵越大,相反与大多数属性的聚类结果都基本相同的属性的熵越小。通过该特 性可以删除干扰属性,最后得到具有分类信息的分类属性;最后,根据分类属性生成过滤条 件。引入一个新的概念“聚类匹配”来描述过滤条件同属性匹配之间的关系。过滤条件生 成后,枚举所有的聚类匹配,通过一个自适应打分函数选择最优的聚类匹配。最优聚类匹配 中的每一个属性匹配都附带一个过滤条件,该过滤条件能够限制属性匹配的作用范围,即 根据需要来转换源数据,提高属性匹配和数据交换的质量。本专利技术的步骤如下步骤1发现源数据实例的可能分类属性的数据实例中隐藏了一些分类信息,通过最小生成树聚类技术发现属性实例 的可能分类。最简单的方法是将每个元组看成空间的一个数据点,每个属性为该空间的一 维。对元组进行聚类,同一个聚类结果中的元组为一个可能的分类。但源数据实例的分类 信息只体现在一些属性中,而不是所有的属性,所以从元组层次上进行聚类,聚类的准确度 会很低。将每个属性的实例看成数据对象,通过最小生成树聚类算法,对每个属性的数据 对象进行聚类,出现在同一个聚类中数据对象所对应的元组则表示源数据的一个可能的分 类。计算出每个属性中的聚类结果,以待进一步找出具有真正分类信息的属性。令a为源关系R的一个属性,V (R. a)表示属性a的数据对象集合并且|V(R.a) | = η。令ο,ο’为R.a的两个数据对象。令|ο_ο,|表示对象0和0’间的距离,如果属性a为 数字类型,则o-o' I表示他们间的欧氏距离,如果为字符串类型则表示Q-grams距离。令Oi-Oj表示属性a中任意两个对象Oi和Oj之间的距离,其中i和j为下标,并且1 < i, j彡n,令maxO表示取最大值函数。用下式对距离|o-o,|进行归一化。权利要求1.一种,其特征在于包括以下步骤步骤1发现源数据实例的可能分类通过最小生成树聚类算法,计算每个属性的数据对象聚类,出现在同一个聚类中数据 对象所对应的元组则表示源数据的一个可能的分类;步骤2寻找分类属性利用步骤1的结果,使用信息熵测量每个元组在不同属性的聚类结果中的分布情况, 最理想的情况,一个元组在不同属性的聚类结果中出现在同一个聚类中,此时该元组的熵 为零,最坏的情况是,该元组在每个属性的聚类结果中都出现在不同的聚类中;寻找干扰 属性,所谓干扰属性就是,根据该属性对元组的聚类结果与大部分属性都不相同,干扰属性 的熵要大于分类属性,所以不断地将其去除,直到所处理的关系的熵为零,最后得到分类属 性;步骤3为属性匹配关联相应的过滤条件为每个属性匹配关联合适的过滤条件本文档来自技高网...
【技术保护点】
一种基于隐含分类信息的模式匹配方法,其特征在于包括以下步骤:步骤1发现源数据实例的可能分类通过最小生成树聚类算法,计算每个属性的数据对象聚类,出现在同一个聚类中数据对象所对应的元组则表示源数据的一个可能的分类;步骤2 寻找分类属性利用步骤1的结果,使用信息熵测量每个元组在不同属性的聚类结果中的分布情况,最理想的情况,一个元组在不同属性的聚类结果中出现在同一个聚类中,此时该元组的熵为零,最坏的情况是,该元组在每个属性的聚类结果中都出现在不同的聚类中;寻找干扰属性,所谓干扰属性就是,根据该属性对元组的聚类结果与大部分属性都不相同,干扰属性的熵要大于分类属性,所以不断地将其去除,直到所处理的关系的熵为零,最后得到分类属性;步骤3 为属性匹配关联相应的过滤条件为每个属性匹配关联合适的过滤条件。
【技术特征摘要】
【专利技术属性】
技术研发人员:王国仁,赵宇海,丁国辉,
申请(专利权)人:东北大学,
类型:发明
国别省市:89[中国|沈阳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。