本发明专利技术提供一种数据库分析装置及方法,提供一种在生成关于某数据库的属性值的相关规则时,与在期待的有效的相关规则中求出的可信度等特征一致地,将属性值种类化的方法。所述数据库分析装置,具有相关规则分析单元,其着眼于数据库所保持的多个表格中的构成表格的2个以上的表格栏,根据各表格栏所保持的数据同时出现的倾向,来自动地分析表格栏间存在的依存关系或制约条件,所述数据库分析装置具有:数据种类计算单元,其根据由多个表格栏的数据组生成的相关规则来计算数据组的种类化方法;以及相关规则再构成单元,其基于所述种类化结果来再构成相关规则,由此,生成最佳粒度的相关规则。
【技术实现步骤摘要】
【专利摘要】本专利技术提供一种,提供一种在生成关于某数据库的属性值的相关规则时,与在期待的有效的相关规则中求出的可信度等特征一致地,将属性值种类化的方法。所述数据库分析装置,具有相关规则分析单元,其着眼于数据库所保持的多个表格中的构成表格的2个以上的表格栏,根据各表格栏所保持的数据同时出现的倾向,来自动地分析表格栏间存在的依存关系或制约条件,所述数据库分析装置具有:数据种类计算单元,其根据由多个表格栏的数据组生成的相关规则来计算数据组的种类化方法;以及相关规则再构成单元,其基于所述种类化结果来再构成相关规则,由此,生成最佳粒度的相关规则。【专利说明】
本专利技术涉及。特别地,涉及无需人工,自动生成由多个属性值构成的种类之间的相关规则的方法。
技术介绍
作为本
的
技术介绍
,有日本特开2000-259612号公报(专利文献1)。在该公报中记载了,“针对生成的规则中包含的包含有项目组的事务,关于属性值,高效率地生成统计值,同时在求出相关规则时除了支持和可信度,还能够缩小关于属性值的统计值的范围。”(参照摘要 现有技术文献 专利文献 日本特开2000-259612号公报
技术实现思路
专利技术要解决的课题 专利文献1中记载了,用于根据数据库中存储的交易表格所保持的表格栏的属性值组,来生成关于这些属性值的相关规则的机制。其中,能够通过仅提取可信度高的相关规则来推测表格栏间存在的依存关系、制约条件。通过将推测的信息提供给用户,能够支援用户理解数据库的方法。 但是,所述文献的技术中并未描述表格栏所保持的属性值组的种类化方法。即,无法得到将属性值进行种类区分之后的相关规则。或者,虽然需要另外准备种类化方法,但是这种情况下的种类化方法无法与相关规则生成手段协作。 例如,如果是仅含数值的属性值的表格栏,则通过以“5以上”、“不足5”等的特定范围来划分属性值组,能够将属性值组种类化。此外,在仅含时刻的情况下也能够同样地进行处理。然而,也存在字符串等无法一概地决定种类划分的边界的属性值。此外,在存在大量的表格栏的状况下,在由人来指定这些全部的种类划分方法时,操作工时大,因此不现实。此外,即使与相关规则无关地、利用不考虑表格栏间的关系的方法来决定种类化方法,也无法保证能够通过该种类化方法生成有效的相关规则。 因此,本专利技术的目的在于,提供一种在生成关于某数据库的属性值的相关规则时,与在期待的有效的相关规则求出的可信度等特征一致,并将属性值种类化的方法。由此,例如,除了现有技术也能够提取的具体的1个属性值间的相关规则外,也能够无需人工而自动地生成由多个属性值构成的种类间的相关规则,并向专利技术的利用者提供。 用于解决课题的手段 为了实现上述目的,采用了例如下述的结构。 一种数据库分析装置,其具有相关规则分析单元,所述相关规则分析单元用于着眼于数据库所保持的多个表格中的构成表格的2个以上的表格栏,根据各表格栏所保持的数据同时出现的倾向,来分析表格栏间存在的依存关系或制约条件,即表格栏的数据同时发生的概率,所述数据库分析装置具有数据种类计算单元,其根据由多个表格栏的数据组生成的相关规则来计算数据组的种类化方法;相关规则再构成单元,其基于所述种类化结果,来再构成相关规则,由此,生成最佳粒度的相关规则,即,为了使同时发生的概率为约100%而再构成规则。 其结果,在本专利技术中,将各个相关规则进行组合来提取同时发生的概率为100%的相关规则。 专利技术效果 根据本专利技术,没有关于数据库的知识也能够分析该数据库所保持的数据,并生成表格栏间的相关规则,而不限于I个属性值间的相关规则。由此,例如,本专利技术的利用者能够取得关于表格栏间存在的多个属性值间的依存关系或制约条件的信息。 【专利附图】【附图说明】 图1是表示数据库分析装置的结构图的例子的图。 图2是表示说明数据库分析装置的处理的流程图的例子的图。 图3是表示说明从数据库读入的表格数据的图表的例子的图。 图4A是说明根据表格数据生成相关规则的处理的前半部分的图表的例子。 图4B是说明根据表格数据生成相关规则的处理的前半部分的图表的例子。 图5是表示说明根据表格数据生成相关规则的处理的后半部分的图表的例子的图。 图6是表不嵌入了支持度和可信度的相关规则表的图表的例子的图。 图7是表示对根据计算完的相关规则来计算属性值的相似性的处理进行说明的图表的例子的图。 图8是表示对将相似性高的属性值归结为同一种类的处理进行说明的图表的例子的图。 图9是表示对将相似性高的属性值归结为同一种类后的结果进行说明的图表的例子的图。 图10是表示对再构成相关规则的处理进行说明的图表的例子的图。 图11是表示对选定可信度高的相关规则的处理进行说明的图表的例子的图。 图12是表示对将数据模式高可信度相关规则转换为视觉上容易理解的形式的处理进行说明的图表的例子的图。 符号说明 100:数据库分析装置、101:CPU、102:存储器、103:输入装置、104:输出装置、105:外部存储装置、106:表格数据存储部、107:暂定相关规则存储部、108:数据种类存储部、109:高可信度相关规则存储部、110:处理程序、111:相关规则生成处理部、112:数据种类计算处理部、113:相关规则再构成处理部、114:不必要规则去除处理部、115:相关规则视觉化处理部 【具体实施方式】 以下,利用附图来说明实施例。 本实施例中,说明数据库分析装置的例子。 图1是本实施例的数据库分析装置的结构图的例子。 数据库分析装置100具有:0^101、存储器102、输入装置103、输出装置104、外部存储装置105。外部存储装置105保存有表格数据存储部106、暂定相关规则存储部107、数据种类存储部108、高可信度相关规则存储部109,并且保存有处理程序110。处理程序110保存有:相关规则生成处理部111、数据种类计算处理部112、相关规则再构成梳理部113、不必要规则去除处理部114、相关规则视觉化处理部115。 处理程序110在实行时被读入到存储器102中,并通过0^101来执行。 经由输入装置103从外部输入的数据库的表格数据,被写入到表格数据存储部106中。相关规则生成处理部111通过一边参照从表格数据存储部106读出的数据库的数据,一边计数各数据(及其组合)的出现次数,并进行算术处理,来生成相关规则并写入到暂定相关规则存储部107中。数据种类计算处理部112参照从暂定相关规则存储部107读出的相关规则,决定构成相关规则的属性值的种类化方法,并写入到数据种类存储部108中。相关规则再构成处理部113从暂定相关规则存储部107中读出相关规则,并一边参照从数据种类存储部108读出的属性值种类化方法,一边对相关规则进行再计算,并写入到暂定相关规则存储部107中。不必要规则去除处理部114从暂定相关规则存储部107读出相关规则,仅选定可信度比阈值高的相关规则,并写入到高可信度相关规则存储部109中。相关规则视觉化处理部115从高可信度相关规则存储部109读出相关规则,并在转换为视觉上容易理解的形式之后,输出到输出装置104。 图2是说本文档来自技高网...
【技术保护点】
一种数据库分析装置,其用于着眼于数据库所保持的多个表格中的构成表格的2个以上的表格栏,根据各表格栏所保持的数据同时出现的倾向,来自动地分析表格栏间存在的依存关系或制约条件,所述数据库分析装置的特征在于,具有:数据种类计算单元,其根据由多个表格栏的数据组生成的相关规则来计算数据组的种类化方法;以及相关规则再构成单元,其基于所述种类化结果来再构成相关规则,由此,生成最佳粒度的相关规则。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:桥本康范,三部良太,吉村健太郎,团野博文,大岛敬志,石川贞裕,山口洁,
申请(专利权)人:株式会社日立制作所,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。