实施方式的数据分析支援装置具备变量类型判断单元(11)、变量变动生成单元(14)以及变量贡献率判断单元(17)。所述变量类型判断单元针对所述各变量,判断表示变量的类型的变量类型。所述变量变动生成单元基于判断出的所述变量类型、以及预先按照不同变量类型规定了变量的变动的生成方法的变量变动规则,来生成所述各变量的变动。所述变量贡献率判断单元计算出所生成的所述变动对所述目标变量的贡献率,并基于该贡献率判断是采用该变动还是删除该变动。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术的实施方式涉及一种数据分析支援装置。
技术介绍
在从收集的数据提取知识的过程中,为了高效地获得较高精度的分析结果,使用对输入到分析算法的输入数据集(分析数据集)的生成进行支援的数据分析支援装置。关于这种数据分析支援装置,已知有固定地使用预先准备的合成单元(变换式)来合成分析对象的数据中的说明变量中的一个以上的说明变量而生成新的说明变量的方式。在该方式中,重复选择已生成的说明变量集中的、分析的精度较高的说明变量,来提高分析精度。而且,在该方式中,尝试多个已设定的全部合成单元而选择最佳的说明变量的组合,提高分析精度。现有技术文献专利文献专利文献1:日本特开2000 - 20504号公报专利文献2:日本特开平11 - 328255号公报
技术实现思路
专利技术要解决的问题然而,以上那种方式由于固定地使用合成单元(变换式),所以对任何变量(组)中都应用相同的合成单元。因此,在该方式中,存在不能动态确定适合各变量的合成单元的不良情况。本专利技术要解决的问题在于提供一种能够与变量相应地应用不同的变换式来生成变量的数据分析支援装置。用于解决问题的手段实施方式的数据分析支援装置从具有目标变量与作为针对所述目标变量的说明变量的候选的各变量在内的分析对象数据生成所述各变量的变动(variat1n),从而支援所述分析对象数据的分析。所述数据分析支援装置具备变量类型判断单元、变量变动生成单元以及变量贡献率判断单元。所述变量类型判断单元针对所述各变量判断表示变量的类型的变量类型。所述变量变动生成单元基于判断出的所述变量类型、以及预先按照不同变量类型规定了变量的变动的生成方法的变量变动规则,来生成所述各变量的变动。所述变量贡献率判断单元计算出所生成的所述变动对所述目标变量(objectivevariable)的贡献率,并基于该贡献率判断是采用该变动还是删除该变动。【附图说明】图1是表示一实施方式的数据分析支援装置的结构的示意图。图2是表示该实施方式中的事务量数据的一个例子的示意图。图3是表示该实施方式中的汇兑数据的一个例子的示意图。图4是表示该实施方式中的气象数据的一个例子的示意图。图5是用于说明该实施方式中的地域码的示意图。图6是表示该实施方式中的店铺数据的一个例子的示意图。图7是表示该实施方式中的结合完成数据的一个例子的示意图。图8是表示该实施方式中的针对时间类型的变量的变量变动规则的一个例子的示意图。图9是表示该实施方式中的针对空间类型的变量的变量变动规则的一个例子的示意图。图10是用于说明该实施方式中的动作的流程图。图11是用于说明该实施方式中的步骤S2的详细情况的流程图。图12是用于说明该实施方式中的步骤S4的详细情况的流程图。图13是用于说明该实施方式中的步骤S6的详细情况的流程图。图14是用于说明该实施方式中的步骤S7的详细情况的流程图。图15是表示该实施方式中的生成中途的变动的一个例子的示意图。图16是表示该实施方式中的生成中途的变动的一个例子的示意图。图17是表示该实施方式中的生成中途的变动的一个例子的示意图。图18是表示该实施方式中的生成中途的变动的一个例子的示意图。图19是表示该实施方式中的生成中途的变动的一个例子的示意图。图20是表示该实施方式中的生成中途的变动的一个例子的示意图。图21是表示该实施方式中的生成中途的变动的一个例子的示意图。图22是表示该实施方式中的生成中途的变动的一个例子的示意图。图23是表示该实施方式中的时间类型的变动的值的计算方法的示意图。图24是表示该实施方式中的空间类型的变动的值的计算方法的示意图。【具体实施方式】以下,使用【附图说明】一实施方式。此外,以下的数据分析支援装置能够通过硬件结构、或者硬件资源与软件的组合结构中的任意一者来实施。作为组合结构的软件,使用预先从网络或者非暂时性的计算机可读取存储介质(non-transitory computer-readablestorage medium,非暂时性计算机可读存储介质)安装到计算机中且由该计算机的处理器执行、从而用来使该计算机实现数据分析支援装置的功能的程序。图1是表示一实施方式的数据分析支援装置的结构的示意图。数据分析支援装置根据具有目标变量与作为针对该目标变量(objective variable)的说明变量的候选的各变量在内的分析对象数据,生成该各变量的变动(variat1n),从而支援分析对象数据的分析。具体而言,数据分析支援装置具备变量类型判断部11、预处理部12、规则变更部13、变量变动生成部14、分析执行部15、分析结束判断部16以及变量贡献率判断部17、收集数据保管部21、变量变动规则保管部22,分析数据集保管部23以及分析结果保管部24。这里,变量类型判断部11将预先收集以及保管在收集数据保管部21内的分析对象数据作为输入而取入,判断分析对象数据中的各变量的变量类型。补充来说,变量类型判断部11针对该各个变量,判断表示该变量的类型(种类)的变量类型。例如,变量类型判断部11针对该各变量,判断属于与时间相应地变化的时间类型以及与空间上的位置相应地变化的空间类型中的哪种变量类型。另外,针对不能判断的变量,变量类型判断部11通过消息的输出等催促用户进行变量的判断。预处理部12基于由变量类型判断部11判断的变量类型,对于各变量执行通常的预处理,并将进行预处理后的分析对象数据送出至变量变动生成部14。作为预处理,例如能够适当使用缺失值处理、噪声处理以及标准化处理(单位变换、表述不一致的统一等)。其中,预处理部12是任意的附加事项,也可以省略。规则变更部13是为了增加变量的变动而变更按照每个变量的类型定义的变量变动规则的界面。补充来说,规则变更部13根据输入的规则变更指示,变更变量变动规则保管部22内的变量变动规则。变量变动生成部14将变量变动规则应用于各变量,增加(或者减少)变量的变动。补充来说,变量变动生成部14基于由变量类型判断部11判断的变量类型、以及预先按照不同变量类型规定了变量的变动的生成方法的变量变动规则,生成各变量的变动。利用变量变动生成部14将生成的变动以及分析对象数据写入分析数据集保管部23中。另外,变量变动生成部14若从变量贡献率判断部17接收表示采用该变动还是删除该变动的判断结果,则基于该判断结果生成各变量的变动。关于分析数据集保管部23内的变动以及分析对象数据,分析执行部15使用分析模型/算法执行分析,并将分析结果写入分析结果保管部24中。此外,也将变动与分析对象数据的组称作分析数据。在分析执行部15重复进行分析的过程中,分析结束判断部16通过比较分析结果保管部24内的上次的分析结果与当次的分析结果,来判断是否继续分析,只要当次的分析结果的精度优于上次的情况下,就获得继续分析的判断结果。在除此以外的情况下(精度无变动的情况下或者当次的精度差于上次的情况下),分析结束判断部16获得结束分析的判断结果。此外,作为分析结果的精度,例如使用通常作为分析模型/算法的精度而计算出的值。另外,分析结束判断部16在获得继续分析的判断结果情况下将变量贡献率判断部17起动。分析结束判断部16在获得结束分析的判断结果的情况下结束处理。关于分析数据集保管部23内的变动以及分析对象数据,变量贡本文档来自技高网...
【技术保护点】
一种数据分析支援装置,其特征在于,根据具有目标变量与作为针对所述目标变量的说明变量的候选的各变量在内的分析对象数据,生成所述各变量的变动,从而支援所述分析对象数据的分析,该数据分析支援装置具备:变量类型判断单元(11),针对所述各变量,判断表示变量的类型的变量类型;变量变动生成单元(14),基于判断出的所述变量类型、以及预先按照不同变量类型规定了变量的变动的生成方法的变量变动规则,来生成所述各变量的变动;以及变量贡献率判断单元(17),计算出所生成的所述变动对所述目标变量的贡献率,并基于该贡献率,判断是采用该变动还是删除该变动。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:江川诚二,矶部庄三,樱井茂明,西一嘉,松本茂,早川留美,
申请(专利权)人:株式会社东芝,东芝解决方案株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。