本申请公开了一种用于多模型系统中的模型融合的数据处理装置和数据处理方法,该数据处理装置包括:特征空间划分单元,被配置为将待测数据集的特征空间分割为多个特征空间划分,以使得该特征空间划分对于多个模型中的至少一个模型而言是优化的;融合单元,被配置为基于训练数据集获得特征空间上的至少由多个模型的子集融合得到的融合模型,其中,融合单元以特征空间划分为单位来获得新特征空间划分模式,同时针对新特征空间划分模式以及各个新特征空间划分使用的、作为多个模型的子集的模型子集两者进行优化,以获得针对整个特征空间的融合模型的整体最佳性能。
【技术实现步骤摘要】
本申请的实施例涉及数据处理领域,具体地涉及用于多模型系统中的模型融合的数据处理装置和数据处理方法。
技术介绍
随着社会的进步,信息技术也在飞速发展,如何高效地处理海量的信息变得尤为重要,机器学习技术在其中起到了重要的作用。机器学习是一门多领域交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。而多模型融合则是机器学习中的热门研究方向,多模型融合是使用一系列模型进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个模型更好的学习效果的一种机器学习方法。模型融合的方法有很多种,从模型角度分有同质模型融合和异质模型融合。同质模型融合是指被融合的多个模型都是同一类型的,比如多个神经网络的融合、多个决策树的融合。异质模型融合是指被融合的多个模型不属于同一类型,比如将神经网络、最大熵、决策树等模型进行融合。从模型的拓扑结构上看有串行和并行方式,串行的方式是多个模型以串行的方式连接,前一个模型的输出作为后一个模型的输入,由最后的模型给出系统的最终结果。并行的方式是指多个模型都使用系统的输入进行训练,各自输出结果,系统将多个模型的结果统合以后给出最终的结果。从处理方式上看有在特征上进行融合的还有在结果上进行融合。在结果上进行融合的方法只处理模型输出的结果,通过某种方式将其融合起来。而在特征上进行融合的方法则将特征空间进行细分,并针对不同的特征空间采用不同的模型来处理。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。根据本专利技术的一个方面,提供了一种用于多模型系统中的模型融合的数据处理装置,包括:特征空间划分单元,被配置为将待测数据集的特征空间分割为多个特征空间划分,以使得该特征空间划分对于多个模型中的至少一个模型而言是优化的;以及融合单元,被配置为基于训练数据集获得特征空间上的至少由多个模型的子集融合得到的融合模型,其中,融合单元以特征空间划分为单位来获得新特征空间划分模式,同时针对新特征空间划分模式以及各个新特征空间划分使用的、作为多个模型的子集的模型子集两者进行优化,以获得针对整个特征空间的融合模型的整体最佳性能。根据本专利技术的另一个方面,提供了一种用于多模型系统中的模型融合的数据处理方法,包括:将待测数据集的特征空间分割为多个特征空间划分,以使得该特征空间划分对于多个模型中的至少一个模型而言是优化的;以及基于训练数据集获得特征空间上的至少由多个模型的子集融合得到的融合模型,其中,以所述特征空间划分为单位来获得新特征空间划分模式,同时针对新特征空间划分模式和各个新特征空间划分使用的、作为多个模型的子集的模型子集两者进行优化,以获得针对整个特征空间的融合模型的整体最佳性能。依据本专利技术的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。根据本申请的数据处理装置和数据处理方法通过以特征空间划分为单位来获得新特征空间划分模式,并且针对新特征空间划分模式和各个新特征空间划分使用的模型子集进行优化,可以获得最优的特征空间划分和基于该划分的模型子集的最优组合。通过以下结合附图对本专利技术的优选实施例的详细说明,本专利技术的这些以及其他优点将更加明显。附图说明为了进一步阐述本申请的以上和其它优点和特征,下面结合附图对本申请的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本申请的典型示例,而不应看作是对本申请的范围的限定。在附图中:图1是示出了根据本申请的一个实施例的数据处理装置的结构框图;图2是示出了特征空间划分的一个示意性示例;图3是示出了根据本申请的一个实施例的特征空间划分单元的结构框图;图4是示出了根据本申请的一个实施例的训练数据集的特征分布和待测数据集的特征分布的对比的示例的示意图;图5是示出了根据本申请的一个实施例的调整模块的结构框图;图6是示出了根据本申请的一个实施例的融合单元的结构框图;图7是示出了根据本申请的一个实施例的数据处理方法的流程图;图8是示出了图7的方法中的步骤S11的子步骤的流程图;图9是示出了图8的方法中的步骤S114的子步骤的流程图;图10是示出了图7的方法中的步骤S12的子步骤的流程图;以及图11是其中可以实现根据本专利技术的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本专利技术的方案密切相关的设备结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。下文中的描述按如下顺序进行:1.数据处理装置2.数据处理方法3.用以实施本申请的装置和方法的计算设备[1.数据处理装置]首先参照图1描述根据本申请的实施例的用于多模型系统中的模型融合的数据处理装置100,包括:特征空间划分单元101,被配置为将待测数据集的特征空间分割为多个特征空间划分,以使得该特征空间划分对于多个模型中的至少一个模型而言是优化的;以及融合单元102,被配置为基于训练数据集获得特征空间上的至少由多个模型的子集融合得到的融合模型,其中,融合单元102以特征空间划分为单位来获得新特征空间划分模式,同时针对新特征空间划分模式以及各个新特征空间划分使用的、作为多个模型的子集的模型子集两者进行优化,以获得针对整个特征空间的融合模型的整体最佳性能。如前所本文档来自技高网...
【技术保护点】
一种用于多模型系统中的模型融合的数据处理装置,包括:特征空间划分单元,被配置为将待测数据集的特征空间分割为多个特征空间划分,以使得该特征空间划分对于多个模型中的至少一个模型而言是优化的;以及融合单元,被配置为基于训练数据集获得所述特征空间上的至少由所述多个模型的子集融合得到的融合模型,其中,所述融合单元以所述特征空间划分为单位来获得新特征空间划分模式,同时针对所述新特征空间划分模式以及各个新特征空间划分使用的、作为所述多个模型的子集的模型子集两者进行优化,以获得针对整个特征空间的融合模型的整体最佳性能。
【技术特征摘要】
1.一种用于多模型系统中的模型融合的数据处理装置,包括:
特征空间划分单元,被配置为将待测数据集的特征空间分割为多个特
征空间划分,以使得该特征空间划分对于多个模型中的至少一个模型而言
是优化的;以及
融合单元,被配置为基于训练数据集获得所述特征空间上的至少由所
述多个模型的子集融合得到的融合模型,其中,所述融合单元以所述特征
空间划分为单位来获得新特征空间划分模式,同时针对所述新特征空间划
分模式以及各个新特征空间划分使用的、作为所述多个模型的子集的模型
子集两者进行优化,以获得针对整个特征空间的融合模型的整体最佳性
能。
2.根据权利要求1所述的数据处理装置,其中,所述融合单元被配
置为使用遗传算法来进行所述优化。
3.根据权利要求1或2所述的数据处理装置,其中,所述融合单元
包括:
权重设置模块,被配置为针对当前特征空间划分模式,基于各个模型
在训练数据集上的性能确定相应模型的权重;
总分值计算模块,被配置为基于所述权重,使用所述模型子集中的各
个模型对每个样本分类获得的分值来计算该样本属于某一类别的总分值;
以及
分类模块,被配置为将最大的总分值对应的类别作为使用该模型子集
对该样本处理获得的结果。
4.根据权利要求3所述的数据处理装置,其中,所述权重设置模块
还被配置为将所述性能低于一定阈值的模型的权重设置为0。
5.根据权利要求1或2所述的数据处理装置,其中,所述融合单元
将基于所述新特征空间划分模式和各个新特征空间划分使用的模型子集
对训练数据集进行处理所获得的结果的正确率作为优化目标函数。
6.根据权利要求1或2所述的数据处理装置,其中,所述特征空间
划分单元包括:
伪标签获取模块,被配置为使用所述多模型系统中不同于目标模型的
\t模型作为校准模型对待测数据集进行处理,并将处理的结果作为伪标签...
【专利技术属性】
技术研发人员:夏迎炬,孙健,侯翠琴,杨铭,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。