提供了用于建模数据生成过程的方法和系统。该方法包括生成包括表示先验分布和采样分布的一对概率函数的二元贝叶斯模型,以及基于该二元贝叶斯模型使用观察到的数据来建模数据生成过程。
【技术实现步骤摘要】
【国外来华专利技术】建模数据生成过程
本申请涉及建模数据生成。
技术介绍
概率编程语言系统提供机器学习算法的自动生成。用户可写通常嵌入在更大的常规程序中的短的概率程序,并且系统可产生用于学习由概率程序给予的分布的算法。因此,概率编程与手动写推断算法的替换方案相比节约了开发成本。此外,概率编程比依赖于特定任务的固定算法的替换方案更灵活,因为具有略微不同结构的模型变体可被容易地写。然而,概率编程的当前实践是低级别的、不规则的,且非结构化的。概率程序可表示贝叶斯模型,但是它们通常缺乏用于定义参数、预测输出和观察数据的结构。这样的结构的缺失阻止了用于执行标准任务(诸如训练、参数学习,和预测)的代码的重用。此外,缺乏用于构建混合模型、执行模型选择或实现其它重复的概率模式的结构。因此,可能希望以包括已定义结构的通用格式写贝叶斯模型。
技术实现思路
下面呈现了本专利技术的简化概述,以便提供此处所描述的某些方面的基本概念。此概述不是所要求保护的主题的详尽的概述。既不是要标识所要求保护的主题的要点或关键性元素,也不是要详细描述本专利技术的范围。唯一的目的是以简化形式呈现所要求保护的主题的某些概念,作为稍后呈现的比较详细的描述的前奏。一实施例提供了一种用于建模数据生成过程的方法。该方法包括生成包括表示先验分布和采样分布的一对概率函数的二元贝叶斯模型,以及基于该二元贝叶斯模型使用观察到的数据来建模数据生成过程。另一实施例提供了一种用于建模数据生成过程的系统。该系统包括适于执行所存储的指令的处理器和系统存储器。该系统存储器包括被配置成生成包括表示先验分布和采样分布的一对概率函数、采样器对象和学习器对象的二元贝叶斯模型的代码。该系统存储器还包括被配置成用于基于观察到的数据用学习器对象训练二元贝叶斯模型以产生经训练的二元贝叶斯模型的代码。该系统存储器还包括被配置成用于基于经训练的二元贝叶斯模型生成诸参数之上的后验分布、基于该后验分布生成后验预测分布,并使用后验预测分布来预测可观察的变量的分布的代码。此外,另一个实施例提供包括指令的一个或多个计算机可读存储介质,当指令被处理器执行时致使该处理器生成包括一对概率函数的二元贝叶斯模型,概率函数表示来自一个或多个先前使用模型组合符生成的二元贝叶斯模型的先验分布和采样分布。指令还使得该处理器根据该二元贝叶斯模型通过变换数据来建模数据生成过程。下面的描述和附图详细地阐述了所要求保护的主题的某些说明性方面。然而,这些方面只是表示可以使用本专利技术的原理的各种方式中的一些方式,并且所要求保护的主题旨在包括所有这些方面和等效内容。通过与附图一起阅读下面的本专利技术的详细描述,所要求保护的主题的其他优点和新颖的特点将变得显而易见。附图说明图1是用于建模数据生成过程的系统和方法可以在其中实现的联网环境的框图;图2是可以被用来实现用于建模数据生成过程的系统和方法的计算环境的框图;图3是用于建模数据生成过程的方法的过程流程图;以及图4是用于建模数据生成过程的系统的框图。具体实施方式概述贝叶斯模型包括一对概率分布,被称为先验分布和采样分布。对于通用贝叶斯模型,项y可表示模型的输出,它可以是要被预测或观察的对象,而项x可以表示模型以其为条件的任何输入信息,诸如分类或回归中的特征向量。项w可表示模型的参数,而项h可表示模型的超参数。贝叶斯模型可包括两个条件概率分布。具体而言,贝叶斯模型可包括参数上的先验分布即p(w|h),和输出上的采样分布即p(y|x,w)。给定一组练习数据d=(x,y),贝叶斯的规则表达可被获取,用于计算后验分布p(w|d,h)和后验预测分布p(y’|x’,d,h),假设(x’,y’)独立于(x,y)并且和(x,y)一样分布。这个贝叶斯模型表示各种各样的机器学习任务。还有许多用于概率推断的机器学习算法,即用于近似计算后验分布p(w|d,h)并用于使用后验预测分布p(y’|x’,d,h)来进行预测。在此描述的各实施例涉及新的概率编程抽象,称为“二元贝叶斯模型”,它是用于先验分布和采样分布的一对概率函数。模型的采样器对象,即采样器,是用于从模型计算综合数据的算法,而模型的学习器对象,即学习器,是用于模型上的概率推断的算法。模型、采样器和学习器支持常见任务的统一表达,诸如模型测试、混合模型创建,和基于证据的模型选择。根据在此描述的各实施例,贝叶斯模型由通用类型即Model<TH,TW,TX,TY>表示,以提供针对概率编程应用的添加的结构和代码重用。这样的二元贝叶斯模型包括用于先验和采样分布的一对概率函数。在一些实施例中,默认的超参数可与先验和采样分布一起打包作为模型的一部分。类型参数,即TH,TW,TX,TY,对应于贝叶斯模型的构成。具体而言,类型参数TH对应于超参数h,而类型参数TW对应于参数w。此外,类型参数TX对应于输入x,而类型参数TY对应于输出y。构建贝叶斯模型的常见模式可被写为在这样的二元贝叶斯模型上的函数。例如,给定任何贝叶斯模型,采样器对象和学习器对象可被获取。采样器对象可包括用于为测试目的从先验和采样分布中抽取样本的通用技术。学习器对象可包括用于在给定数据上进行训练的通用技术以及用于计算模型的后验分布和后验预测分布的通用技术。作为预备事项,一些附图在一个或多个结构组件(被称为功能、模块、特征、元素等)的上下文中来描述概念。附图中示出的各种组件能够以任何方式来实现,例如,通过软件、硬件(例如,分立的逻辑组件等等)、固件等等,或这些实现的任何组合。在一个实施例中,各个组件可以反映对应的组件在实际实现中的使用。在其他实施例中,附图中所示出的任何单个组件可由多个实际组件来实现。对附图中的任何两个或更多单独的组件的描绘可以反映由单个实际组件所执行的不同的功能。以下讨论的图1提供了关于可用于实现附图中所示的各功能的一个系统的细节。其他附图以流程图形式描述了概念。以此形式,某些操作被描述为构成以某一顺序执行的不同的框。这样的实现是示例性的而非限制性的。此处描述的某些框可被分组在一起并在单个操作中执行,某些框可被分成多个组成框,并且某些框可以按与此处所示出的不同的次序来执行(包括以并行方式执行这些框)。流程图中示出的框可以通过软件、硬件、固件、手动处理等等或这些实现的任何组合来实现。如此处所使用的,硬件可以包括计算机系统、诸如专用集成电路(ASIC)之类的分立逻辑组件等以及它们的任意组合。关于术语,短语“被配置成”涵盖可以构造任何类型的结构组件来执行所标识的操作的任何方式。结构组件可以被配置成使用软件、硬件、固件等或其任意组合来执行操作。术语“逻辑”涵盖用于执行任务的任何功能。例如,流程图中所示出的每一操作对应于用于执行该操作的逻辑。操作可以使用软件、硬件、固件等或其任意组合来执行。如在此使用的,术语“组件”、“系统”、“客户机”等旨在指代计算机相关的实体,它们可以是硬件、(例如,执行中的)软件和/或固件、或其组合。例如,组件可以是,在处理器上运行的进程、对象、可执行码、程序、函数、库、子例程,和/或计算机或软件和硬件的组合。作为说明,在服务器上运行的应用和服务器两者都可以是组件。一个或多个组件可以驻留在进程中,并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。此外,所要求保护的主题可以使用产生控本文档来自技高网...
【技术保护点】
一种用于建模数据生成过程的方法,包括:生成包括表示先验分布和采样分布的一对概率函数的二元贝叶斯模型;以及使用观察到的数据基于所述二元贝叶斯模型来建模数据生成过程。
【技术特征摘要】
【国外来华专利技术】2012.10.08 US 13/646,7391.一种用于建模数据生成过程的方法,包括:生成包括表示先验分布和采样分布的一对概率函数的二元贝叶斯模型;以及使用观察到的数据基于所述二元贝叶斯模型来建模数据生成过程,包括:生成用于所述二元贝叶斯模型的学习器对象;用所述学习器对象基于观察到的数据训练所述二元贝叶斯模型以产生经训练的二元贝叶斯模型;基于经训练的二元贝叶斯模型,生成参数上的后验分布;基于所述后验分布生成后验预测分布;以及基于所述后验预测分布预测可观察变量的结果。2.如权利要求1所述的方法,其特征在于,包括:生成用于所述二元贝叶斯模型的采样器对象;以及使用所述采样器对象,通过计算所述二元贝叶斯模型的综合数据并使用所述综合数据来判断所述后验分布或所述后验预测分布的准确性来测试所述学习器对象。3.如权利要求1所述的方法,其特征在于,包括基于一个或多个使用模型组合符先前生成的二元贝叶斯模型生成新二元贝叶斯模型。4.如权利要求1所述的方法,其特征在于,包括通过计算对应于所述二元贝叶斯模型的先验函数的概率密度函数来生成先验分布。5.如权利要求1所述的方法,其特征在于,包括通过计算对应于所述二元贝叶斯模型的生成函数的概率密度函数来生成采样分布。6.如权利要求1所述的方法,其特征在于,包括通过计...
【专利技术属性】
技术研发人员:A·D·高登,T·格雷佩,A·诺日,S·拉贾马尼,J·伯格斯特姆,
申请(专利权)人:微软公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。