用神经网络处理多样数据集以生成用于预测目标度量的合成数据集的系统和方法技术方案

技术编号:30498110 阅读:25 留言:0更新日期:2021-10-27 22:29
一种计算机系统包括一个或多个用户输入适配器,其被配置为接收输入数据集、目标度量和指示要生成的合成数据集的期望数量的参数。存储器存储指令和数据,所述数据包括输入数据集、目标度量、指示合成数据集的期望数量的参数、以及神经网络。神经网络包括求和节点和多个处理节点。个处理节点。个处理节点。

【技术实现步骤摘要】
【国外来华专利技术】用神经网络处理多样数据集以生成用于预测目标度量的合成数据集的系统和方法
[0001](一篇或多篇)相关申请的(一项或多项)交叉引用本申请要求于2020年1月16日提交的美国专利申请号16/744,236和于2019年1月16日提交的美国临时专利申请62/792,937的优先权,特此通过引用并入其全部内容。
[0002]技术概述本文描述的技术涉及从多样的数据生成合成数据集。更特别地,该技术涉及自动生成对于预测目标度量有用的合成数据集,该合成数据集使用神经网络从多样的数据集中导出。
[0003]介绍现代社会生成大量多样的数据。数据可以从天气数据(例如,温度)变化到交通数据(例如,给定道路上的汽车量)、到服务呼叫数据(例如,收到的呼叫数量)、到财务数据(例如,股票价格)、到电力消耗数据,以及到许多其他形式的数据。寻找多样类型的数据与目标问题(例如,预测飓风)之间的关联性或联系在现代社会中可以是有价值的。
[0004]然而,在大量多样的数据输入当中寻找关联性由于组合爆炸而是一个困难且具有挑战性的技术问题,所述关联性可以提供有用的新数据度量,例如,用于定量评估、控制和/或选择诸如过程、事件或机构之类的某物。例如,给定数百或数千个不同的数据集(每个数据集包含许多不同的值),可能的数据集组合的数量简直太大而无法处理。此外,在所有可能的数据集组合中,仅一个子集可能有用。但是,不存在高效且准确地标识有用的数据集子集的数据处理系统或技术。另一个技术问题是,当数据处理系统可以生成新的数据集时,那些新的数据集将很可能对于人类来说是不可理解的,并且因此,合成数据集的有用性对于人类来说可能是不清楚的。
[0005]因此,将领会,在这些和其他
中,不断寻求新的和改进的技术、系统和过程。

技术实现思路

[0006]一种计算机系统包括一个或多个用户输入适配器,其被配置为接收输入数据集、目标度量和指示要生成的合成数据集的期望数量的参数。存储器存储指令和数据,所述数据包括输入数据集、目标度量、指示合成数据集的期望数量的参数、以及神经网络。神经网络包括求和节点和多个处理节点。至少一个硬件处理器被配置为执行操作,所述操作包括每个处理节点:处理输入数据集,包括用对应的输入权重值对输入数据集值进行加权以产生加权输入数据集值;确定选通运算以选择处理运算;以及通过将选通处理运算应用于加权输入数据集值来生成节点输出。用节点输出权重值对节点输出进行加权,以产生加权节点输出。来自多个处理节点的加权输出在神经网络中的求和节点中被组合,以产生目标参数的值。
[0007]所述至少一个硬件处理器被配置为执行另外的操作,其包括通过修改选通处理运算、输入权重值和节点输出权重值来迭代训练神经网络,直到神经网络在目标参数的收敛
目标值处达到收敛状态。当神经网络达到收敛状态时,硬件处理器被配置为选择多个处理节点中具有较大量值节点输出权重值的一个或多个节点。
[0008]对于每个所选处理节点,从用作具有较大量值输入数据集权重值的对应所选处理节点的输入的输入数据集当中选择输入数据集中的多个数据集。此外,对于每个所选处理节点,选择选通处理运算的子集。所有这些选择都显著增加了神经网络的数据处理速度及其输出的有用性。
[0009]所述至少一个硬件处理器然后被配置为利用所选处理节点使用选通运算的所选子集来处理所选输入数据集值,以产生一个或多个合成数据集。硬件处理器被配置为基于所选输入数据集的名称和选通运算的所选子集,为所述一个或多个合成数据集中的每一个生成人类可理解名称。
[0010]硬件处理器被配置为在一个或多个数据库中存储一个或多个组合数据集和一个或多个组合数据集的人类可理解名称,和/或向用户设备提供一个或多个组合数据集的输出和一个或多个组合数据集的人类可理解名称。
[0011]提供本
技术实现思路
是为了介绍下面在具体实施方式中进一步描述的概念选择。本
技术实现思路
既不意图标识所要求保护的主题的关键特征或必要特征,也不用于限制所要求保护的主题的范围;而是,本
技术实现思路
意图提供本文档中描述的主题的概述。因此,将领会,上述特征仅仅是示例,并且根据以下具体实施方式、附图说明和权利要求,本文所述主题的其他特征、方面和优点将变得清楚。
附图说明
[0012]通过结合如下各附图参考以下对示例非限制性的说明性实施例的详细描述,将更好和更完整地理解这些和其他特征和优点:图1是根据某些示例实施例的示例计算机系统图;图2A

2B是示出了根据某些示例实施例的示例计算机实现的过程的流程图;图3图示了根据某些示例实施例的示出神经网络以及解释器模块的功能模块的子系统图;图4是图示了根据某些示例实施例的与在神经网络的处理节点中使用的传统sigmoid函数相比的硬sigmoid函数的图形;图5是图示了神经网络权重的三个L型正则化的图形;图6是图示了根据示例实施例的用于处理输入数据集以训练并且然后修整神经网络的示例处理函数和数据流的图;图7是图示了根据示例实施例的用于在训练神经网络之后,处理输入数据集以确定最显著的输入数据集的示例处理函数和数据流的图;图8是图示了根据示例实施例的用于对特定联邦储备数据的示例应用中的示例数据集的表格;图9是图示了根据示例实施例的在联邦储备数据示例应用的上下文中输入数据集和多个合成输出数据集的示例用户定义的表格;图10是图示了根据示例实施例的根据联邦储备数据示例应用的示例合成数据集和合成数据集的人类可读名称的表格;
图11是图示了根据示例实施例的基于联邦储备数据示例应用的用户定义的神经网络的示例设计的图;图12是图示了根据示例实施例的图11中的神经网络在训练之后的示例的图,其中为联邦储备数据示例应用选择具有最大量值权重的某些处理节点;图13是图示了根据示例实施例的使用图11和12中的神经网络的示例的图,其中为联邦储备数据示例应用选择具有最大量值权重的某些输入数据集;图14是图示了根据示例实施例的图11中的神经网络在训练之后的示例的图,其中为联邦储备数据示例应用选择用于所选处理节点之一的数学运算符的子集;图15是图示了根据示例实施例的在联邦储备数据示例应用中对合成数据集的人类可理解名称进行合成的示例的图;以及图16示出了可以在一些实施例中用于实现本文描述的特征的示例计算系统。
具体实施方式
[0013]在以下描述中,出于解释而非限制的目的,阐述了诸如特定节点、功能实体、技术、协议等具体细节,以便提供对所描述技术的理解。对于本领域技术人员而言将清楚的是,除了下面描述的具体细节之外可以实践其他实施例。在其他实例中,为了不使描述因不必要的细节模糊不清,省略对众所周知的方法、设备、技术等的详细描述。
[0014]在本具体实施方式中使用的章节仅仅是为了使读者了解每个章节的一般主题;如下面将看到的,许多特征的描述跨越多个章节,并且标题不应当被解读为影响任何章节中包括的描述的含义。
[0015]概述某些示例实施例涉及一种计算机系统,该计算机系统包括一个或多个用户输入适配器,该用户输入适配器被配置为接收输入数据集、目标度量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机系统,包括:一个或多个用户输入适配器,被配置为接收输入数据集、目标度量和指示要生成的合成数据集的数量的参数;存储器,被配置为存储输入数据集、目标度量、指示合成数据集的数量的参数、以及神经网络,其中神经网络包括求和节点和多个处理节点;至少一个硬件处理器,被配置为执行操作,所述操作包括:在神经网络中的多个处理节点的每个处理节点处:(i)处理输入数据集,其中处理输入数据集包括用对应的输入权重值对输入数据集值进行加权以产生加权输入数据集值,确定选通运算以选择处理运算,以及通过将选通运算应用于加权输入数据集值来生成节点输出,和(ii)用节点输出权重值对节点输出进行加权,以产生加权节点输出;以及在神经网络中的求和节点处:组合来自多个处理节点的加权输出,以产生目标参数的值;通过修改选通运算、输入权重值和节点输出权重值来迭代训练神经网络,直到神经网络在目标参数的收敛目标值处达到收敛状态;当神经网络达到收敛状态时:选择所述多个处理节点中具有较大量值节点输出权重值的一个或多个处理节点;对于每个所选处理节点,从用作具有较大量值输入分量权重值的所选处理节点的输入的输入数据集当中选择输入数据集的子集,和对于每个所选处理节点,选择选通运算子集;使用选通运算的所选子集,用所选处理节点处理输入数据集的所选子集,以产生一个或多个合成数据集;以及基于所选输入数据集的名称和选通运算的所选子集,为所述一个或多个合成数据集中的每一个生成人类可理解名称。2.根据权利要求1所述的计算机系统,其中,对于每个所选处理节点选择的选通运算子集对应于当神经网络达到收敛状态时使用的选通运算子集。3.根据权利要求1所述的计算机系统,其中,对于每个所选处理节点选择的选通运算子集对应于加法/减法运算或者乘法/除法运算。4.根据权利要求1所述的计算机系统,其中每个处理节点包括神经算术逻辑单元(NALU)。5.根据权利要求4所述的计算机系统,其中NALU内的选通运算独立于输入数据集。6.根据权利要求1所述的计算机系统,其中每个处理节点被配置为基于硬sigmoid函数来确定选通运算子集。7.根据权利要求1所述的计算机系统,其中,所述至少一个硬件处理器进一步被配置为在一个或多个数据库中存储合成数据集和每个合成数据集的人类可理解名称,或者向用户设备提供合成数据集和每个合成数据集的人类可理解名称的输出。8.根据权利要求1所述的计算机系统,其中,所述至少一个硬件处理器被配置为通过在迭代训练中经由随机梯度下降修改选通运算来迭代训练神经网络。9.根据权利要求1所述的计算机系统,其中,所述至少一个硬件处理器被配置为经由所
述一个或多个用户输入适配器查询和接收输入数据分组,所述输入数据分组包括来自数据网络上的一个或多个数据库的数据集。10.一种方法,包括:在包括至少一个存储器和至少一个硬件处理器的系统处:接收输入数据集和目标度量以及指示用户想要生成的合成数据集的期望数量的参数;执行存储在存储器中的指令以实现神经网络,如下:神经网络的多个处理节点中的每一个:处理输入数据集,包括用对应的输入权重值对输入数据集值进行加权以产生加权输入数据集值,确定选通运算以选择处理运算,以及通过将选通运算应用于加权输入数据集值来生成节点输出,和用节点输出权重值对节点输出进行加权,以产生加权节点输出;组合来自多个处理节点...

【专利技术属性】
技术研发人员:D
申请(专利权)人:纳斯达克公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1