用神经网络处理多样数据集以生成用于预测目标度量的合成数据集的系统和方法技术方案

技术编号：30498110 阅读：25 留言：0更新日期：2021-10-27 22:29

一种计算机系统包括一个或多个用户输入适配器，其被配置为接收输入数据集、目标度量和指示要生成的合成数据集的期望数量的参数。存储器存储指令和数据，所述数据包括输入数据集、目标度量、指示合成数据集的期望数量的参数、以及神经网络。神经网络包括求和节点和多个处理节点。个处理节点。个处理节点。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用神经网络处理多样数据集以生成用于预测目标度量的合成数据集的系统和方法
[0001]（一篇或多篇）相关申请的（一项或多项）交叉引用本申请要求于2020年1月16日提交的美国专利申请号16/744,236和于2019年1月16日提交的美国临时专利申请62/792,937的优先权，特此通过引用并入其全部内容。
[0002]技术概述本文描述的技术涉及从多样的数据生成合成数据集。更特别地，该技术涉及自动生成对于预测目标度量有用的合成数据集，该合成数据集使用神经网络从多样的数据集中导出。
[0003]介绍现代社会生成大量多样的数据。数据可以从天气数据（例如，温度）变化到交通数据（例如，给定道路上的汽车量）、到服务呼叫数据（例如，收到的呼叫数量）、到财务数据（例如，股票价格）、到电力消耗数据，以及到许多其他形式的数据。寻找多样类型的数据与目标问题（例如，预测飓风）之间的关联性或联系在现代社会中可以是有价值的。
[0004]然而，在大量多样的数据输入当中寻找关联性由于组合爆炸而是一个困难且具有挑战性的技术问题，所述关联性可以提供有用的新数据度量，例如，用于定量评估、控制和/或选择诸如过程、事件或机构之类的某物。例如，给定数百或数千个不同的数据集（每个数据集包含许多不同的值），可能的数据集组合的数量简直太大而无法处理。此外，在所有可能的数据集组合中，仅一个子集可能有用。但是，不存在高效且准确地标识有用的数据集子集的数据处理系统或技术。另一个技术问题是，当数据处理系统可以生成新的数据集时，那些新的数据集将很可能对于人类来说是不可理解的，并且因此...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机系统，包括：一个或多个用户输入适配器，被配置为接收输入数据集、目标度量和指示要生成的合成数据集的数量的参数；存储器，被配置为存储输入数据集、目标度量、指示合成数据集的数量的参数、以及神经网络，其中神经网络包括求和节点和多个处理节点；至少一个硬件处理器，被配置为执行操作，所述操作包括：在神经网络中的多个处理节点的每个处理节点处：（i）处理输入数据集，其中处理输入数据集包括用对应的输入权重值对输入数据集值进行加权以产生加权输入数据集值，确定选通运算以选择处理运算，以及通过将选通运算应用于加权输入数据集值来生成节点输出，和（ii）用节点输出权重值对节点输出进行加权，以产生加权节点输出；以及在神经网络中的求和节点处：组合来自多个处理节点的加权输出，以产生目标参数的值；通过修改选通运算、输入权重值和节点输出权重值来迭代训练神经网络，直到神经网络在目标参数的收敛目标值处达到收敛状态；当神经网络达到收敛状态时：选择所述多个处理节点中具有较大量值节点输出权重值的一个或多个处理节点；对于每个所选处理节点，从用作具有较大量值输入分量权重值的所选处理节点的输入的输入数据集当中选择输入数据集的子集，和对于每个所选处理节点，选择选通运算子集；使用选通运算的所选子集，用所选处理节点处理输入数据集的所选子集，以产生一个或多个合成数据集；以及基于所选输入数据集的名称和选通运算的所选子集，为所述一个或多个合成数据集中的每一个生成人类可理解名称。2.根据权利要求1所述的计算机系统，其中，对于每个所选处理节点选择的选通运算子集对应于当神经网络达到收敛状态时使用的选通运算子集。3.根据权利要求1所述的计算机系统，其中，对于每个所选处理节点选择的选通运算子集对应于加法/减法运算或者乘法/除法运算。4.根据权利要求1所述的计算机系统，其中每个处理节点包括神经算术逻辑单元（NALU）。5.根据权利要求4所述的计算机系统，其中NALU内的选通运算独立于输入数据集。6.根据权利要求1所述的计算机系统，其中每个处理节点被配置为基于硬sigmoid函数来确定选通运算子集。7.根据权利要求1所述的计算机系统，其中，所述至少一个硬件处理器进一步被配置为在一个或多个数据库中存储合成数据集和每个合成数据集的人类可理解名称，或者向用户设备提供合成数据集和每个合成数据集的人类可理解名称的输出。8.根据权利要求1所述的计算机系统，其中，所述至少一个硬件处理器被配置为通过在迭代训练中经由随机梯度下降修改选通运算来迭代训练神经网络。9.根据权利要求1所述的计算机系统，其中，所述至少一个硬件处理器被配置为经由所
述一个或多个用户输入适配器查询和接收输入数据分组，所述输入数据分组包括来自数据网络上的一个或多个数据库的数据集。10.一种方法，包括：在包括至少一个存储器和至少一个硬件处理器的系统处：接收输入数据集和目标度量以及指示用户想要生成的合成数据集的期望数量的参数；执行存储在存储器中的指令以实现神经网络，如下：神经网络的多个处理节点中的每一个：处理输入数据集，包括用对应的输入权重值对输入数据集值进行加权以产生加权输入数据集值，确定选通运算以选择处理运算，以及通过将选通运算应用于加权输入数据集值来生成节点输出，和用节点输出权重值对节点输出进行加权，以产生加权节点输出；组合来自多个处理节点...

【专利技术属性】
技术研发人员：D，
申请(专利权)人：纳斯达克公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人