一种智能体学习方法、系统、设备及介质技术方案

技术编号：40237580 阅读：14 留言：0更新日期：2024-02-02 22:37

本发明专利技术提供一种智能体学习方法、系统、设备及介质，包括：智能体基于外部场景数据建立每个物理实体高维结构的有效认知，并经分割和渲染得到低维结构的有效认知；基于每个物理实体建立对应小模型，并在小模型中将该物理实体的低维结构的有效认知进行特征认知，得到每个物理实体的特征向量；基于每个物理实体的特征向量建立对应抽象类，并基于抽象类之间的关联性得到多级抽象网络，由所述多级抽象网络输出决策值；智能体基于决策值以及从物理环境的变化中得到的奖励，修正所述多级抽象网络输出的决策值，以及与决策值对应的物理实体的特征向量和多级抽象网络；将修正后的物理实体的特征向量与当前的人类的语言建立对应性的关系，完成智能体学习。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，具体涉及一种智能体学习方法、系统、设备及介质。

技术介绍

1、当前的人工智能算法，不论是基于卷积cnn还是基于transformer，都没有明确的自主的认知世界的能力，可能略粗糙地认为：当前的人工智能算法只是一种对人类已经形成的认知的模拟；人工智能算法能力的最大边界就是人类当前认知的边界；同时由于数据收集和模型训练的原因，在实际中其表现在诸多方面要弱于人类；而人类最强大的能力在于能够自主的去认知世界，而不是依赖前人的教导；由于当前的人工智能算法没有自主认知的能力，且要大量的数据进行训练才能实现相对稳定的能力，因此在实际中应用中如自动驾驶领域，智能体更多在人类也相对熟悉的环境中，如高速路、主干道等规则化道路上应用，无法在人类也不熟悉的全新路况下应用。

2、正是由于当前的人工智能算法没有自主认知的能力，其无法灵活的解决各种新问题、应对各类新情况，比如；训练数据中完全没有的样本情况，以及训练数据中只有极小数量的样本情况；这些问题在当前的人工智能的算法框架下无法被有效和稳定的解决，如果强行应用，能否很好解决是个很随机的情况。

3、当前人工智能算法大量使用了深度残差网络和反向传播算法，这种架构下的大参数模型训练时需要巨大的数据，如果参数过大但数据过小就很容易过拟合，成本非常高；随着模型参数量的指数增加，当前已经到万亿级，需要的数据及背后付出的成本非常巨大的，但反观人类的学习，其对数据的利用是非常高效的。

4、当前的人工智能模型的算法框架和参数量都是在设计的时候完全确定的，不可能在

5、因此，预期一种能够对外部世界具有更强的自主认知能力的改进的智能体学习方法。

技术实现思路

1、针对现有技术中存在的问题，本专利技术提供一种智能体学习方法、系统、设备及介质，基于正向压缩理论和多级抽象理论，对外部世界有更强的自主认知能力。

2、在第一方面，本专利技术实施例提供了一种智能体学习方法，包括以下步骤：

3、s1：智能体基于外部场景数据建立每个物理实体高维结构的有效认知，并经分割和渲染得到低维结构的有效认知；

4、s2：基于每个物理实体建立对应小模型，并在小模型中将该物理实体的低维结构的有效认知进行基于正向传播的特征认知，得到每个物理实体的特征向量；

5、s3：基于每个物理实体的特征向量建立对应抽象类，并基于抽象类之间的关联性得到多级抽象网络，由所述多级抽象网络输出决策值；

6、s4：智能体基于决策值以及从物理环境的变化中得到的奖励，修正所述多级抽象网络输出的决策值，以及与对应决策值对应的物理实体的特征向量和多级抽象网络；

7、s5：将修正后的物理实体的特征向量与当前的人类的语言建立对应性的关系，完成智能体学习。

8、进一步的，在所述步骤s1中智能体用于采集并输入不同目标场景的图像和视频数据，训练得到该目标场景的3d结构的深度神经网络；

9、基于全场景的所述深度神经网络分割场景中不同的物理实体对象，构建出不同的物体实体对应的深度神经网络，所述不同的物体实体对应的深度神经网络为每个物理实体高维结构的有效认知；

10、基于深度神经网络的渲染算法，渲染出不同视角的物理实体的2d图像，所述不同视角的物理实体的2d图像作为每个物理实体的低维结构的有效认知。

11、进一步的，所述深度神经网络为神经辐射场nerf的网络模型。

12、进一步的，在所述步骤s2中在小模型进行特征认知的过程中采用有机增长机制，所述有机增长机制为不断生成大量的小模型并有机组合成大模型的机制；所述有机增长机制在小模型无法有效识别更多新数据时，主动构建适用识别更多新数据的新的小模型。

13、进一步的，所述步骤s3中的多级抽象网络用于模拟世界模型，所述世界模型基于大模型用于模拟真实世界的规律性特征，所述规律性特征共同组成了对世界的认知；其中所述规律性特征包括：二维平面、三维空间和四维时空上的规律性特征。

14、进一步的，所述步骤s4中智能体基于决策值产生行动，所述奖励包括人类的监督反馈和真实世界的反馈。

15、进一步的，所述步骤s5中将修正后的物理实体的特征向量与当前的人类的语言建立对应性的关系，包括基于每个物理实体的特征向量对该物理实体进行命名，并基于更多外部场景数据对每个物理实体的特征向量进行优化，以及建立搜索和推荐机制。

16、在本专利技术实施例中，在第二方面，本专利技术实施例提供了一种智能体学习系统，包括：

17、预处理模块：智能体基于外部场景数据建立每个物理实体高维结构的有效认知，并经分割和渲染得到低维结构的有效认知；

18、小模型模块：基于每个物理实体建立对应小模型，并在小模型中将该物理实体的低维结构的有效认知进行基于正向传播的特征认知，得到每个物理实体的特征向量；

19、抽象网络模块：基于每个物理实体的特征向量建立对应抽象类，并基于抽象类之间的关联性得到多级抽象网络，由所述多级抽象网络输出决策值；

20、修正模块：智能体基于决策值以及从物理环境的变化中得到的奖励，修正所述多级抽象网络输出的决策值，以及与决策值对应的物理实体的特征向量和多级抽象网络；

21、输出模块：将修正后的物理实体的特征向量与当前的人类的语言建立对应性的关系，完成智能体学习。

22、在第三方面，本专利技术实施例提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种智能体学习方法的步骤。

23、在第四方面，本专利技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述一种智能体学习方法的步骤。

24、与现有技术相比，本专利技术具有以下有益的技术效果：

25、本专利技术提供一种智能体学习方法、系统、设备及介质，包括以下步骤：智能体基于外部场景数据建立每个物理实体高维结构的有效认知，并经分割和渲染得到低维结构的有效认知；基于每个物理实体建立对应小模型，并在小模型中将该物理实体的低维结构的有效认知进行特征认知，得到每个物理实体的特征向量；基于每个物理实体的特征向量建立对应抽象类，并基于抽象类之间的关联性得到多级抽象网络，由所述多级抽象网络输出决策值；智能体基于决策值以及从物理环境的变化中得到的奖励，修正所述多级抽象网络输出的决策值，以及与决策值对应的物理实体的特征向量和多级抽象网络；将修正后的物理实体的特征向量与当前的人类的语言建立对应性的关系，完成智能体学习；本申请能够自主的认知世界，不只是依赖人类提供的数据，尤其是不依赖人类标注好的数据，而是能够更好的利用从真实世界中感知到的数据；同时本申请能够更稳定本文档来自技高网...

【技术保护点】

1.一种智能体学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的智能体学习方法，其特征在于，在所述步骤S1中智能体采集并输入不同目标场景的图像和视频数据，训练得到该目标场景的3D结构的深度神经网络；

3.根据权利要求2所述的智能体学习方法，其特征在于，所述深度神经网络为神经辐射场NeRF的网络模型。

4.根据权利要求1所述的智能体学习方法，其特征在于，在所述步骤S2中在小模型中进行特征认知的过程中采用有机增长机制，所述有机增长机制为不断生成大量的小模型并有机组合成大模型的机制；其中所述有机增长机制在小模型无法有效识别更多新数据时，在当前小模型之外，主动构建适用识别更多新数据的新的小模型。

5.根据权利要求1所述的智能体学习方法，其特征在于，所述步骤S3中的多级抽象网络用于模拟世界模型，所述世界模型基于大模型用于模拟真实世界的规律性特征，所述规律性特征共同组成了对世界的认知；其中所述规律性特征包括：二维平面、三维空间和四维时空上的规律性特征。

6.根据权利要求1所述的智能体学习方法，其特征在于，所述步骤S4中智

7.根据权利要求1所述的智能体学习方法，其特征在于，所述步骤S5中将修正后的物理实体的特征向量与当前的人类的语言建立对应性的关系，包括基于每个物理实体的特征向量对该物理实体进行命名，基于更多外部场景数据对每个物理实体的特征向量进行优化，以及建立搜索和推荐机制。

8.一种智能体学习系统，其特征在于，用于执行权利要求1-7中任一项所述的智能体学习方法，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的智能体学习方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的智能体学习方法的步骤。

...

【技术特征摘要】

1.一种智能体学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的智能体学习方法，其特征在于，在所述步骤s1中智能体采集并输入不同目标场景的图像和视频数据，训练得到该目标场景的3d结构的深度神经网络；

3.根据权利要求2所述的智能体学习方法，其特征在于，所述深度神经网络为神经辐射场nerf的网络模型。

4.根据权利要求1所述的智能体学习方法，其特征在于，在所述步骤s2中在小模型中进行特征认知的过程中采用有机增长机制，所述有机增长机制为不断生成大量的小模型并有机组合成大模型的机制；其中所述有机增长机制在小模型无法有效识别更多新数据时，在当前小模型之外，主动构建适用识别更多新数据的新的小模型。

5.根据权利要求1所述的智能体学习方法，其特征在于，所述步骤s3中的多级抽象网络用于模拟世界模型，所述世界模型基于大模型用于模拟真实世界的规律性特征，所述规律性特征共同组成了对世界的认知；其中所述规律性特征包括：二维平面、三维空间和四维时空上的规律性特征。

【专利技术属性】
技术研发人员：王延祥，于宛平，邹晓敏，
申请(专利权)人：深圳市阿拉亚科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人