一种面向行为学习的智能操作模型构建方法、装置及系统制造方法及图纸

技术编号：43808594 阅读：2 留言：0更新日期：2024-12-27 13:25

本发明专利技术提供了一种面向行为学习的智能操作模型构建方法、装置及系统，涉及数据处理技术领域，包括：基于操作影像和操作日志，生成用于在目标设备实现样本任务的样本用户操作信息序列；其中，样本用户操作信息序列中的样本用户操作信息，包括基于操作日志确定的操作指令和基于操作影像确定的操作目标；将样本任务对应的样本自然语言指令信息输入第一语言模型，得到第一语言模型输出的第一操作信息序列；基于样本任务对应的第一操作信息序列，与样本任务的样本用户操作信息序列之间的损失值，调整第一语言模型的模型参数，得到智能操作模型。能够提升获取任务实现步骤的效率以及用户通过目标设备执行目标任务的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及数据处理，尤其涉及一种面向行为学习的智能操作模型构建方法、装置及系统。

技术介绍

1、随着科技不断发展，越来越多的设备开始在人们生活中进行应用，为了提升生产效率，如何让这些设备能够自动执行特定任务成为了亟待解决的问题。

2、相关技术中，技术人员通常会研究需要自动化处理的任务的执行方式，通过经验编写任务执行步骤的方式，将任务分解为多个步骤并编写对应的执行代码，得到任务执行程序，通过在设备上运行任务执行程序，自动执行这些任务。

3、但是，上述分解任务执行步骤的方式效率较差，造成目前依然存在大量的任务无法在设备上实现自动化处理，导致用户通过设备执行任务的效率较差。

技术实现思路

1、本专利技术实施例提供一种面向行为学习的智能操作模型构建方法、装置及系统，以解决相关技术中用户通过设备执行任务的效率较差的问题。

2、第一方面，本专利技术实施例提供了一种面向行为学习的智能操作模型构建方法，所述方法包括：

3、获取样本用户操作目标设备实现样本任务期间产生的操作影像，以及所述目标设备执行所述样本任务期间产生的操作日志；

4、基于所述操作影像和所述操作日志，生成用于在所述目标设备实现所述样本任务的样本用户操作信息序列；其中，所述样本用户操作信息序列中的样本用户操作信息，包括基于所述操作日志确定的操作指令和基于所述操作影像确定的操作目标；

5、将所述样本任务对应的样本自然语言指令信息输入第一语言模型，得到所述第

6、基于所述样本任务对应的所述第一操作信息序列，与所述样本任务的样本用户操作信息序列之间的损失值，调整所述第一语言模型的模型参数，得到智能操作模型；其中，所述智能操作模型用于根据目标自然语言指令信息输出对应的目标操作信息序列，所述目标操作信息序列用于在目标设备应用，以使所述目标设备实现所述目标自然语言指令信息对应的目标任务。

7、可选地，所述基于所述操作影像和所述操作日志，生成用于在所述目标设备实现所述样本任务的样本用户操作信息序列，包括：

8、基于所述操作影像，提取所述样本用户的用户交互对象，以及各个用户交互对象对应的交互时间；

9、基于所述操作日志，提取所述样本用户的操作指令，以及各个操作指令对应的操作时间；

10、将所述交互时间与所述操作指令的操作时间重叠的用户交互对象，确定为所述操作指令对应的操作对象；

11、基于所述操作指令和所述操作指令对应的操作对象，构建所述操作指令对应的样本用户操作信息，并根据所述操作时间排列各个所述操作指令对应的样本用户操作信息，得到所述样本用户操作信息序列。

12、可选地，所述操作影像包括操作场景影像和操作屏幕影像，所述基于所述操作影像，提取所述样本用户的用户交互对象，包括：

13、在所述操作影像包括所述操作场景影像的情况下，基于所述操作场景影像确定所述目标设备在场景中的第一交互对象，将所述第一交互对象作为所述用户交互对象；

14、在所述操作影像包括所述操作屏幕影像的情况下，基于所述样本用户的用户输入在所述操作屏幕影像中的输入位置，从所述操作屏幕影像中确定第二交互对象，将所述第二交互对象作为所述用户交互对象。

15、可选地，所述基于所述操作场景影像确定所述目标设备在场景中的第一交互对象，包括：

16、将包含所述目标设备的所述操作场景影像，输入目标检测模型，得到所述目标检测模型输出的所述目标设备对应的可交互目标物体的第一目标检测结果，以及所述目标设备对应的第二目标检测结果；

17、将所述第一目标检测结果、所述第二目标检测结果和所述样本任务输入意图识别模型，得到所述意图识别模型输出的各个所述可交互目标物体分别对应的交互概率；

18、将所述交互概率最大的可交互目标物体确定为所述第一交互对象。

19、可选地，所述获取样本用户操作目标设备实现样本任务期间产生的操作影像，包括：

20、检测所述样本用户针对所述目标设备的操作指令的操作类型；

21、在所述操作指令的操作类型为执行机构操作的情况下，通过所述目标设备的外部相机拍摄所述操作场景影像；

22、在所述操作指令的操作类型为界面操作的情况下，获取所述操作指令对应的操作屏幕影像。

23、可选地，所述将所述样本任务对应的样本自然语言指令信息输入第一语言模型，得到所述第一语言模型输出的第一操作信息序列，包括：

24、获取所述样本用户操作所述目标设备实现所述样本任务期间，所述目标设备所处的样本环境信息；

25、将所述样本自然语言指令信息和所述样本环境信息输入所述第一语言模型，得到所述第一语言模型输出的所述第一操作信息序列。

26、可选地，所述方法还包括：

27、获取针对目标操作信息序列的问题返馈信息；

28、基于所述问题返馈信息、所述目标操作信息序列和所述目标操作信息序列对应的目标自然语言指令信息，生成模型调整提示词信息；

29、将所述模型调整提示词信息输入所述智能操作模型。

30、第二方面，本专利技术实施例提供了一种面向行为学习的智能操作模型构建装置，所述装置包括：

31、获取模块，用于获取样本用户操作目标设备实现样本任务期间产生的操作影像，以及所述目标设备执行所述样本任务期间产生的操作日志；

32、序列模块，用于基于所述操作影像和所述操作日志，生成用于在所述目标设备实现所述样本任务的样本用户操作信息序列；其中，所述样本用户操作信息序列中的样本用户操作信息，包括基于所述操作日志确定的操作指令和基于所述操作影像确定的操作目标；

33、输入模块，用于将所述样本任务对应的样本自然语言指令信息输入第一语言模型，得到所述第一语言模型输出的第一操作信息序列；

34、训练模块，用于基于所述样本任务对应的所述第一操作信息序列，与所述样本任务的样本用户操作信息序列之间的损失值，调整所述第一语言模型的模型参数，得到智能操作模型；其中，所述智能操作模型用于根据目标自然语言指令信息输出对应的目标操作信息序列，所述目标操作信息序列用于在目标设备应用，以使所述目标设备实现所述目标自然语言指令信息对应的目标任务。

35、可选地，所述序列模块包括：

36、第一提取子模块，用于基于所述操作影像，提取所述样本用户的用户交互对象，以及各个用户交互对象对应的交互时间；

37、第二提取子模块，用于基于所述操作日志，提取所述样本用户的操作指令，以及各个操作指令对应的操作时间；

38、操作对象子模块，用于将所述交互时间与所述操作指令的操作时间重叠的用户交互对象，确定为所述操作指令对应的操作对象；

39、序列构建子模块，用于基于所述操作指令和所述操作指令对应的操作对象，构建所述操作指令对应的样本文档来自技高网...

【技术保护点】

1.一种面向行为学习的智能操作模型构建方法，其特征在于，所述面向行为学习的智能操作模型构建方法包括：

2.根据权利要求1所述的面向行为学习的智能操作模型构建方法，其特征在于，所述基于所述操作影像和所述操作日志，生成用于在所述目标设备实现所述样本任务的样本用户操作信息序列，包括：

3.根据权利要求2所述的面向行为学习的智能操作模型构建方法，其特征在于，所述操作影像包括操作场景影像和操作屏幕影像，所述基于所述操作影像，提取所述样本用户的用户交互对象，包括：

4.根据权利要求3所述的面向行为学习的智能操作模型构建方法，其特征在于，所述基于所述操作场景影像确定所述目标设备在场景中的第一交互对象，包括：

5.根据权利要求3所述的面向行为学习的智能操作模型构建方法，其特征在于，所述获取样本用户操作目标设备实现样本任务期间产生的操作影像，包括：

6.根据权利要求1所述的面向行为学习的智能操作模型构建方法，其特征在于，所述将所述样本任务对应的样本自然语言指令信息输入第一语言模型，得到所述第一语言模型输出的第一操作信息序列，包括：

...

【技术特征摘要】

1.一种面向行为学习的智能操作模型构建方法，其特征在于，所述面向行为学习的智能操作模型构建方法包括：

5.根据权利要求3所述的面向行为学习的智能操作模型构建方...

【专利技术属性】
技术研发人员：于琦，林恩德，朱强，王峥瀛，范欣，王乐陶，谭尧升，李婉，
申请(专利权)人：长江三峡集团实业发展北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人