一种基于RPA和机器学习的网站验证码自学习的方法技术

技术编号：44777032 阅读：2 留言：0更新日期：2025-03-26 12:55

本发明专利技术公开了一种基于RPA和机器学习的网站验证码自学习的方法；包括如下步骤：S1、获取待识别的验证码；S2、验证码分类；S3、检查机器学习模型；S4、使用现有的机器学习模型进行识别；S5、判断训练验证码图片是否足够；S6、开始训练并导出模型；S7、结果验证；S8、按分类保存识别图片；S9、计算整体的机器学习模型识别率；S10、识别成功率是否较低；本发明专利技术结合RPA与机器学习，实现验证码识别的自动采集、训练与优化，动态调整模型，提高效率与准确率；自动调整数据集收集与机器学习模型训练流程，使训练过程更加智能和高效，避免不必要的资源消耗；在准确率达到设定阈值时停止训练和数据收集，节省系统资源。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于智能识别，更具体地说，尤其涉及一种基于rpa和机器学习的网站验证码自学习的方法。

技术介绍

1、rpa是指用软件自动化方式模拟人工完成计算机终端的操作任务，让软件机器人自动处理大量重复的、基于规则的工作流程任务。其优势和价值主要体现在无编码、学习成本低、开发周期短；非侵入式，对现有it架构基本无影响；提升工作质量，减少重复人工操作，可不间断工作；安全性高，减少人为失误；解放人力，释放人员从事更具有创造性的工作内容，降本增效。rpa能将重复的工作流程自动化完成，不再需要人工来耗费大量的时间和精力完成。

2、机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心，是使计算机具有智能的根本途径。

3、rpa机器人在执行任务时，通常会模拟人工操作来与应用程序或网页交互。当系统检测到异常流量或自动化行为时，通常会触发验证码，以确保是由真实用户而非自动化程序进行的操作。rpa机器人触发验证码的过程，实际上是通过模拟用户的浏览器行为，导致目标网站主动生成验证码。

4、然而现有技术存在一些问题：现有的验证码识别部署方法模型单一，一次部署后无法动态调整模型；模型更新不及时，一旦流程运行起来，从流程的识别失败开始，到收集样本，训练出结果，均需要人力维护，安装部署需要耗费比较长的时间，并且制约与人的作息时间，因此我们提出一种基于rpa和机

技术实现思路

1、针对现有技术存在的问题，本专利技术的目的是提供一种基于rpa和机器学习的网站验证码自学习的方法，利用机器人流程自动化技术结合验证码识别的机器学习模型，实现验证码图片的自动化采集、训练与优化，通过程序对验证码识别的准确率进行实时监控，根据准确率动态调整训练与数据集采集流程，确保识别模型的高效训练与部署。

2、为实现上述目的，本专利技术提供如下技术方案：一种基于rpa和机器学习的网站验证码自学习的方法，包括如下步骤：

3、s1、获取待识别的验证码：使用rpa机器人模拟人工访问网站，触发验证码显示，自动捕获验证码图片的相关数据，机器学习模型对自动捕获验证码图片进行处理；

4、s2、验证码分类：对自动捕获验证码图片进行初步分类；

5、s3、检查机器学习模型：检查是否已存在机器学习模型，

6、当机器学习模型已存在，进入s4，

7、当机器学习模型不存在，则进入s5；

8、s4、使用现有的机器学习模型进行识别：通过现有的机器学习模型或者训练后的机器学习模型对自动捕获验证码图片进行处理，将自动捕获验证码图片的数据输入到机器学习模型中，对自动捕获验证码图片的数据进行识别，机器学习模型识别验证码并返回字符结果，rpa机器人根据机器学习模型的输出完成验证码的输入，继续执行后续自动化流程，机器学习模型在rpa机器人成功破解验证码后，自动更新其训练集，进行机器学习模型的在线更新；

9、s5、判断训练验证码图片是否足够：当训练验证码图片足够，进入s4；当训练验证码图片不足，进行补充数据，进入s6；

10、s6、开始训练并导出模型：根据训练验证码图片的数据，训练新的机器学习模型，并导出供使用；

11、s7、结果验证：对训练后的机器学习模型进行验证处理，验证识别结果的准确性；

12、s8、按分类保存识别图片：将识别结果按分类保存，方便后续使用或分析；

13、s9、计算整体的机器学习模型识别率：统计识别率，评估模型的总体性能；

14、s10、识别成功率是否较低：当成功率较低，返回s6重新训练或优化模型，当成功率较高，机器学习模型训练结束。

15、具体的，所述s1中的rpa机器人访问网站的步骤：

16、s101、模拟用户访问网站：rpa机器人启动自动化脚本，打开目标网站；

17、s102、模拟浏览器操作：rpa机器人模拟鼠标点击、页面滚动、输入数据行为；

18、s103、登录或其他交互：rpa机器人填写表单并提交，登录、注册、搜索或购买商品；

19、s104、加载验证码页面：rpa机器人模拟的浏览器会加载包含验证码的页面或弹出窗口；

20、s105、验证码类型以及处理：rpa机器人获取图像验证码、文字验证码、滑动验证码或者算术题验证码，对验证码图片进行数据增强，包括旋转、缩放、噪声去除，模拟验证码的不同变化形式，增强机器学习模型的鲁棒性。

21、具体的，所述噪声去除的计算公式如下：

22、

23、其中，σ是标准差，(x,y)是高斯核的坐标，g(x,y)是高斯核的值，e是自然对数的底数，通过将高斯核与图像进行卷积，是高斯函数，描述了图像中每个像素与中心点的相对位置，距离越远的像素其权重越小，是归一化常数，确保整个函数的总和为1，实现平滑图像并去除噪声。

24、具体的，所述旋转的计算公式如下：

25、给定旋转角度θ，旋转矩阵r计算公式为，

26、

27、其中，(cx,cy)是图像的中心坐标，矩阵会将图像中的每个像素点旋转一个角度θ；计算旋转角度并进行图像校正；

28、所述缩放的计算公式如下：

29、原始图像尺寸为worig和horig，

30、目标宽度为wtarget，需要计算目标高度htarget，或者目标高度为htarget，需要计算目标宽度wtarget；

31、给定目标宽度，计算目标高度：

32、

33、保持宽高比的前提下，通过目标宽度计算目标高度；

34、定目标高度，计算目标宽度：

35、

36、保持宽高比的前提下，通过目标宽度计算目标宽度。

37、具体的，所述s2中的初步分类是将自动捕获验证码图片划分为图像验证码、文字验证码、滑动验证码或者算术题验证码。

38、具体的，所述s4中的机器学习模型采用的算法为卷积神经网络：

39、输入图像：尺寸为htarget×wtarget×cin；

40、卷积层：使用卷积核计算输出特征图，使用激活函数；

41、卷积核的计算公式如下：

42、

43、其中，k的尺寸为fh×fw，其中fh是卷积核的高度，fw是卷积核的宽度，且有cin个输入通道和cout个输出通道；y(i,j,k)是输出特征图中位置(i,j)和第k个输出通道的值；x(i+m-1,j+n-1,c)是输入特征图中位置(i+m-1,j+n-1)和第c个通道的值；k(m,n,c,k)是卷积核在c通道和第k个输出通道上的权重；bk是第k个输出通道的偏置；

44、池化层：对卷积层的输出本文档来自技高网...

【技术保护点】

1.一种基于RPA和机器学习的网站验证码自学习的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于RPA和机器学习的网站验证码自学习的方法，其特征在于：所述S1中的RPA机器人访问网站的步骤：

3.根据权利要求2所述的一种基于RPA和机器学习的网站验证码自学习的方法，其特征在于：所述噪声去除的计算公式如下：

4.根据权利要求2所述的一种基于RPA和机器学习的网站验证码自学习的方法，其特征在于：所述旋转的计算公式如下：

5.根据权利要求1所述的一种基于RPA和机器学习的网站验证码自学习的方法，其特征在于：所述S2中的初步分类是将自动捕获验证码图片划分为图像验证码、文字验证码、滑动验证码或者算术题验证码。

6.根据权利要求1所述的一种基于RPA和机器学习的网站验证码自学习的方法，其特征在于：所述S4中的机器学习模型采用的算法为卷积神经网络：

7.根据权利要求1所述的一种基于RPA和机器学习的网站验证码自学习的方法，其特征在于：所述S4中的机器学习模型的在线更新采用的算法是随机梯度下降，随机梯度下降的计算公式如下：

8.根据权利要求1所述的一种基于RPA和机器学习的网站验证码自学习的方法，其特征在于：所述S6中的训练验证码图片的数据为大量的验证码图片，并且对训练验证码图片进行分类，将验证码图片一分为二，按照2：8的比列进行分类；

9.根据权利要求1所述的一种基于RPA和机器学习的网站验证码自学习的方法，其特征在于：所述S6中的机器学习模型进行训练处理，采集的训练算法为Adam算法，Adam算法结合了梯度下降法、动量法和RMSprop的优点，通过计算一阶矩和二阶矩来动态调整每个参数的学习率；

10.根据权利要求1所述的一种基于RPA和机器学习的网站验证码自学习的方法，其特征在于：所述S9中的机器学习模型识别率的计算公式如下：

...

【技术特征摘要】

1.一种基于rpa和机器学习的网站验证码自学习的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于rpa和机器学习的网站验证码自学习的方法，其特征在于：所述s1中的rpa机器人访问网站的步骤：

3.根据权利要求2所述的一种基于rpa和机器学习的网站验证码自学习的方法，其特征在于：所述噪声去除的计算公式如下：

4.根据权利要求2所述的一种基于rpa和机器学习的网站验证码自学习的方法，其特征在于：所述旋转的计算公式如下：

5.根据权利要求1所述的一种基于rpa和机器学习的网站验证码自学习的方法，其特征在于：所述s2中的初步分类是将自动捕获验证码图片划分为图像验证码、文字验证码、滑动验证码或者算术题验证码。

6.根据权利要求1所述的一种基于rpa和机器学习的网站验证码自学习的方法，其特征在于：所述s4中的机器学习模型采用的算法为卷积神经网络：

【专利技术属性】
技术研发人员：柴亚团，石小乐，
申请(专利权)人：无锡容智技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人