System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自动化信息,更具体地说,本专利技术涉及一种基于深度学习的智能简历ocr解析与自动化信息提取系统及方法。
技术介绍
1、在当今数字化高速发展的时代,ocr解析与自动化信息提取技术应运而生,成为提高信息处理效率的关键手段;ocr(optical character recognition,光学字符识别)解析技术的出现源于对大量纸质文档和图像中文字信息快速转化为可编辑电子文本的需求,自动化信息提取则是在ocr解析的基础上进一步发展而来。在面对海量的文本数据时,单纯的ocr转化只是第一步。自动化信息提取技术能够从经过ocr解析后的文本中智能地提取出关键信息,因此,ocr解析与自动化信息提取技术广泛应用于企业的文档管理、数据录入、客户信息处理等方面。可以快速将大量纸质合同、发票、简历等文档转化为电子数据,并自动提取关键信息进行存储和分析,提高企业的运营效率和决策准确性。
2、现有的一种基于深度学习的智能简历ocr解析与自动化信息提取系统,简历数据采集模块、简历数据分析模块以及简历数据评估模块。所述简历数据采集模块主要是通过各类采集工具采集简历的相关数据;所述简历数据分析模块通过将复杂的简历通过自动化识别获取数据转化为直观的数据,使系统分析更加清晰。所述简历数据评估模块通过对比历史简历数据对现有的分析结果进行准确的评估。
3、但是其在实际使用时,仍旧存在一些缺点,如简历数据采集模块中通过各类采集工具采集生物样本数据,容易受到环境因素干扰,降低采集的数据准确性;简历数据分析模块中通过对采集的简历数据进行处
技术实现思路
1、为了克服现有技术的上述缺陷,本专利技术的实施例提供一种基于深度学习的智能简历ocr解析与自动化信息提取系统及系统,通过自动化信息
,以解决上述
技术介绍
中提出的问题。
2、为实现上述目的,本专利技术提供如下技术方案:一种基于深度学习的智能简历ocr解析与自动化信息提取系统,包括:
3、获取简历模块,响应于浏览器目标插件渠道的自动化识别操作,获取用户发送的第一简历文本;
4、简历预处理模块,对用户发送的第一简历文本进行预处理操作,获取第一简历文本对应的第一文本,确定第一文本为目标文本,将目标文本进行划分成各子文本,并将各子文本依次编号为i=1、2,……,n;
5、简历文本采集模块,用于目标文本划分中的任意子文本中采集各类数据,并将采集的各类数据传输到简历文本分析模块;采集的数据包括图像色彩特征数据、图像识别数据、亮度识别特征数据以及识别耗时数据;
6、简历文本分析模块,用于对简历文本采集模块采集的各类数据进行分析,并将分析结果传输到综合简历分析模块;包括图像色彩特征数据计算单元、图像识别数据计算单元、亮度识别特征数据计算单元以及识别耗时数据计算单元;
7、综合简历分析模块:用于简历文本分析模块传输的数据导入综合简历分析模块中,计算出目标文本的信息精确度指数,并传输到判别模块;该模块包括综合简历计算单元;
8、判别模块:用于目标文本的信息精确度指数与预设目标文本的信息精确度指数在实际过程中进行比较并将判断的结果传输至反馈模块;
9、反馈模块,用于判别模块发送的信号按照反馈方式发送于相对应的管理人员。
10、优选的,简历自动化识别操作具体操作:
11、a1:插件设计:目标插件专门针对浏览器中的付费招聘平台进行开发,能够与主流浏览器兼容;插件安装后,会在后台自动运行,实时监测用户在招聘平台上的操作;当用户浏览到目标的简历页面时,插件会自动触发截图功能,将简历页面保存至数据库;
12、a2:付费招聘平台:系统的插件能够支持多个付费招聘平台,包括国内招聘网站和国外人才招聘平台;
13、a3:截图保存与识别:插件在截图完成后,会将截图文件自动保存到pc端存储数据库中;用户可以根据自己的需求设置保存路径和文件格式,方便后续的管理和查看;系统会对保存的截图文件进行自动识别处理;
14、a4:通过先进的ocr技术,系统能够准确识别截图中的文字信息,并将其转化为可编辑的电子文本格式,即用户发送的第一简历文本。
15、优选的,所述图像色彩特征数据包括图像中高饱和分布率、冷色调字符识别准确率、暖色调字符识别错误率,分别记作tb、tl以及tn;所述图像识别数据包括高分辨率图像正确识别字符数量、清晰图像中特定字体识别准确率以及无噪点图像识别速度,分别记作sg、sq以及sd;所述亮度识别特征数据包括过亮图像识别字符数量、过暗图像识别耗时增加量以及特殊字符识别准确率,分别记作lt、lz以及lq;所述识别耗时数据包括单页字符识别的速度、不同格式文本识别的耗时差异值以及特殊字符识别时间,分别记作bs、bc以及bt。
16、优选的,所述图像色彩特征数据计算单元用于建立图像色彩特征数据的数学模型,将简历文本采集模块采集图像色彩特征数据导入图像色彩特征数据的数学模型,计算出各子文本的图像色彩系数值,具体表示为:
17、
18、tai表示第i个子文本的图像色彩系数值,tli表示第i个子文本的冷色调字符识别准确率,tbi表示第i个子文本的图像中高饱和分布率,tni表示第i个子文本的暖色调字符识别错误率,n表示子文本数量。
19、优选的,所述图像识别数据计算单元用于建立图像识别数据的数学模型,将简历文本采集模块采集图像识别数据导入图像识别数据的数学模型,计算出各子文本的图像识别系数值,具体表示为:
20、
21、sai表示第i个子文本的图像识别系数值,sgi-1表示第i-1个子文本的高分辨率图像正确识别字符数量,sgi表示第i个子文本的高分辨率图像正确识别字符数量,sqi表示第i个子文本的清晰图像中特定字体识别准确率,sdi表示第i个子文本的无噪点图像识别速度,n表示子文本数量。
22、优选的,所述亮度识别特征数据计算单元用于建立亮度识别特征数据的数学模型,将简历文本采集模块采集亮度识别特征数据导入亮度识别特征数据的数学模型,计算出各子文本的亮度识别系数值,具体表示为:
23、
24、lai表示第i个子文本的亮度识别系数值,lti表示第i个子文本的过亮图像识别字符数量,lzi表示第i个子文本的过暗图像识别耗时增加量,lqi表示第i个子文本的特殊字符识别准确率,n表示子文本数量。
25、优选的,所述识别耗时数据计算单元用于建立识别耗时数据的数学模型,将简历文本采集模块采集识别耗时数据导入识别耗时数据的数学模型,计算出各子文本的识别耗时系数值,具体表示为:
26、
27、bai表示第i个子文本的识本文档来自技高网...
【技术保护点】
1.一种基于深度学习的智能简历OCR解析与自动化信息提取系统,其特征在于,包括:
2.根据权利要求1所述的一种基于深度学习的智能简历OCR解析与自动化信息提取系统,其特征在于:所述简历自动化识别操作具体操作:
3.根据权利要求1所述的一种基于深度学习的智能简历OCR解析与自动化信息提取系统,其特征在于:所述图像色彩特征数据包括图像中高饱和分布率、冷色调字符识别准确率、暖色调字符识别错误率,分别记作Tb、Tl以及Tn;所述图像识别数据包括高分辨率图像正确识别字符数量、清晰图像中特定字体识别准确率以及无噪点图像识别速度,分别记作Sg、Sq以及Sd;所述亮度识别特征数据包括过亮图像识别字符数量、过暗图像识别耗时增加量以及特殊字符识别准确率,分别记作Lt、Lz以及Lq;所述识别耗时数据包括单页字符识别的速度、不同格式文本识别的耗时差异值以及特殊字符识别时间,分别记作Bs、Bc以及Bt。
4.根据权利要求1所述的一种基于深度学习的智能简历OCR解析与自动化信息提取系统,其特征在于:所述图像色彩特征数据计算单元用于建立图像色彩特征数据的数学模型,将简历文本
5.根据权利要求1所述的一种基于深度学习的智能简历OCR解析与自动化信息提取系统,其特征在于:所述图像识别数据计算单元用于建立图像识别数据的数学模型,将简历文本采集模块采集图像识别数据导入图像识别数据的数学模型,计算出各子文本的图像识别系数值,具体表示为:
6.根据权利要求1所述的一种基于深度学习的智能简历OCR解析与自动化信息提取系统,其特征在于:所述亮度识别特征数据计算单元用于建立亮度识别特征数据的数学模型,将简历文本采集模块采集亮度识别特征数据导入亮度识别特征数据的数学模型,计算出各子文本的亮度识别系数值,具体表示为:
7.根据权利要求1所述的一种基于深度学习的智能简历OCR解析与自动化信息提取系统,其特征在于:所述识别耗时数据计算单元用于建立识别耗时数据的数学模型,将简历文本采集模块采集识别耗时数据导入识别耗时数据的数学模型,计算出各子文本的识别耗时系数值,具体表示为:
8.根据权利要求1所述的一种基于深度学习的智能简历OCR解析与自动化信息提取系统,其特征在于:所述综合简历计算单元用于建立目标文本的数学模型,将简历文本分析模块计算的各系数值导入目标区域的数学模型,计算出目标文本的信息精确度指数,具体表示为:
9.根据权利要求1所述的一种基于深度学习的智能简历OCR解析与自动化信息提取系统,其特征在于:所述预设目标文本的信息精确度指数,记作为ηdef,预设目标文本的信息精确度指数是根据往年历史数据评估记录的数值;当η<ηdef时,系统发出良好信号;当η>ηdef时,系统发出异常信号。
10.一种基于深度学习的智能简历OCR解析与自动化信息提取方法,其特征在于:用于实施上述权利要求1-9任一所述的一种基于深度学习的智能简历OCR解析与自动化信息提取系统,包括下列步骤:
...【技术特征摘要】
1.一种基于深度学习的智能简历ocr解析与自动化信息提取系统,其特征在于,包括:
2.根据权利要求1所述的一种基于深度学习的智能简历ocr解析与自动化信息提取系统,其特征在于:所述简历自动化识别操作具体操作:
3.根据权利要求1所述的一种基于深度学习的智能简历ocr解析与自动化信息提取系统,其特征在于:所述图像色彩特征数据包括图像中高饱和分布率、冷色调字符识别准确率、暖色调字符识别错误率,分别记作tb、tl以及tn;所述图像识别数据包括高分辨率图像正确识别字符数量、清晰图像中特定字体识别准确率以及无噪点图像识别速度,分别记作sg、sq以及sd;所述亮度识别特征数据包括过亮图像识别字符数量、过暗图像识别耗时增加量以及特殊字符识别准确率,分别记作lt、lz以及lq;所述识别耗时数据包括单页字符识别的速度、不同格式文本识别的耗时差异值以及特殊字符识别时间,分别记作bs、bc以及bt。
4.根据权利要求1所述的一种基于深度学习的智能简历ocr解析与自动化信息提取系统,其特征在于:所述图像色彩特征数据计算单元用于建立图像色彩特征数据的数学模型,将简历文本采集模块采集图像色彩特征数据导入图像色彩特征数据的数学模型,计算出各子文本的图像色彩系数值,具体表示为:
5.根据权利要求1所述的一种基于深度学习的智能简历ocr解析与自动化信息提取系统,其特征在于:所述图像识别数据计算单元用于建立图像识别数据的数学模型,将简历文本采集模块采集图像识别数据导入图像识别数据的数学模型,计算出各子文本的图...
【专利技术属性】
技术研发人员:范志勇,王超,蔺佳明,李国民,
申请(专利权)人:深圳市高斯全球信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。