一种图像处理方法、装置、设备及存储介质制造方法及图纸

技术编号:39408209 阅读:17 留言:0更新日期:2023-11-19 16:00
本发明专利技术公开一种图像处理方法、装置、设备及存储介质。其中,方法包括:获取待处理图像;将待处理图像作为入参输入已训练的区域识别模型,得到各个目标区域在待处理图像中的区域边界以及各个目标区域内待转换内容所属的内容类型;针对各个目标区域,将对应于目标区域的区域图像作为入参输入对应于目标区域的内容转换模型,得到对应于各个目标区域的目标内容;基于区域图像与待处理图像的位置及尺度关系,以对应于内容类型的转换方式在目标文件中进行目标内容的排版以得到目标文件。该方案以智能化方式准确高效地实现了用户拍摄图像到各类型标准文件的转换,有助于用户在工作生活场景下的数据管理,提升了用户的使用体验。提升了用户的使用体验。提升了用户的使用体验。

【技术实现步骤摘要】
一种图像处理方法、装置、设备及存储介质


[0001]本专利技术一个或多个实施例涉及一种图像处理方法、装置、设备及存储介质。

技术介绍

[0002]用户可以通过对纸质文件进行拍照,以提取纸质文件中的相关信息并进行电子存档,从而实现对纸质文件进行管理和存储。举例来说,在一些使用场景中,学生在学习过程中会使用大量的试卷、作业、练习册等,并且需要对这些试卷、作业、练习册进行整理和反复练习,高效、便捷地进行试卷管理、试卷存储、错题记录等可以显著提高学生的学习效率;而在另一些使用场景中,学生经常会以网课方式学习并且通过网络交作业,因此需要获得背景清晰的作业文档以通过网络进行提交。

技术实现思路

[0003]有鉴于此,本专利技术一个或多个实施例提供一种图像处理方法、装置、设备及存储介质。
[0004]为实现上述目的,本专利技术一个或多个实施例提供的技术方案如下:
[0005]根据本专利技术一个或多个实施例的第一方面,提出了一种图像处理方法,所述方法包括:
[0006]获取待处理图像;其中,所述待处理图像中存在若干含有待转换内容的目标区域;
[0007]将所述待处理图像作为入参输入已训练的区域识别模型,得到各个目标区域在所述待处理图像中的区域边界、以及各个目标区域内所述待转换内容所属的内容类型;
[0008]针对各个目标区域,将对应于所述目标区域的区域图像作为入参输入对应于所述目标区域的内容转换模型,得到对应于各个目标区域的目标内容;其中,对应于所述目标区域的内容转换模型为对应于所述内容类型的内容转换模型,所述目标内容符合目标文件对于数据语言与数据结构的要求;
[0009]基于所述区域图像与所述待处理图像的位置及尺度关系,以对应于所述内容类型的转换方式在目标文件中进行所述目标内容的排版,以在完成对应于各个目标区域的目标内容的排版后得到所述目标文件。
[0010]一种可选择的实现方式下,所述区域识别模型的训练过程,包括:
[0011]利用掩膜图像集,以重构图像为目标对原始的特征提取模型进行无监督训练。
[0012]一种可选择的实现方式下,所述区域识别模型的训练过程,还包括:
[0013]利用打标图像集,以边界回归与内容分类为目标对完成无监督训练的所述特征提取模型与原始的边界及内容检测模型进行有监督训练。
[0014]一种可选择的实现方式下,所述内容类型包括以下类型中的一或多项:文本、标题、表格、公式、分栏、插图。
[0015]一种可选择的实现方式下,在目标区域内待转换内容属于文本类型或标题类型的情况下,得到对应于所述目标区域的目标内容,包括:
[0016]将所述区域图像作为入参输入已训练的文本识别模型,得到所述区域图像内的文本内容或标题内容,所述文本内容或标题内容包括一或多个文本字符。
[0017]一种可选择的实现方式下,在目标区域内待转换内容属于表格类型的情况下,得到对应于所述目标区域的目标内容,包括:
[0018]将所述区域图像作为入参输入已训练的表格检测及识别模型,得到所述区域图像内的表格内容,所述表格内容包括表格行列结构以及各个单元格内的文本内容。
[0019]一种可选择的实现方式下,在目标区域内待转换内容属于公式类型的情况下,得到对应于所述目标区域的目标内容,包括:
[0020]将所述区域图像作为入参输入已训练的公式识别模型,得到所述区域图像内的公式内容,并将所述公式内容转换为所述目标文件要求的数据语言。
[0021]一种可选择的实现方式下,在目标文件中进行各个目标内容的排版前,所述方法还包括:
[0022]基于所述待处理图像的尺寸,创建文件类型符合所述目标文件要求的待排版文件。
[0023]一种可选择的实现方式下,基于所述待处理图像的尺寸创建待排版文件,包括:
[0024]在所述待处理图像的宽高比例符合预设比例要求的情况下,以预设尺寸为页面尺寸创建所述待排版文件。
[0025]一种可选择的实现方式下,基于所述待处理图像的尺寸创建待排版文件,包括:
[0026]在所述待处理图像的宽高比例不符合预设比例要求的情况下,若所述待处理图像为横排形式,基于所述宽高比例由预设横排宽度确定对应的横排高度,以所述预设横排宽度以及对应的横排高度为页面尺寸创建所述待排版文件;
[0027]若所述待处理图像为竖排形式,基于所述宽高比例由预设竖排宽度确定对应的竖排高度,以所述预设竖排宽度以及对应的竖排高度为页面尺寸创建所述待排版文件。
[0028]一种可选择的实现方式下,基于所述待处理图像的尺寸创建待排版文件,包括:
[0029]若所述待处理图像中的内容为多栏形式,基于各个分栏图像的宽高比例分别创建对应的待排版文件。
[0030]一种可选择的实现方式下,基于区域图像与待处理图像的位置及尺度关系以对应于内容类型的转换方式在目标文件中进行目标内容的排版,包括:
[0031]基于所述区域图像与所述待处理图像的位置及尺寸关系,结合所述待排版文件的页面尺寸,确定所述目标区域在所述待排版文件中的位置及尺寸。
[0032]一种可选择的实现方式下,在目标区域内待转换内容属于文本类型、标题类型、公式类型或表格类型的情况下,以对应于内容类型的转换方式在目标文件中进行目标内容的排版,还包括:
[0033]基于所述区域图像与所述待处理图像的尺寸关系,结合所述待排版文件的页面尺寸,由所述区域图像中的字符像素确定所述目标内容的字体属性参数,所述字体属性参数包括字体和字号。
[0034]一种可选择的实现方式下,在目标区域内待转换内容属于文本类型的情况下,以对应于内容类型的转换方式在目标文件中进行目标内容的排版,还包括:
[0035]基于所述区域图像与所述待处理图像的尺寸关系,结合所述待排版文件的页面尺
寸,由所述区域图像中的字符像素的分布确定所述目标内容的段落属性参数,所述段落属性参数包括字符间距、行间距、段落间距、缩进以及对齐方式中的一或多项。
[0036]一种可选择的实现方式下,在目标区域内待转换内容属于表格类型或插图类型的情况下,以对应于内容类型的转换方式在目标文件中进行目标内容的排版,还包括:
[0037]确定所述待处理图像中所述区域图像与相邻区域图像间的位置关系与环绕方式;
[0038]基于所述区域图像与所述待处理图像的尺寸关系,结合所述待排版文件的页面尺寸,以所确定的与相邻区域图像间的所述位置关系与环绕方式将所述区域图像中的表格像素或插图像素映射至所述待排版文件。
[0039]一种可选择的实现方式下,在将待处理图像输入区域识别模型前,所述方法还包括:
[0040]将所述待处理图像作为入参输入已训练的手写内容去除模型,得到去除手写内容后的所述待处理图像,将去除手写内容后的所述待处理图像作为入参输入已训练的区域识别模型并执行后续步骤。
[0041]一种可选择的实现方式下,在将待处理图像输入区域识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法,其特征在于,所述方法包括:获取待处理图像;其中,所述待处理图像中存在若干含有待转换内容的目标区域;将所述待处理图像作为入参输入已训练的区域识别模型,得到各个目标区域在所述待处理图像中的区域边界、以及各个目标区域内所述待转换内容所属的内容类型;针对各个目标区域,将对应于所述目标区域的区域图像作为入参输入对应于所述目标区域的内容转换模型,得到对应于各个目标区域的目标内容;其中,对应于所述目标区域的内容转换模型为对应于所述内容类型的内容转换模型,所述目标内容符合目标文件对于数据语言与数据结构的要求;基于所述区域图像与所述待处理图像的位置及尺度关系,以对应于所述内容类型的转换方式在目标文件中进行所述目标内容的排版,以在完成对应于各个目标区域的目标内容的排版后得到所述目标文件。2.根据权利要求1所述的方法,其特征在于,所述区域识别模型的训练过程,包括:利用掩膜图像集,以重构图像为目标对原始的特征提取模型进行无监督训练。3.根据权利要求2所述的方法,其特征在于,所述区域识别模型的训练过程,还包括:利用打标图像集,以边界回归与内容分类为目标对完成无监督训练的所述特征提取模型与原始的边界及内容检测模型进行有监督训练。4.根据权利要求1所述的方法,其特征在于,所述内容类型包括以下类型中的一或多项:文本、标题、表格、公式、分栏、插图。5.根据权利要求4所述的方法,其特征在于,在目标区域内待转换内容属于文本类型或标题类型的情况下,得到对应于所述目标区域的目标内容,包括:将所述区域图像作为入参输入已训练的文本识别模型,得到所述区域图像内的文本内容或标题内容,所述文本内容或标题内容包括一或多个文本字符。6.根据权利要求4所述的方法,其特征在于,在目标区域内待转换内容属于表格类型的情况下,得到对应于所述目标区域的目标内容,包括:将所述区域图像作为入参输入已训练的表格检测及识别模型,得到所述区域图像内的表格内容,所述表格内容包括表格行列结构以及各个单元格内的文本内容。7.根据权利要求4所述的方法,其特征在于,在目标区域内待转换内容属于公式类型的情况下,得到对应于所述目标区域的目标内容,包括:将所述区域图像作为入参输入已训练的公式识别模型,得到所述区域图像内的公式内容,并将所述公式内容转换为所述目标文件要求的数据语言。8.根据权利要求1所述的方法,其特征在于,在目标文件中进行各个目标内容的排版前,所述方法还包括:基于所述待处理图像的尺寸,创建文件类型符合所述目标文件要求的待排版文件。9.根据权利要求8所述的方法,其特征在于,基于所述待处理图像的尺寸创建待排版文件,包括:在所述待处理图像的宽高比例符合预设比例要求的情况下,以预设尺寸为页面尺寸创建所述待排版文件。10.根据权利要求8所述的方法,其特征在于,基于所述待处理图像的尺寸创建待排版文件,包括:
在所述待处理图像的宽高比例不符合预设比例要求的情况下,若所述待处理图像为横排形式,基于所述宽高比例由预设横排宽度确定对应的横排高度,以所述预设横排宽度以及对应的横排高度为页面尺寸创建所述待排版文件;若所述待处理图像为竖排形式,基于所述宽高比例由预设竖排宽度确定对应的竖排高度,以所述预设竖排宽度以及对应的竖排高度为页面尺寸创建所述待排版文件。11.根据权利要求8所述的方法,其特征在于,基于所述待处理图像的尺寸创建待排版文件,包括:若所述待处理图像中的内容为多栏形式,基于各个分栏图像的宽高比例分别创建对应的待排版文件。12.根据权利要求8所述的方法,其特征在于,基于区域图像与待处理图像的位置及尺度关系以对应于内容类型的转换方式在目标文件中进...

【专利技术属性】
技术研发人员:陈明权罗欢何涛
申请(专利权)人:杭州大拿科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1