更新图片内容的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38102342 阅读:12 留言:0更新日期:2023-07-06 09:21
本说明书实施例提供更新图片内容的方法、装置、电子设备及存储介质。本说明书的实施例中,响应于对目标文本图片的文本修改指令,对目标文本图片进行文本识别,得到目标文本图片对应的目标文本,将目标文本图片中能够修改的内容以文本文档(目标文本)呈现,这样不需要考虑目标文本图片的排版问题;响应于对目标文本的修改指令,确定修改指令对应的修改字符,直接对需要更新的内容进行修改;基于修改字符,更新目标文本图片上的内容,以得到更新后的文本图片。也就是,对目标文本图片中内容的更新,不需要考虑目标文本图片中的空间排版,能够基于对目标文本的操作实现对目标文本图片中内容的更新,这简化了更新过程,加快了更新速度。加快了更新速度。加快了更新速度。

【技术实现步骤摘要】
更新图片内容的方法、装置、电子设备及存储介质


[0001]本说明书一个或多个实施例涉及计算机
,并且更具体地,涉及计算机
中的更新图片内容的方法、装置、电子设备及存储介质。

技术介绍

[0002]在日常生产或生活中,用户可能有更改图片中某些文字的需求。例如,在深度学习中为了获取大量的图片数据集,对已有的图片数据集中各个图片上的文字进行修改,生成多个实际不存在的图片,将多个实际不存在的图片也加入图片数据集,以丰富图片数据集。
[0003]相关技术中,一般采取如下方式:用户使用图片编辑软件对图片中的文字进行修改或对图片中的文字的排版进行调整。例如,图片编辑软件为位图图像处理(Photoshop,PS)软件。由于PS图片编辑软件的专业性太强,通常情况下,用户可能需要在浏览器中查阅PS图片编辑软件的使用步骤,基于查阅到的内容,逐步地对图片中的文字进行修改或对图片中的文字的排版进行调整。该过程比较复杂,导致用户对图片中文字内容的修改速度比较慢。

技术实现思路

[0004]本说明书一个或多个实施例提供了更新图片内容的方法、装置、电子设备及存储介质,该方法能够简化更新目标文本图片中内容的过程,提高更新目标文本图片中内容的速度。
[0005]第一方面,提供了一种更新图片内容的方法,该方法包括:响应于对目标文本图片的文本修改指令,对该目标文本图片进行文本识别,得到该目标文本图片对应的目标文本;响应于对该目标文本的修改指令,确定该修改指令对应的修改字符;基于该修改字符,更新该目标文本图片上的内容。
[0006]上述技术方案中,本说明书一个或多个实施例中,响应于对目标文本图片的文本修改指令,对该目标文本图片进行文本识别,得到该目标文本图片对应的目标文本,将目标文本图片中能够修改的内容以文本形式的文档(目标文本)进行呈现,这样对目标文本图片中的内容更新时,不需要考虑目标文本图片的排版问题;响应于对该目标文本的修改指令,确定该修改指令对应的修改字符,直接对想要更新的内容进行修改,便于编辑;基于在目标文本中的修改内容(修改字符),更新该目标文本图片上的内容,以实现对目标文本图片中内容的更新,得到更新后的文本图片。也就是说,对目标文本图片中内容的更新,不用考虑目标文本图片中空间排版的问题,能够基于对目标文本的操作实现对目标文本图片中内容的更新,这能够简化更新文本内容的过程,加快更新文本内容的速度。
[0007]结合第一方面,在某些可能的实现方式中,对该目标文本图片进行文本识别,得到该目标文本图片对应的目标文本,包括:对该目标文本图片进行光学字符识别,得到该目标文本。
[0008]结合第一方面,在某些可能的实现方式中,该方法还包括:对该目标文本图片进行
图像增强处理,得到增强文本图片;以及,对该目标文本图片进行光学字符识别,得到该目标文本,包括:将该增强文本图片输入文本识别模型,由该文本识别模型对该增强文本图片进行光学字符识别,得到该目标文本。
[0009]结合第一方面,在某些可能的实现方式中,对该目标文本图片进行图像增强处理,得到增强文本图片,包括下述中的至少一项:对该目标文本图片进行二值化处理,得到该增强文本图片;对该目标文本图片中各个文本中的至少一个字符进行聚类处理,得到至少一个噪点,该至少一个噪点与该至少一个字符之间的距离大于预设距离;删除该至少一个噪点,得到该增强文本图片;基于该目标文本图片中各个字符的倾斜程度,确定调节角度;将各个字符基于各个字符所在区域的中心位置旋转该调节角度,得到该增强文本图片,以对该目标文本图片中各个字符进行纠偏。
[0010]上述技术方案中,对目标文本图片进行二值化处理,能够减少目标文本图片中数据的维度,凸显出目标文本图片中有效区域(文本区域)的轮廓范围,从而显著提升光学字符识别的准确率;对目标文本图片进行聚类处理,将目标文本图片中各个文本周围的至少一个噪点删除,得到增强文本图片,这样更能凸显出增强文本图片中各个文本中的字符,使得更容易地对文本(或字符)进行光学字符识别;对目标文本图片中的字符进行倾斜矫正,能够提高对字符进行光学字符识别的准确率。
[0011]结合第一方面,在某些可能的实现方式中,该方法还包括:将该目标文本图片输入文本检测模型,由该本检测模型对该目标文本图片中多个字符间的语义关系进行识别,将具有该语义关系的多个字符形成的各个字符序列确定为各个文本块;将各个文本块的中心线所在的位置确定为各个文本块的位置;以及,由该文本识别模型对该增强文本图片进行光学字符识别,得到该目标文本,包括:由该文本识别模型对该增强文本图片中各个文本块上字符的外形轮廓进行识别,确定各个文本块的内容;基于各个文本块的位置和对应的各个文本块的内容,生成该目标文本。
[0012]上述技术方案中,具体地描述了生成目标文本的过程。具体地,对目标文本图片中多个字符间的语义关系进行文本识别,从而将具有语义关系的多个字符形成的各个字符序列确定为各个文本块,将各个文本块的中心线所在的位置确定为各个文本块的位置,类似于目标检测模型的过程,即检测文本块的位置;再利用文本识别模型对该增强文本图片中各个文本块上字符的外形轮廓进行识别,得到各个文本块的内容;从而,能够基于各个文本块的位置和对应的各个文本块的内容生成文本格式的文档(目标文本),这种将目标文本图片转换为文本文档的方式,便于修改目标文本图片中的文本内容,无需考虑目标文本图片的排版问题。
[0013]结合第一方面,在某些可能的实现方式中,响应于对该目标文本的修改指令,确定该修改指令对应的修改字符,包括:响应于对该目标文本的修改指令,基于该修改指令生成参考文本;将该目标文本和该参考文本进行比较,确定该修改字符和该修改字符的修改位置。
[0014]上述技术方案中,目标文本图片被转换为目标文档后,响应于用户对该目标文本中目标字符的修改指令,也就是说,能够在目标文档上进行修改,得到参考文档;将参考文档与目标文档进行比较,能够确定修改了哪些字符(修改字符)以及修改的字符的位置(修改字符的修改位置),由于目标文档是基于目标文本图片转换而来的,从而能够基于修改字
符的修改位置确定出修改了目标文本图片中的哪些位置的文本内容。
[0015]结合第一方面和上述实现方式,在某些可能的实现方式中,基于该修改字符,更新该目标文本图片上的内容,包括:基于该修改字符的修改位置,在该目标文本图片中确定该待修改文本的坐标位置,该修改字符的修改位置为该修改字符所属的文本的位置,该修改字符所属的文本的位置与该待修改文本的坐标位置相同;删除该目标文本图片中的该待修改文本;将该待修改文本的坐标位置上的文本内容更新为该修改字符所属的文本。
[0016]上述技术方案中,由于该修改字符的修改位置是该修改字符所属的文本的位置,而目标文档是由目标文本图片进行文本识别后,基于目标文本图片中各个文本块的位置和对应的各个文本块的内容生成的。因此,能够基于修改字符所属的文本的位置,匹配出目标文本图片中待修改文本的坐标位置,也就是说,目标文档本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种更新图片内容的方法,所述方法包括:响应于对目标文本图片的文本修改指令,对所述目标文本图片进行文本识别,得到所述目标文本图片对应的目标文本;响应于对所述目标文本的修改指令,确定所述修改指令对应的修改字符;基于所述修改字符,更新所述目标文本图片上的内容。2.根据权利要求1所述的方法,所述对所述目标文本图片进行文本识别,得到所述目标文本图片对应的目标文本,包括:对所述目标文本图片进行光学字符识别,得到所述目标文本。3.根据权利要求2所述的方法,所述对所述目标文本图片进行光学字符识别,得到所述目标文本,包括:对所述目标文本图片进行图像增强处理,得到增强文本图片;将所述增强文本图片输入文本识别模型,由所述文本识别模型对所述增强文本图片进行光学字符识别,得到所述目标文本。4.根据权利要求3所述的方法,所述对所述目标文本图片进行图像增强处理,得到增强文本图片,包括下述中的至少一项:对所述目标文本图片进行二值化处理,得到所述增强文本图片;对所述目标文本图片中各个文本中的至少一个字符进行聚类处理,得到至少一个噪点,所述至少一个噪点与所述至少一个字符之间的距离大于预设距离;删除所述至少一个噪点,得到所述增强文本图片;基于所述目标文本图片中各个字符的倾斜程度,确定调节角度;将各个所述字符基于各个所述字符所在区域的中心位置旋转所述调节角度,得到所述增强文本图片,以对所述目标文本图片中各个字符进行纠偏。5.根据权利要求3所述的方法,所述方法还包括:将所述目标文本图片输入文本检测模型,由所述文本检测模型对所述目标文本图片中多个字符间的语义关系进行识别,将具有所述语义关系的多个字符形成的各个字符序列确定为各个文本块;将各个所述文本块的中心线所在的位置确定为各个所述文本块的位置;以及,所述由所述文本识别模型对所述增强文本图片进行光学字符识别,得到所述目标文本,包括:由所述文本识别模型对所述增强文本图片中各个所述文本块上字符的外形轮廓进行识别,确定各个所述文本块的内容;基于各个所述文本块的位置和对应的各个所述文本块的内容,生成所述目标文本。6.根据权利要求1所述的方法,所述响应于对所述目标文本的修改指令,确定所述修改指令对应的修改字符,包括:响应于对所述目标文本的修改指令,基于所述修改指令生成参考文本;将所述目标文本和所述参考文本进行比较,确定所述修改字符和所述修改字符的修改位置。7.根据权利要求1所述的方法,所述基于所述修改字符,更新所述目标文本图片上的内容,包括:

【专利技术属性】
技术研发人员:郭奇王鹏马崇洋魏庆成胡进
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1