数据处理方法、电子设备及计算机可读介质技术

技术编号:26172640 阅读:54 留言:0更新日期:2020-10-31 13:51
本发明专利技术实施例公开了一种数据处理方法、电子设备和计算机可读介质,其中,一种数据处理方法包括:对第一文本图像进行文本检测,获得所述第一文本图像中的文本区域的信息;根据所述文本区域的信息,对所述第一文本图像进行图像截取,获得对应的不包含文本的第一截取后图像;获取多个文本句子,并将所述多个文本句子分别与所述第一截取后图像融合,获得多个第二文本图像;以所述多个第二文本图像为样本图像,以各所述第二文本图像对应的文本句子的文本内容为所述第二文本图像的文本标注,构建用于对文本识别模型进行训练的训练样本。通过本发明专利技术实施例,提高了用于对文本识别模型进行训练的训练样本的构建效率。

Data processing method, electronic equipment and computer-readable medium

【技术实现步骤摘要】
数据处理方法、电子设备及计算机可读介质
本专利技术实施例涉及计算机
,尤其涉及一种数据处理方法、电子设备和计算机可读介质。
技术介绍
随着机器学习技术的发展,神经网络模型在各方面应用中都取得了重大进展。例如,目前神经网络模型被广泛应用于语音识别、文本识别等等方面。虽然在很多方面,基于机器学习技术的神经网络模型的识别精度已经相当精准。但是,机器学习有着天然的局限性,例如,需要大量的训练数据对神经网络模型进行训练,需要进行大量的数据处理等等。目前,训练数据常用的获取方法都是通过人工采集数据,人工进行标注,以形成训练数据,训练数据的规模越大训练效果也越好。以语音识别为例,语音识别模型的输入为语音片段,输出为识别的文本句子,因此语音识别模型需要大量的语音片段及其对应的文本句子作为训练数据。用于进行文本识别的神经网络模型也是如此,同样需要大量的文本图像作为训练数据进行模型训练。与此同时,这些模型在应用阶段,需要对全部数据如全部待处理的文本图像等进行处理,需要处理的数据量巨大。由上可见,现有的神经网络模型要么存在着因人工采集和标注训练数据,使得神经网络模型的训练效率低下的问题;要么存在着因需处理数据量大,而使数据处理效率低下的问题。但不管是哪种问题,都从整体上影响着神经网络模型的处理效率。
技术实现思路
本专利技术提供了一种数据处理方案,以至少部分解决上述问题中的一种问题。根据本专利技术实施例的第一方面,提供了一种数据处理方法,包括:对第一文本图像进行文本检测,获得所述第一文本图像中的文本区域的信息;根据所述文本区域的信息,对所述第一文本图像进行图像截取,获得对应的不包含文本的第一截取后图像;获取多个文本句子,并将所述多个文本句子分别与所述第一截取后图像融合,获得多个第二文本图像;以所述多个第二文本图像为样本图像,以各所述第二文本图像对应的文本句子的文本内容为所述第二文本图像的文本标注,构建用于对文本识别模型进行训练的训练样本。根据本专利技术实施例的第二方面,提供了另一种数据处理方法,包括:从视频中获取视频帧图像序列;分别对所述视频帧图像序列中的每个视频帧图像进行文本检测,获得每个所述视频帧图像中的字幕区域的信息;利用文本识别模型根据所述字幕区域的信息对视频帧图像进行文本识别,获得至少一个视频帧图像集合以及所述视频帧图像集合对应的字幕内容,其中,所述视频帧图像集合中各视频帧图像对应的字幕区域满足预设相似度,所述文本识别模型基于第一方面所述的数据处理方法构建的训练样本进行训练获得;根据每个视频帧图像集合中的视频帧图像的时间信息,确定该视频帧图像集合的视频起始时间点和视频结束时间点;从所述视频中获得取与所述视频起始时间点和所述视频结束时间点对应的音频数据;根据该视频帧图像集合对应的字幕内容和所述音频数据,构建用于对语音识别模型进行训练的训练数据。根据本专利技术实施例的第三方面,提供了另一种数据处理方法,包括:从视频中获取视频帧图像序列;分别对所述视频帧图像序列中的每个视频帧图像进行文本检测,获得每个所述视频帧图像中的字幕区域的信息;根据所述字幕区域的信息,对所述视频帧图像序列中的视频帧图像进行字幕相似度判断,并根据判断结果,获得至少一个视频帧图像集合;从每个视频帧图像集合中选择一个视频帧图像进行字幕识别,获得每个视频帧图像集合对应的字幕内容;根据每个视频帧图像集合中的视频帧图像的时间信息,确定该视频帧图像集合的视频起始时间点和视频结束时间点;从所述视频中获取与所述视频起始时间点和所述视频结束时间点对应的音频数据;根据该视频帧图像集合对应的字幕内容和所述音频数据,构建用于对语音识别模型进行训练的训练数据。根据本专利技术实施例的第四方面,提供了一种电子设备,所述设备包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面或第二方面或第三方面所述的数据处理方法。根据本专利技术实施例的第五方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面或第三方面所述的数据处理方法。根据本专利技术实施例提供的一种数据处理方案,基于第一文本图像,对其进行图像截取,在获得不包含文本的第一截取后图像后,利用预先获取的文本句子形成新的第二文本图像。由此,可以基于少量的文本图像进行文本图像的扩展,形成大量的文本图像训练样本;并且,因预先获取的文本句子本身即为文本形式,可直接作为新的第二文本图像的文本标注,无需人工操作,从而大大提高了用于对文本识别模型进行训练的训练样本的构建效率。进而,也间接提升了神经网络模型整体的处理效率。进而,在另一种数据处理方案中,通过上述数据处理方案构建的训练样本进行训练而获得的文本识别模型,对获得了字幕区域的信息的视频帧图像序列进行处理,获得视频帧图像集合及对应的字幕内容;进而,以视频帧图像集合的视频起始时间点和视频结束时间点为依据,获取该时间段内的音频数据;在获得了音频数据后,可结合识别获得的字幕内容,构建训练数据,用于对语音识别模型进行训练,从而实现了语音识别模型的训练样本的快速、低成本构建。进而,也间接提升了语音识别模型整体的处理效率。根据本专利技术实施例提供的另一种数据处理方案,在进行文本识别如视频中的字幕识别时,不再对视频中的每个视频帧图像均进行识别,而是根据字幕相似度,从视频帧图像序列的多个视频帧图像中确定出具有一定相似度的字幕的视频帧图像集合,如具有相同字幕的视频帧图像集合。进而,可以从集合中选择一个视频帧图像进行字幕识别,获得字幕内容即可。对于一个视频帧图像集合来说,其中通常包括多个视频帧图像,且该多个视频帧图像具有相同字幕,因此,对其中的一个进行字幕识别即可实现该集合内的所有视频帧图像的字幕识别。由此,大大减轻了字幕识别的数据处理负担,提升了数据处理效率。尤其是,当采用神经网络模型进行字幕识别时,大大减轻了神经网络模型的数据处理负担,提升了神经网络模型的数据处理效率。进一步地,以视频帧图像集合的视频起始时间点和视频结束时间点为依据,获取该时间段内的音频数据;在获得了音频数据后,可结合识别获得的字幕内容,构建训练数据,用于对语音识别模型进行训练,从而实现了语音识别模型的训练样本的快速、低成本构建。进而,也间接提升了语音识别模型整体的处理效率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为根据本专利技术实施例一的一种数据处理方法的步骤流程图;图2为根据本专利技术实施例二的一种数据处理方法的步骤流程图;图3为根据本专利技术实施例三的一种数据处理方法的步骤流程图;图4为根据本专利技术实施例四的一种数据处理方法的步骤流程图;图5为根据本专利技术实施例五的一种电子设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关专利技术,而非对该专利技术的本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n对第一文本图像进行文本检测,获得所述第一文本图像中的文本区域的信息;/n根据所述文本区域的信息,对所述第一文本图像进行图像截取,获得对应的不包含文本的第一截取后图像;/n获取多个文本句子,并将所述多个文本句子分别与所述第一截取后图像融合,获得多个第二文本图像;/n以所述多个第二文本图像为样本图像,以各所述第二文本图像对应的文本句子的文本内容为所述第二文本图像的文本标注,构建用于对文本识别模型进行训练的训练样本。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
对第一文本图像进行文本检测,获得所述第一文本图像中的文本区域的信息;
根据所述文本区域的信息,对所述第一文本图像进行图像截取,获得对应的不包含文本的第一截取后图像;
获取多个文本句子,并将所述多个文本句子分别与所述第一截取后图像融合,获得多个第二文本图像;
以所述多个第二文本图像为样本图像,以各所述第二文本图像对应的文本句子的文本内容为所述第二文本图像的文本标注,构建用于对文本识别模型进行训练的训练样本。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述图像截取的结果,获取所述第一文本图像对应的包含文本的第二截取后图像;
将所述第一文本图像对应的第二截取后图像与其它文本图像对应的第二截取后图像进行两两随机组合;
将随机组合后获得的第二截取后图像对中,文本相同的图像对确定为正样本,文本不同的图像对确定为负样本;
根据所述正样本和所述负样本,构建对用于进行文本相似度判断的文本相似度模型进行训练的训练样本。


3.根据权利要求1或2所述的方法,其特征在于,所述对第一文本图像进行文本检测,获得所述第一文本图像中的文本区域的信息,包括:
使用可微分二值化DB模型,对第一文本图像进行文本检测,获得所述第一文本图像中的文本区域的信息。


4.根据权利要求1或2所述的方法,其特征在于,所述第一文本图像为包含字幕的视频帧图像,所述文本区域的信息为指示字幕区域的信息;
所述获取多个文本句子,并将所述多个文本句子分别与所述第一截取后图像融合,获得多个第二文本图像包括:
从网络上爬取小说并提取小说中的文本句子,得到多个文本句子;
将所述多个文本句子分别嵌入所述第一截取后图像,获得多个第二文本图像。


5.一种数据处理方法,其特征在于,包括:
从视频中获取视频帧图像序列;
分别对所述视频帧图像序列中的每个视频帧图像进行文本检测,获得每个所述视频帧图像中的字幕区域的信息;
利用文本识别模型根据所述字幕区域的信息对视频帧图像进行文本识别,获得至少一个视频帧图像集合以及所述视频帧图像集合对应的字幕内容,其中,所述视频帧图像集合中各视频帧图像对应的字幕区域满足预设相似度,所述文本识别模型基于权利要求1-4中任一所述的数据处理方法构建的训练样本进行训练获得;
根据每个视频帧图像集合中的视频帧图像的时间信息,确定该视频帧图像集合的视频起始时间点和视频结束时间点;
从所述视频中获得取与所述视频起始时间点和所述视频结束时间点对应的音频数据;
根据该视频帧图像集合对应的字幕内容和所述音频数据,构建用于对语音识别模型进行训练的训练数据。


6.根据权利要求5所述的方法,其特征在于,所述利用文本识别模型根据所述字幕区域的信息对视频帧图像进行文本识别,获得至少一个视频帧图像集合以及所述视频帧图像集合对应的字幕内容,包括:
将至少一个所述视频帧图像及所述视频帧图像对应的字幕区域的信息输入所述文本识别模型;
通过所述文本识别模型对输入的所述视频帧图像进行文本识别,获得各个视频帧图像及对应的字幕内容;
根据获得的字幕内容之间的相似度,获得至少一个视频帧图像集合及所述视频帧图像集合对应的字幕内容。


7.根据权利要求5所述的方法,其特征在于,所述利用文本识别模型根据所述字幕区域的信息对视频帧图像进行文本识别,获得至少一个视频帧图像集合以及所述视频帧图像集合对应的字幕内容,包括:
将多个所述视频帧图像及所述视频帧图像对应的字幕区域的信息输入所述文本识别模型;
通过所述文本识别模型根据所述字幕区域的信息对多个所述视频帧图像的字幕区域进行相似度识别;
根据相似度识别的结果,获得至少一个视频帧图像集合;
从每个视频帧图像集合中选择一个视频帧图像,对选择的所述视频帧图像进行文本识别,获得各个视频帧图像集合对应的字幕内容。


8.根据权利要求5-7任一项所述的方法,其特征在于,所述根据每个视频帧图像集合中的视频帧图像的时间信息,确定该视频帧图像集合的视频起始时间点和视频结束时间点,包括:
根据每个视频帧图像集合中的视频帧图像的时间戳,确定该视频帧图像集合的视频起始时间点和视频结束时间点;
或者,
根据所述视频的总时长和总帧数,确定每个视频帧图像的时长信息;根据每个视频帧图像的时长信息,和该视频帧图像集合中的视频帧图像的视频序号,确定该视频帧图像集合的视频起始时间点和结束时间点。


9.一种数据处理方法,其特征在于,包括:
从视频中获取视频帧图像序列;
分别对所述视频帧图像序列中的每个视频帧图像进行文本检测,获得每个所述视频帧图像中的字幕区域的信息;
根据所述字幕区域的信息,对所述视频帧图像序列中的视频帧图像进行字幕相似度判断,并根据判断结果,获得至少一个视频帧图像集合;
从每个视频帧图像集合中选择一...

【专利技术属性】
技术研发人员:秦勇李兵
申请(专利权)人:北京易真学思教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1