一种数据标注的方法及装置制造方法及图纸

技术编号:24758095 阅读:19 留言:0更新日期:2020-07-04 09:35
本说明书公开了一种数据标注的方法及装置,在该方法中可以获取到待标注图像,并将待标注图像输入到预先训练的第一识别模型以及第二识别模型中,确定第一识别模型针对待标注图像的第一识别结果、第二识别模型针对待标注图像的第二识别结果。通过预先训练的判别模型,判断在第二识别模型输出第二识别结果的条件下,第一识别模型得到的第一识别结果是否正确,若确定第一识别结果正确,根据第一识别结果对待标注图像进行标注。本方法可以通过第一识别模型以及第二识别模型识别出待标注图像中的文本,再通过判别模型来判别第一识别模型得到的识别结果正确与否,实现对待标注图像的自动标注。因此本方法能够提高数据标注的效率,节约人工成本。

A method and device of data annotation

【技术实现步骤摘要】
一种数据标注的方法及装置
本说明书涉及计算机领域,尤其涉及一种数据标注的方法及装置。
技术介绍
在实际应用中,服务平台需要对一些图片中的文字进行识别,例如,对商家招牌的图片进行识别,识别出商家的名称。在对图片进行识别的过程中,大多会使用预先训练的识别模型对图片进行识别,而在训练识别模型的过程中需要通过大量的训练样本对识别模型进行训练。在现有技术中,训练识别模型所需的训练样本通常都是通过人工对图片进行标注的方法得到的,服务平台通过标注图片后得到的训练样本,能够对识别模型进行训练。然而这种标注方法会耗费大量的人工成本以及时间,极大的降低了数据标注的效率。所以,如何能够提高数据的标注效率,以及降低人工成本,则是一个亟待解决的问题。
技术实现思路
本说明书提供一种的方法及装置,以部分的解决现有技术存在的上述问题。本说明书采用下述技术方案:本说明书提供了一种数据标注的方法,包括:获取待标注图像;将所述待标注图像输入到预先训练的第一识别模型,确定所述第一识别模型针对所述待标注图像的第一识别结果,以及将所述待标注图像输入到预先训练的第二识别模型,确定所述第二识别模型针对所述待标注图像的第二识别结果;通过预先训练的判别模型,判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确;若确定所述第一识别结果正确,根据所述第一识别结果对所述待标注图像进行标注。可选地,将所述待标注图像输入到预先训练的第一识别模型,确定所述第一识别模型针对所述待标注图像的第一识别结果,具体包括:将所述待标注图像输入到预先训练的第一识别模型,确定出所述第一识别模型针对所述待标注图像的第一识别结果以及所述第一识别结果对应的第一置信度;将所述待标注图像输入到预先训练的第二识别模型,确定所述第二识别模型针对所述待标注图像的第二识别结果,具体包括:将所述待标注图像输入到预先训练的第二识别模型,确定出所述第二识别模型针对所述待标注图像的第二识别结果以及所述第二识别结果对应的第二置信度;通过预先训练的判别模型,判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确,具体包括:将所述第一置信度以及所述第二置信度输入到所述判别模型中,以判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确。可选的,将所述第一置信度以及所述第二置信度输入到所述判别模型之前,所述方法还包括:确定所述待标注图像对应的图像特征;将所述第一置信度以及所述第二置信度输入到所述判别模型中,以判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确,具体包括:将所述第一置信度、所述第二置信度以及所述待标注图像对应的图像特征输入到所述判别模型中,以判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确。可选的,所述图像特征包括:待标注图像的图像尺寸、第一字符平均尺寸以及第二字符平均尺寸中的至少一种;确定所述待标注图像对应的图像特征,具体包括:根据所述第一识别结果中包含的字符的字符数以及所述待标注图像的图像尺寸,确定所述第一识别结果中每个字符在所述待标注图像中的字符平均尺寸,作为所述第一识别结果对应的第一字符平均尺寸;根据所述第二识别结果中包含的字符的字符数以及所述待标注图像的图像尺寸,确定所述第二识别结果中每个字符在所述待标注图像中的字符平均尺寸,作为所述第二识别结果对应的第二字符平均尺寸。可选的,将所述第一置信度以及所述第二置信度输入到所述判别模型之前,所述方法还包括:根据所述第一识别结果中包含的每个字符以及所述第二识别结果中包含的每个字符,确定所述第一识别结果和所述第二识别结果之间的字符差异度;将所述第一置信度以及所述第二置信度输入到所述判别模型中,以判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确,具体包括:将所述第一置信度、所述第二置信度以及所述字符差异度输入到所述判别模型中,以判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确。可选的,根据所述第一识别结果中包含的每个字符以及所述第二识别结果中包含的每个字符,确定所述第一识别结果和所述第二识别结果之间的字符差异度,具体包括:从所述第一识别结果中包含的每个字符中,确定与所述第二识别结果不同的字符,作为差异字符;根据所述差异字符的字符数以及所述第一识别结果中包含的字符的字符数,确定所述字符差异度。可选的,将所述第一置信度以及所述第二置信度输入到所述判别模型之前,所述方法还包括:根据所述第一置信度,将所述第一识别结果包含的每个字符的置信度中最低的置信度,作为所述第一识别结果对应的第一字符置信度;根据所述第二置信度,将所述第二识别结果包含的每个字符的置信度中最低的置信度,作为所述第二识别结果对应的第二字符置信度;将所述第一置信度、所述第二置信度以及所述字符差异度输入到所述判别模型中,以判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确,具体包括:将所述第一置信度、所述第二置信度、所述第一字符置信度、所述第二字符置信度以及所述字符差异度输入到所述判别模型中,以判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确。可选地,训练第一识别模型,具体包括:获取若干训练样本;针对每个训练样本,将该训练样本中包含的样本图像输入到所述第一识别模型中,得到第一训练结果;以所述第一训练结果和该训练样本中包含的标注文本之间的文本差异最小为训练目标,对所述第一识别模型进行训练。可选地,训练第二识别模型,具体包括:获取若干训练样本;针对每个训练样本,将该训练样本中包含的样本图像输入到所述第二识别模型中,得到第二训练结果;以所述第二训练结果和该训练样本中包含的标注文本之间的文本差异最小为训练目标,对所述第二识别模型进行训练。可选地,训练判别模型,具体包括:获取若干训练样本;针对每个训练样本,将该训练样本中包含的样本图像输入到所述第一识别模型中,确定该训练样本对应的第一识别结果,以及将该训练样本中包含的样本图像输入到所述第二识别模型中,确定该训练样本对应的第二识别结果;通过所述判别模型,判别在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确,作为第一判别结果;判别该训练样本对应的第一识别结果与该训练样本的标注文本是否相符,作为第二判别结果;以所述第一判别结果与所述第二判别结果相一本文档来自技高网...

【技术保护点】
1.一种数据标注的方法,其特征在于,包括:/n获取待标注图像;/n将所述待标注图像输入到预先训练的第一识别模型,确定所述第一识别模型针对所述待标注图像的第一识别结果,以及将所述待标注图像输入到预先训练的第二识别模型,确定所述第二识别模型针对所述待标注图像的第二识别结果;/n通过预先训练的判别模型,判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确;/n若确定所述第一识别结果正确,根据所述第一识别结果对所述待标注图像进行标注。/n

【技术特征摘要】
1.一种数据标注的方法,其特征在于,包括:
获取待标注图像;
将所述待标注图像输入到预先训练的第一识别模型,确定所述第一识别模型针对所述待标注图像的第一识别结果,以及将所述待标注图像输入到预先训练的第二识别模型,确定所述第二识别模型针对所述待标注图像的第二识别结果;
通过预先训练的判别模型,判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确;
若确定所述第一识别结果正确,根据所述第一识别结果对所述待标注图像进行标注。


2.如权利要求1所述的方法,其特征在于,将所述待标注图像输入到预先训练的第一识别模型,确定所述第一识别模型针对所述待标注图像的第一识别结果,具体包括:
将所述待标注图像输入到预先训练的第一识别模型,确定出所述第一识别模型针对所述待标注图像的第一识别结果以及所述第一识别结果对应的第一置信度;
将所述待标注图像输入到预先训练的第二识别模型,确定所述第二识别模型针对所述待标注图像的第二识别结果,具体包括:
将所述待标注图像输入到预先训练的第二识别模型,确定出所述第二识别模型针对所述待标注图像的第二识别结果以及所述第二识别结果对应的第二置信度;
通过预先训练的判别模型,判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确,具体包括:
将所述第一置信度以及所述第二置信度输入到所述判别模型中,以判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确。


3.如权利要求2所述的方法,其特征在于,将所述第一置信度以及所述第二置信度输入到所述判别模型之前,所述方法还包括:
确定所述待标注图像对应的图像特征;
将所述第一置信度以及所述第二置信度输入到所述判别模型中,以判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确,具体包括:
将所述第一置信度、所述第二置信度以及所述待标注图像对应的图像特征输入到所述判别模型中,以判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确。


4.如权利要求3所述的方法,其特征在于,所述图像特征包括:待标注图像的图像尺寸、第一字符平均尺寸以及第二字符平均尺寸中的至少一种;
确定所述待标注图像对应的图像特征,具体包括:
根据所述第一识别结果中包含的字符的字符数以及所述待标注图像的图像尺寸,确定所述第一识别结果中每个字符在所述待标注图像中的字符平均尺寸,作为所述第一识别结果对应的第一字符平均尺寸;
根据所述第二识别结果中包含的字符的字符数以及所述待标注图像的图像尺寸,确定所述第二识别结果中每个字符在所述待标注图像中的字符平均尺寸,作为所述第二识别结果对应的第二字符平均尺寸。


5.如权利要求2或3所述的方法,其特征在于,将所述第一置信度以及所述第二置信度输入到所述判别模型之前,所述方法还包括:
根据所述第一识别结果中包含的每个字符以及所述第二识别结果中包含的每个字符,确定所述第一识别结果和所述第二识别结果之间的字符差异度;
将所述第一置信度以及所述第二置信度输入到所述判别模型中,以判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确,具体包括:
将所述第一置信度、所述第二置信度以及所述字符差异度输入到所述判别模型中,以判断在所述第二识别模型输出所述第二识别结果的条件下,所述第一识别模型得到的所述第一识别结果是否正确。


6.如权利要求5所述的方法,其特征在于,根据所述第一识别结果中包含的每个字符以及所述第二识别结果中包含的每个字符,确定所述第一识别结果和所述第二识别结果之间的字符差异度,具体包括:
从所述第一识别结果中包含的每个字符中,确定与所述第二识别结果不同的字符,作为差异字符;
根据所述差异字符的字符数以及所述第一识别结果中包含的字符的字符数,确定所述字符差异度。


7.如权利要求5所述的方法,其特征在于,将所...

【专利技术属性】
技术研发人员:姜仟艺宋祺周永生李楠张睿
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1