通过文字临近和地址碰撞算法标注面单地址的方法技术

技术编号:38493445 阅读:22 留言:0更新日期:2023-08-15 17:05
本申请涉及数据标注技术领域,尤其涉及一种通过文字临近和地址碰撞算法标注面单地址的方法,包括:获取面单图片,对面单图片中进行文本识别,获取其中的文本内容和各个文本内容的坐标信息;基于文本内容和各个文本内容的坐标信息,确定文本内容中各个文字的临近值;根据文本内容中各个文字的临近值,将文本内容中各个文字聚集成组,得到文字片段数组;将文字片段数组与预设的地址比对库进行比对,将比对相似度最高的文字片段数组确定为地址文本;将地址文本的四角坐标进行取值作为面单图片的地址标注值。本申请中的技术方案可以替代人工,自动进行面单图片的地址标注,从而极大的提升标注效率。提升标注效率。提升标注效率。

【技术实现步骤摘要】
通过文字临近和地址碰撞算法标注面单地址的方法


[0001]本申请涉及数据标注
,尤其涉及一种通过文字临近和地址碰撞算法标注面单地址的方法。

技术介绍

[0002]机器学习数据标注是对文本、图像等元数据进行标注的过程,标记好的数据将用于训练机器学习的模型。不同的数据标注类型适用于不同的标注场景,不同的标注场景针对不同的机器学习应用场景。
[0003]面单地址数据标注属于文本分类标注,文本分类和内容分类指的是给文档分配预定义类别的任务,可以按主题标记文档中的句子或段落,如面单地址数据。
[0004]在进行机器学习面单标注时,尤其是针对地址这种信息复杂度较高,跨行且不是纯数字或字母的内容时,往往需要大量的人力进行标注投入,通过标注工具圈选地址区域,不仅效率低下还浪费人力。

技术实现思路

[0005]为至少在一定程度上克服相关技术中通过人力进行面单地址标注不仅效率低下还浪费人力的问题,本申请提供一种通过文字临近和地址碰撞算法标注面单地址的方法。
[0006]本申请的方案如下:
[0007]一种通过文字临近和地址碰撞算法标注面单地址的方法,包括:
[0008]获取面单图片,对所述面单图片中进行文本识别,获取其中的文本内容和各个文本内容的坐标信息;
[0009]基于文本内容和各个文本内容的坐标信息,确定文本内容中各个文字的临近值;
[0010]根据文本内容中各个文字的临近值,将文本内容中各个文字聚集成组,得到文字片段数组;
[0011]将所述文字片段数组与预设的地址比对库进行比对,将比对相似度最高的文字片段数组确定为地址文本;
[0012]将所述地址文本的四角坐标进行取值作为所述面单图片的地址标注值。
[0013]优选地,所述方法还包括:
[0014]识别所述面单图片中的运单号;
[0015]根据所述运单号调用订单中心服务地址库作为预设的地址比对库。
[0016]优选地,所述方法还包括:
[0017]调用标准地址库作为预设的地址比对库。
[0018]优选地,所述方法还包括:
[0019]将所述订单中心服务地址库和所述标准地址库进行合并作为预设的地址比对库。
[0020]优选地,所述方法还包括:
[0021]将所述地址比对库中的数据以一维数组的方式做数据平铺。
[0022]优选地,根据文本内容中各个文字的临近值,将文本内容中各个文字聚集成组,包括:
[0023]将临近值相同的文字聚集成组。
[0024]优选地,根据文本内容中各个文字的临近值,将文本内容中各个文字聚集成组,包括:
[0025]将临近值之差的绝对值低于预设阈值的文字聚集成组。
[0026]优选地,将所述文字片段数组与预设的地址比对库进行比对,包括:
[0027]基于地址碰撞算法将所述文字片段数组与预设的地址比对库进行碰撞,所述地址碰撞算法采用相同文字所占比例及置信度进行加权的方式。
[0028]本申请提供的技术方案可以包括以下有益效果:本申请中的通过文字临近和地址碰撞算法标注面单地址的方法,包括:获取面单图片,对面单图片中进行文本识别,获取其中的文本内容和各个文本内容的坐标信息;基于文本内容和各个文本内容的坐标信息,确定文本内容中各个文字的临近值;根据文本内容中各个文字的临近值,将文本内容中各个文字聚集成组,得到文字片段数组;将文字片段数组与预设的地址比对库进行比对,将比对相似度最高的文字片段数组确定为地址文本;将地址文本的四角坐标进行取值作为面单图片的地址标注值。本申请中的技术方案可以替代人工,自动进行面单图片的地址标注,从而极大的提升标注效率。
[0029]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0030]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0031]图1是本申请一个实施例提供的一种通过文字临近和地址碰撞算法标注面单地址的方法的流程示意图。
[0032]图2是本申请一个实施例提供的一种通过文字临近和地址碰撞算法标注面单地址的方法中计算相邻两个字的字体间距的示意图。
具体实施方式
[0033]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0034]图1是本申请一个实施例提供的一种通过文字临近和地址碰撞算法标注面单地址的方法的流程示意图,参照图1,一种通过文字临近和地址碰撞算法标注面单地址的方法,包括:
[0035]S11:获取面单图片,对面单图片中进行文本识别,获取其中的文本内容和各个文本内容的坐标信息;
[0036]S12:基于文本内容和各个文本内容的坐标信息,确定文本内容中各个文字的临近
值;
[0037]S13:根据文本内容中各个文字的临近值,将文本内容中各个文字聚集成组,得到文字片段数组;
[0038]S14:将文字片段数组与预设的地址比对库进行比对,将比对相似度最高的文字片段数组确定为地址文本;
[0039]S15:将地址文本的四角坐标进行取值作为面单图片的地址标注值。
[0040]需要说明的是,本实施例中的技术方案涉及数据标注
,具体应用于机器学习数据标注领域中的面单地址数据标注。
[0041]在具体实践中,可以首先通过CNN(Convolutional Neural Networks,卷积神经网络)+RNN(Recurrent Neural Networks,循环神经网络)神经网络,对面单图片中进行文本识别,这个过程获取的结果是无意义的面单文本内容及各个文本内容的坐标信息。
[0042]在具体实践中,根据文字临近算法,基于文本内容和各个文本内容的坐标信息,确定文本内容中各个文字的临近值。具体的:
[0043]设定每个文字的四角坐标为(x1,y1),(x2,y2),(x3,y3),(x4,y4),则相邻两个文字的字体间距为:
[0044][0045]其中,t1表示相邻两个文字中的第一个文字,t2表示相邻两个文字中的第二个文字。
[0046]取的到从t1到tn所有相邻文字的距离后,根据临近距离进行聚合,可以得知,字体间距会有大量趋同的数值,假设此值为K1到Km,从中合适的K值,作为临近值。
[0047]需要说明的是,本实施例中可以将临近值相同的文字聚集成组,也可以将临近值之差的绝对值低于预设阈值的文字聚集成组,设形成的数组为A1到Ax。
[0048]需要说明的是,方法还包括:
[0049]识别面单图片中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通过文字临近和地址碰撞算法标注面单地址的方法,其特征在于,包括:获取面单图片,对所述面单图片中进行文本识别,获取其中的文本内容和各个文本内容的坐标信息;基于文本内容和各个文本内容的坐标信息,确定文本内容中各个文字的临近值;根据文本内容中各个文字的临近值,将文本内容中各个文字聚集成组,得到文字片段数组;将所述文字片段数组与预设的地址比对库进行比对,将比对相似度最高的文字片段数组确定为地址文本;将所述地址文本的四角坐标进行取值作为所述面单图片的地址标注值。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:识别所述面单图片中的运单号;根据所述运单号调用订单中心服务地址库作为预设的地址比对库。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:调用标准地址库作为预设的地址比对库。4.根据权利要求3所述的方法,...

【专利技术属性】
技术研发人员:朱晶熙马山虎
申请(专利权)人:上海中通吉网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1