一种图片识别方法和装置制造方法及图纸

技术编号:25916280 阅读:24 留言:0更新日期:2020-10-13 10:35
本发明专利技术公开了图片识别方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括接收图片,识别图片中的文本;根据预设的字符类别,分别将文本进行类别提取,以计算得到对应字符类别的相关性分析报告;根据各字符类别的相关性分析报告进行文本的预处理;基于预设的目标词库,对预处理后的文本进行截取;通过文本语义提取模型,对截取后的文本进行处理得到文本的向量表征;将文本的向量表征输入至预设的识别模型,确定是否存在目标行为信息。从而,本发明专利技术的实施方式能够解决现有图片审核效率低、精准度差的问题。

【技术实现步骤摘要】
一种图片识别方法和装置
本专利技术涉及计算机
,尤其涉及一种图片识别方法和装置。
技术介绍
在电商平台上有大量的物品在售卖,物品的用户评价对消费者的购买行为至关重要。但是,为了提高物品好评率,在物品主图,或者详情页上会印有好评返现的相关信息,比如:好评返现等。这种行为严重误导了消费者,并且会导致比较差的购物体验。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:由于每天的物品变动数量十分庞大,而每个物品的图片数量有的十几张,甚至几十张。使用人工的方式来审核不能够覆盖全部的待审核的物品,而且标准不统一。使用规则方式审核,没有考虑语境的信息,如,如果商家坚持正常经营,不搞好评返现,因此会在物品详情页中,表述此类意思:“我们没有好评返现”,或者“我们拒绝好评返现”,使用规则的方式则会导致误判。使用规则加上人工的方式进行审核,先使用规则构建待审核的物品集合,然后由人工进行审核,这种方式无法做到实时处理,对商家的体验非常不好。
技术实现思路
有鉴于此,本专利技术实施例提供一种图片识别方法和装置,能够解决现有图片审核效率低、精准度差的问题。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种图片识别方法,包括接收图片,识别图像中的文本;根据预设的字符类别,分别将文本进行类别提取,以计算得到对应字符类别的相关性分析报告;根据各字符类别的相关性分析报告进行文本的预处理;基于预设的目标词库,对预处理后的文本进行截取;通过文本语义提取模型,对截取后的文本进行处理得到文本的向量表征;将文本的向量表征输入至预设的识别模型,确定是否存在目标行为信息。可选地,计算得到对应字符类别的相关性分析报告,包括:提取文本中对应字符类别的所有字符,基于皮尔逊系数将所述所有字符映射成预设数量的维度向量,进而得到对应的分析报告。可选地,根据各字符类别的相关性分析报告进行文本的预处理,包括:在字符类别的相关性分析报告中,判断是否存在数值大于预设阈值的;若存在则确定该字符类别与目标行为信息存在关系,保留对象文本中属于该字符类别的所有字符;若不存在则确定该字符类别与目标行为信息不存在关系,舍弃对象文本中属于该字符类别的所有字符。可选地,基于预设的目标词库,对预处理后的文本进行截取,包括:基于预设的目标词库,定位预处理后的文本中的目标字符;在目标字符前截取第一预设长度的第一文本,且在目标字符后截取第二预设长度的第二文本;根据第一文本、目标字符和第二文本,得到截取后的文本。可选地,所述识别模型为训练好的卷积神经网络;其中,训练卷积神经网络时采用的优化器为自适应矩估计,损失函数为交叉熵损失。可选地,将文本的向量表征输入至预设的识别模型,包括:将文本的向量表征输入至采用GPU加速的识别模型。可选地,将文本的向量表征输入至预设的识别模型之前,还包括:采用多台并发部署的方式,将训练好的识别模型进行线上部署。另外,本专利技术还提供了一种图片识别装置,包括接收模块,用于接收图片,识别图片中的文本;处理模块,用于根据预设的字符类别,分别将文本进行类别提取,以计算得到对应字符类别的相关性分析报告;根据各字符类别的相关性分析报告进行文本的预处理;基于预设的目标词库,对预处理后的文本进行截取;通过文本语义提取模型,对截取后的文本进行处理得到文本的向量表征;识别模块,用于将文本的向量表征输入至预设的识别模型,确定是否存在目标行为信息。上述专利技术中的一个实施例具有如下优点或有益效果:因为采用接收图片,识别图片中的文本;根据预设的字符类别,分别将文本进行类别提取,以计算得到对应字符类别的相关性分析报告;根据各字符类别的相关性分析报告进行文本的预处理;基于预设的目标词库,对预处理后的文本进行截取;通过文本语义提取模型,对截取后的文本进行处理得到文本的向量表征;将文本的向量表征输入至预设的识别模型,确定是否存在目标行为信息的技术手段,所以克服了现有图片审核效率低、精准度差的技术问题,进而达到了覆盖全部需要审核的对象,且判别标准统一的技术效果。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术第一实施例的图片识别方法的主要流程的示意图;图2是根据本专利技术第二实施例的图片识别方法的主要流程的示意图;图3是根据本专利技术第三实施例的图片识别方法的主要流程的示意图;图4是根据本专利技术实施例的图片识别装置的主要模块的示意图;图5是本专利技术实施例可以应用于其中的示例性系统架构图;图6是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本专利技术第一实施例的图片识别方法的主要流程的示意图,如图1所示,所述图片识别方法包括:步骤S101,接收图片,识别图片中的文本。在一些实施例中,对接收的图片通过OCR识别后得到对象文本。其中,OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。步骤S102,根据预设的字符类别,分别将文本进行类别提取,以计算得到对应字符类别的相关性分析报告;根据各字符类别的相关性分析报告进行文本的预处理。在一些实施例中,可以通过提取文本中对应字符类别的所有字符,基于皮尔逊系数将所述所有字符映射成预设数量的维度向量,进而得到对应的分析报告。进一步地,在字符类别的相关性分析报告中,判断是否存在数值大于预设阈值的。根据判断结果,若存在则确定该字符类别与目标行为信息存在关系,保留文本中属于该字符类别的所有字符;若不存在则确定该字符类别与目标行为信息不存在关系,舍弃文本中属于该字符类别的所有字符。可以看出,通过预处理过程可以对文本中每种字符(例如:英文,数字,特殊符号等)的重要性进行分析,从而可以避免文本质量很差、种类繁多的对象文本,在后期识别时没有很好的表现。在具体的实施例中,可以设置字符类别分别为:特殊字符、英文字符、数字字符。而对于中文字符只进行步骤S103的截取,不进行预处理。举例说明:以英文字符为例(不考虑大小写):提取文本中的英文字符AbcaBcde,利用皮尔逊系数将其映射成26个维度的向量:abcdefghijklmnopqrstuvwxyz2221100000000000000000000即可以分别判断每个本文档来自技高网...

【技术保护点】
1.一种图片识别方法,其特征在于,包括:/n接收图片,识别图片中的文本;/n根据预设的字符类别,分别将文本进行类别提取,以计算得到对应字符类别的相关性分析报告;/n根据各字符类别的相关性分析报告进行文本的预处理;/n基于预设的目标词库,对预处理后的文本进行截取;/n通过文本语义提取模型,对截取后的文本进行处理得到文本的向量表征;/n将文本的向量表征输入至预设的识别模型,确定是否存在目标行为信息。/n

【技术特征摘要】
1.一种图片识别方法,其特征在于,包括:
接收图片,识别图片中的文本;
根据预设的字符类别,分别将文本进行类别提取,以计算得到对应字符类别的相关性分析报告;
根据各字符类别的相关性分析报告进行文本的预处理;
基于预设的目标词库,对预处理后的文本进行截取;
通过文本语义提取模型,对截取后的文本进行处理得到文本的向量表征;
将文本的向量表征输入至预设的识别模型,确定是否存在目标行为信息。


2.根据权利要求1所述的方法,其特征在于,计算得到对应字符类别的相关性分析报告,包括:
提取文本中对应字符类别的所有字符,基于皮尔逊系数将所述所有字符映射成预设数量的维度向量,进而得到对应的分析报告。


3.根据权利要求2所述的方法,其特征在于,根据各字符类别的相关性分析报告进行文本的预处理,包括:
在字符类别的相关性分析报告中,判断是否存在数值大于预设阈值的;若存在则确定该字符类别与目标行为信息存在关系,保留对象文本中属于该字符类别的所有字符;若不存在则确定该字符类别与目标行为信息不存在关系,舍弃对象文本中属于该字符类别的所有字符。


4.根据权利要求1所述的方法,其特征在于,基于预设的目标词库,对预处理后的文本进行截取,包括:
基于预设的目标词库,定位预处理后的文本中的目标字符;
在目标字符前截取第一预设长度的第一文本,且在目标字符后截取第二预设长度的第二文本;
根据第一文本、目标字符和第二文本,得到截取后的文本。

【专利技术属性】
技术研发人员:周彬黄明星李银锋刘婷婷赖晨东
申请(专利权)人:北京沃东天骏信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1