图片类别的识别方法、装置、电子设备及存储设备制造方法及图纸

技术编号:30067699 阅读:14 留言:0更新日期:2021-09-18 08:18
本申请公开了一种图片类别的识别方法,包括:获得目标图片;根据所述目标图片生成图结构;根据所述图结构得到图结构的向量特征信息;将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。采用上述方法,以解决现有技术存在的根据像素特征对文档图片进行分类时受到干扰多而导致的需要大量数据训练的问题。题。题。

【技术实现步骤摘要】
图片类别的识别方法、装置、电子设备及存储设备


[0001]本申请涉及计算机
,具体涉及一种图片类别的识别方法、装置、电子设备及存储设备;本申请还涉及一种图片搜索方法,一种图片身份卡证的识别方法,以及一种图片票据的处理方法;本申请还涉及另一种图片类别的识别方法和一种知识图谱的构建方法。

技术介绍

[0002]目前,光学字符识别技术(例如,读光OCR)提供特定文档图片的光学字符识别与信息结构化服务,但是此技术需要预先知道该文档图片属于哪种文档。真实场景下,很多不同类型的文档数据都会混杂在一起,如果对文档类型进行人工打标需要额外成本,并且也存在错误率,用户希望能有自动化数据分类的方案。
[0003]现有技术下,在对文档图片进行分类时,采用CNN(卷积神经网络)抽取文档图片的像素特征,再将文档图片的像素特征输入分类器来判断文档图片的图片类型。该方案的缺点是像素级别的特征受到的干扰非常多,如光影、模糊、色调、拍摄角度等,因此往往需要大量的数据来训练。

技术实现思路

[0004]本申请提供一种图片类别的识别方法、装置、电子设备及存储设备,以解决现有技术存在的根据像素特征对文档图片进行分类时受到干扰多而导致的需要大量数据训练的问题。
[0005]本申请提供一种图片类别的识别方法,包括:
[0006]获得目标图片;
[0007]根据所述目标图片得到含有坐标信息和文字内容的文本块;
[0008]根据所述文本块生成图结构;
[0009]根据所述图结构得到图结构的向量特征信息;
[0010]将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。
[0011]可选的,所述根据所述图结构得到图结构的向量特征信息,包括:
[0012]根据所述图结构得到图结构的文本块特征信息;
[0013]将所述图结构的文本块特征信息转换为向量特征信息;
[0014]可选的,所述根据所述文本块生成图结构,包括:
[0015]将所述文本块中的文字内容转化为节点的向量特征信息作为所述文本块对应的图结构的节点的特征信息;
[0016]将两个文本块之间的相对位置信息和相对宽高信息作为两个文本块对应的节点之间的边的特征信息;
[0017]根据所述节点的特征信息和节点之间的边的特征信息生成图结构。
[0018]可选的,所述将两个文本块之间的相对位置信息和相对宽高信息作为两个文本块对应的节点之间的边的特征信息,包括:
[0019]根据两个节点对应的文本块的坐标信息,得到与文本块对应的两个矩形;
[0020]对两个矩形的宽和高进行归一化处理,得到归一化处理后的两个矩形;
[0021]将两个矩形对应顶点之间的相对位置信息和归一化处理后的矩形的宽度信息和高度信息作为两个文本块对应的节点之间的边的特征信息。
[0022]可选的,所述根据所述图结构得到图结构的文本块特征信息,包括:
[0023]将图结构中每个节点的特征信息和图结构包含的所有边的特征信息进行合并处理,作为图结构的文本块特征信息。
[0024]可选的,所述根据所述节点的特征信息和节点之间的边的特征信息生成图结构,包括:
[0025]根据所述节点的特征信息和节点之间的边的特征信息生成全连接有向图。
[0026]可选的,所述将所述向量特征信息输入向量分类模型,得到所述目标图片的类别,包括:
[0027]将所述向量特征信息输入向量分类模型,向量分类模型输出向量特征信息属于每一类别的概率值;
[0028]根据向量特征信息属于每一类别的概率值,得到所述向量特征信息对应的类别;
[0029]将所述向量特征信息对应的类别作为所述目标图片的类别。
[0030]可选的,所述根据向量特征信息属于每一类别的概率值,得到所述向量特征信息对应的类别,包括:
[0031]从所述向量特征信息属于每一类别的概率值中选取最大的概率值;
[0032]判断所述最大的概率值是否大于或等于预设的概率阈值;
[0033]若是,将所述最大的概率值对应的图片类别作为所述向量特征信息对应的类别。
[0034]可选的,所述目标图片为包含文字信息的文档图片。
[0035]本申请还提供一种图片类别的识别装置,包括:
[0036]目标图片获得单元,用于获得目标图片;
[0037]文本块得到单元,用于根据所述目标图片得到含有坐标信息和文字内容的文本块;
[0038]图结构生成单元,用于根据所述文本块生成图结构;
[0039]向量特征信息得到单元,用于根据所述图结构得到图结构的向量特征信息;
[0040]目标图片的类别得到单元,用于将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。
[0041]本申请还提供一种电子设备,包括:
[0042]处理器;以及
[0043]存储器,用于存储图片类别的识别方法的程序,该设备通电并通过所述处理器运行该图片类别的识别方法的程序后,执行下述步骤:
[0044]获得目标图片;
[0045]根据所述目标图片得到含有坐标信息和文字内容的文本块;
[0046]根据所述文本块生成图结构;
[0047]根据所述图结构得到图结构的向量特征信息;
[0048]将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。
[0049]本申请还提供一种存储设备,存储有图片类别的识别方法的程序,该程序被处理器运行,执行下述步骤:
[0050]获得目标图片;
[0051]根据所述目标图片得到含有坐标信息和文字内容的文本块;
[0052]根据所述文本块生成图结构;
[0053]根据所述图结构得到图结构的向量特征信息;
[0054]将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。
[0055]本申请提供一种图片搜索方法,包括:
[0056]获得待搜索的图片;
[0057]根据所述待搜索的图片,生成所述待搜索的图片的图结构;
[0058]获得所述图结构的向量特征信息;
[0059]利用向量分类模型,获得所述待搜索的图片的类别;
[0060]根据所述待搜索的图片的类别,输出所述待搜索的图片的信息数据。
[0061]本申请提供一种图片身份卡证的识别方法,包括:
[0062]获得待识别的图片身份卡证;
[0063]根据所述图片身份卡证,生成所述图片身份卡证的图结构;
[0064]利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图片类别的识别方法,其特征在于,包括:获得目标图片;根据所述目标图片得到含有坐标信息和文字内容的文本块;根据所述文本块生成图结构;根据所述图结构得到图结构的向量特征信息;将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。2.根据权利要求1所述的方法,其特征在于,所述根据所述图结构得到图结构的向量特征信息,包括:根据所述图结构得到图结构的文本块特征信息;将所述图结构的文本块特征信息转换为向量特征信息。3.根据权利要求1所述的方法,其特征在于,所述根据所述文本块生成图结构,包括:将所述文本块中的文字内容转化为节点的向量特征信息作为所述文本块对应的图结构的节点的特征信息;将两个文本块之间的相对位置信息和相对宽高信息作为两个文本块对应的节点之间的边的特征信息;根据所述节点的特征信息和节点之间的边的特征信息生成图结构。4.根据权利要求3所述的方法,其特征在于,所述将两个文本块之间的相对位置信息和相对宽高信息作为两个文本块对应的节点之间的边的特征信息,包括:根据两个节点对应的文本块的坐标信息,得到与文本块对应的两个矩形;对两个矩形的宽和高进行归一化处理,得到归一化处理后的两个矩形;将两个矩形对应顶点之间的相对位置信息和归一化处理后的矩形的宽度信息和高度信息作为两个文本块对应的节点之间的边的特征信息。5.根据权利要求3或4所述的方法,其特征在于,所述根据所述图结构得到图结构的文本块特征信息,包括:将图结构中每个节点的特征信息和图结构包含的所有边的特征信息进行合并处理,作为图结构的文本块特征信息。6.根据权利要求3所述的方法,其特征在于,所述根据所述节点的特征信息和节点之间的边的特征信息生成图结构,包括:根据所述节点的特征信息和节点之间的边的特征信息生成全连接有向图。7.根据权利要求1所述的方法,其特征在于,所述将所述向量特征信息输入向量分类模型,得到所述目标图片的类别,包括:将所述向量特征信息输入向量分类模型,向量分类模型输出向量特征信息属于每一类别的概率值;根据向量特征信息属于每一类别的概率值,得到所述向量特征信息对应的类别;将所述向量特征信息对应的类别作为所述目标图片的类别。8.根据权利要求7所述的方法,其特征在于,所述根据向量特征信息属于每一类别的概率值,得到所述向量特征信息对应的类别,包括:从所述向量特征信息属于每一类别的概率值中选取最大的概率值;
判断所述最大的概率值是否大于或等于预设的概率阈值;若是,将所述最大的概率值对应的图片类别作为所述向量特征信息对应的类别。9.根据权利要求1所述的方法,其特征在于,所述目标图片为包含文字信息的文档图片。10.一种图片类别的识别装置,其特征在于,包括:目标图片获得单元,用于获得目标图片;文本块得到单元,用于根据所述目标图片得到含有坐标信息和文字内容的文本块;图结构生成单元,用于根据所述文本块生成图结构;向量特征信息得到单元,用于根据所述图...

【专利技术属性】
技术研发人员:高飞宇王永攀
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1