实体识别方法、装置及计算机程序产品制造方法及图纸

技术编号：32476560 阅读：9 留言：0更新日期：2022-03-02 09:39

本公开提供了一种实体识别方法、装置、电子设备、存储介质及计算机程序产品，涉及人工智能领域，具体涉及深度学习、图像识别技术领域，可用于命名实体识别场景下。具体实现方案为：识别待识别图像，以确定对于待识别图像中的实体的初步识别结果；响应于确定初步识别结果中包括同类别的多个实体，确定待识别图像的图像特征和多个实体的文本特征；结合图像特征和文本特征，确定多个实体是否为连续的完整实体，得到完整实体确定结果；结合初步识别结果和完整实体确定结果，得到最终识别结果。本公开解决了实体不连续问题，提高了实体识别的准确度。确度。确度。

全部详细技术资料下载

【技术实现步骤摘要】
实体识别方法、装置及计算机程序产品

[0001]本公开涉及人工智能领域，具体涉及深度学习、图像识别
，尤其涉及实体识别方法、装置、电子设备、存储介质以及计算机程序产品，可用于命名实体识别场景下。

技术介绍

[0002]在企业的运作过程中，会收到大量的来自供应商或者客户的名片，这些名片中蕴含着大量有用的信息，我们需要把它提取并结构化出来，予企业赋能。常涉及到的技术有通用OCR(Optical Character Recognition，光学字符识别)技术、NER(Named Entity Recognition，命名实体识别)技术、CMRC(Chinese machine reading comprehension，中文机器阅读理解)技术等。目前，业界一般的做法是先采用OCR技术得到名片的文本信息，然后使用NER技术得到名片中关键字段的结构化信息。但是得到的结构化信息会存在实体不连续的问题。

技术实现思路

[0003]本公开提供了一种实体识别方法、装置、电子设备、存储介质以及计算机程序产品。
[0004]根据第一方面，提供了一种实体识别方法，包括：识别待识别图像，以确定对于待识别图像中的实体的初步识别结果；响应于确定初步识别结果中包括同类别的多个实体，确定待识别图像的图像特征和多个实体的文本特征；结合图像特征和文本特征，确定多个实体是否为连续的完整实体，得到完整实体确定结果；结合初步识别结果和完整实体确定结果，得到最终识别结果。
[0005]根据第二方面，提供了一种实体识别装置，包...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法，包括：识别待识别图像，以确定对于所述待识别图像中的实体的初步识别结果；响应于确定所述初步识别结果中包括同类别的多个实体，确定所述待识别图像的图像特征和所述多个实体的文本特征；结合所述图像特征和所述文本特征，确定所述多个实体是否为连续的完整实体，得到完整实体确定结果；结合所述初步识别结果和所述完整实体确定结果，得到最终识别结果。2.根据权利要求1所述的方法，其中，所述确定所述待识别图像的图像特征和所述多个实体的文本特征，包括：通过预训练的特征提取模型得到所述待识别图像的整体图像特征和所述待识别图像中对应于所述多个实体的区域图像的区域图像特征；确定标记序列中的每个标记对应的位置嵌入特征、片段嵌入特征和标记嵌入特征，其中，所述标记序列中包括所述多个实体中的每个预设粒度文本对应的文本标记和所述待识别图像中对应于所述多个实体的区域图像对应的图像标记，位置嵌入特征用于表征标记的位置信息，片段嵌入特征用于表征标记的片段信息，标记嵌入特征用于表征标记对应的预设粒度文本的嵌入信息。3.根据权利要求2所述的方法，其中，所述结合所述图像特征和所述文本特征，确定所述多个实体是否为连续的完整实体，得到完整实体确定结果，包括：对于所述标记序列中的每个文本标记，结合该标记对应的整体图像特征、位置嵌入特征、片段嵌入特征和标记嵌入特征，和/或，对于所述标记序列中的每个图像标记，结合该标记对应的区域图像特征、位置嵌入特征、片段嵌入特征和标记嵌入特征，得到结合后特征；将所述结合后特征输入预训练的完整实体确定模型，确定所述多个实体是否为连续的完整实体，得到所述完整实体确定结果，其中，所述完整实体确定模型用于确定所述结合后特征所表征的多个实体是否为连续的完整实体。4.根据权利要求1
‑
3中任一项所述的方法，其中，所述结合所述初步识别结果和所述完整实体确定结果，得到最终识别结果，包括：在所述初步识别结果的基础上，响应于确定所述完整实体确定结果表征所述多个实体为连续的完整实体，拼接所述多个实体，得到所述最终识别结果。5.根据权利要求1
‑
3中任一项所述的方法，其中，所述识别待识别图像，以确定对于所述待识别图像中的实体的初步识别结果，包括：识别所述待识别图像，得到文本信息；通过预训练的全局指针模型提取所述文本信息中的实体，得到所述初步识别结果，其中，所述全局指针模型用于提取所述文本信息中的实体。6.根据权利要求3所述的方法，其中，所述完整实体确定模型通过如下方式训练得到：获取训练样本集，其中，所述训练样本集中的训练样本包括多个分裂实体和表征多个分裂实体属于同一完整实体的关系标签；利用机器学习方法，以训练样本中的多个分裂实体为输入，以所输入的训练样本中的关系标签为期望输出，训练得到所述完整实体确定模型。7.一种实体识别装置，包括：
识别单元，被配置成识别待识别图像，以确定对于所述待识别图像中的实体的初步识别结果；第一确定单元，被配置成响应于确定所述初步识别结果中包括同类别的多个实体，确定所述待识别图像的图像特征和所述多个实体的文本特征；第二确定单元，被配置成结合所述...

【专利技术属性】
技术研发人员：陈禹燊，岳洪达，许海洋，韩光耀，章良杰，方文浩，冯博豪，肖非，权梁旭，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人