一种基于多维度的机器智能文本识别可信度判别方法技术

技术编号：26223394 阅读：15 留言：0更新日期：2020-11-04 10:55

本发明专利技术涉及人工智能、语义分析和知识校验技术领域，尤其为一种基于多维度的机器智能文本识别可信度判别方法，其具体步骤如下：步骤100：输入待识别的文本切片图像；本发通过提出的基于多维度的机器智能文本识别可信度判别方法，是自动判断机器智能识别是否正确的重要环节。机器智能文本识别在最后输出层会选择相对概率最大的结果作为识别结果返回，但相对概率最大是基于单一输入图像相关的，对于不同的输入图像，其返回的概率值不具有可比性，因此该概率值不能直接用作机器识别结果的可行度判别。本发明专利技术提出的多维度可信度判别方法对于不同的输入文本切片图像具有普适性，从而为机器智能文本识别结果是否可以相信提供了较一致的判别方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多维度的机器智能文本识别可信度判别方法
本专利技术涉及人工智能、语义分析和知识校验
，具体为一种基于多维度的机器智能文本识别可信度判别方法。
技术介绍
近年来，随着数字成像设备的普及和深度学习算法的广泛应用，智能文本识别工具不断涌现，如汉王、合合、阿里云识别、腾讯云识别、百度云识别、华为云识别等，文本识别精度不断提升。但是，目前已有的文本识别工具，除了返回识别结果和坐标位置，很难对识别结果是否完全可信或是否需要人工再审核做出判别，在医疗票据理赔等需要极高准确率的应用场合，无法做到完全的人机分离就无法起到降本增效的作用，不能满足极高精度文本识别和结构化数据采集的应用需求。综上所述，本专利技术通过设计一种基于多维度的机器智能文本识别可信度判别方法来解决存在的问题。
技术实现思路
本专利技术的目的在于提供一种基于多维度的机器智能文本识别可信度判别方法，通过多引擎识别结果一致性、可识别信息完整度、上下文语义逻辑规则、字段内先验知识规则、关联字段知识校验规则等维度对机器识别结果进行全面评估，得到高度可靠的机器识别结果可信度，满足实际应用场合中高精度、高自动化率、预期结果可控的需求。为实现上述目的，本专利技术提供如下技术方案：一种基于多维度的机器智能文本识别可信度判别方法，其具体步骤如下：步骤100：输入待识别的文本切片图像；步骤200：从多个识别引擎中获取文本识别结果，并从多引擎识别结果一致性维度进行可信度判别；步骤300：提取文本图像的有效像素...

【技术保护点】
1.一种基于多维度的机器智能文本识别可信度判别方法，其具体步骤如下：/n步骤100：输入待识别的文本切片图像；/n步骤200：从多个识别引擎中获取文本识别结果，并从多引擎识别结果一致性维度进行可信度判别；/n步骤300：提取文本图像的有效像素，并统计已识别像素和总体有效像素，从可识别信息完整度维度进行可信度判别；/n步骤400：从上下文语义维度进行可信度判别；/n步骤500：确定文本切片所处内容的先验知识，从先验知识规则维度进行可信度判别；/n步骤600：确定文本切片的关联内容，从关联知识规则维度进行可信度判别；/n步骤700：综合多维度，确定机器智能文本识别的最终可信度；/n步骤800：对于不同应用场合，采用不同的可信度阈值，得出完全采纳、存疑、或不采纳机器智能文本识别的判别结果。/n

【技术特征摘要】
1.一种基于多维度的机器智能文本识别可信度判别方法，其具体步骤如下：
步骤100：输入待识别的文本切片图像；
步骤200：从多个识别引擎中获取文本识别结果，并从多引擎识别结果一致性维度进行可信度判别；
步骤300：提取文本图像的有效像素，并统计已识别像素和总体有效像素，从可识别信息完整度维度进行可信度判别；
步骤400：从上下文语义维度进行可信度判别；
步骤500：确定文本切片所处内容的先验知识，从先验知识规则维度进行可信度判别；
步骤600：确定文本切片的关联内容，从关联知识规则维度进行可信度判别；
步骤700：综合多维度，确定机器智能文本识别的最终可信度；
步骤800：对于不同应用场合，采用不同的可信度阈值，得出完全采纳、存疑、或不采纳机器智能文本识别的判别结果。

2.根据权利要求1所述的一种基于多维度的机器智能文本识别可信度判别方法，其特征在于：所述步骤100获取待识别文本图像切片的方法为以下三种方法之一：
方法1是用智能文本检测工具得到的文本框局部图像；
方法2是采用交互式裁剪工具得到的文本框局部图像；
方法3是读取一个预先存储的文本切片图像文件。

3.根据权利要求1所述的一种基于多维度的机器智能文本识别可信度判别方法，其特征在于：所述步骤200为从多引擎识别结果一致性维度进行可信度判别，具体包括如下步骤：
步骤210，采用多个网络结构互异的深度学习神经网络模型(例如ResNet、DarkNet、Attraction等)训练得到的智能文本识别引擎，得到输入文本图像切片的文本识别结果(包括位置信息和文字信息)。

4.根据权利要求1所述的一种基于多维度的机器智能文本识别可信度判别方法，其特征在于：所述步骤300为从识别信息完整度维度进行可信度判别，具体包括如下步骤：
步骤310：采用二值化、颜色分离等方法得到该输入文本切片图像的背景和前景信息；
步骤320：在前景图上，过滤掉孤立点和噪声点，并统计前景信息总像素P1；
步骤330：结合步骤210中已识别文字的位置信息，在前景图上统计已识别文字区域的总像素P2；
步骤340：采用P2/P1得到已识别信息的完整度，并记为完整度维度分数S2。

5.根据权利要求1所述的一种基于多维度的机器智能文本识别可信度判别方法，其特征在于：所述步骤400是从上下文语义规则维度进行可信度判别，具体包括如下步骤：
步骤410：采用中文语义理解模型，对识别结果进行分词、词性分析；...

【专利技术属性】
技术研发人员：张成栋，严京旗，卞志强，
申请(专利权)人：晶璞上海人工智能科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人