本申请涉及数据处理的数据存储领域,具体涉及一种数据录入方法、装置、计算机设备以及存储介质。方法包括:通过获取待录入文档的文档图片,而后通过光学字符识别方法解析文档图片,获得文档图片对应的文档信息;并提取文档信息中的特征信息以及关键词来判断文档信息的格式类别以及内容类别,并对文档信息进行分类,获得文档信息对应的文档类型;根据文档类型将文档信息分类导入至对应数据库内。本申请采用光学字符识别方法自动识别文档,并根据文档内的信息内容对文档信息,并自动录入数据,可以提高数据录入效率,减少发生录入时发生错误,提高数据录入的效率。
Data input method, device, computer equipment and storage medium
【技术实现步骤摘要】
数据录入方法、装置、计算机设备以及存储介质
本申请涉及计算机
,特别是涉及一种数据录入方法、装置、计算机设备以及存储介质。
技术介绍
随着计算机技术的发展,数据录入的场景也越来越常见。数据录入是指通过录入设备把数据记载到存贮介质上,以备电子计算机操作时调用。数据录入可以分为:调查问卷录入、数字录入、档案录入和Word文档、Excel数据表、WPS文档、纯英文录入、纯数字录入、中英文混合数据录入以及网页HTML文件格式、PDF格式文件的录入等等。当需要将一些文档内的数据录入数据库时,一般需要手动输入,在这时可能会因为误操作而录入错误数据。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能有效避免误操作导致录入错误的数据录入方法、装置、计算机设备以及存储介质。一种数据录入方法,所述方法包括:获取待录入文档的文档图片;通过光学字符识别方法解析所述文档图片,获得所述文档图片对应的文档信息;提取所述文档信息的特征信息以及关键词信息,根据所述特征信息确定所述文档信息的格式属性,根据所述关键词信息确定所述文档信息的内容属性,根据所述格式属性与所述内容属性对所述文档信息进行分类,获得文档类型;根据所述文档类型将所述文档信息分类导入至对应数据库内,所述对应数据库包括各类型文档对应的存储空间。在其中一个实施例中,所述提取所述文档信息中的特征信息以及关键词信息,根据所述特征信息与所述关键词信息,对所述文档信息进行分类,获得文档类型具体包括:获取的文档信息中的特征信息;获取所述文档信息中词语的出现频率,将出现频率高于预设频率阈值的词语确定为待录入文档的关键词;根据所述特征信息确定所述文档信息的格式属性,根据所述关键词信息确定所述文档信息的内容属性,根据所述格式属性确定所述待录入文档的格式类别,查找待录入文档同格式类别文档中各内容类别文档的关键词,通过对比所述内容类别文档的关键词与待录入文档的关键词确定所述待录入文档的内容类别,获得文档类型。在其中一个实施例中,所述获取所述文档信息中词语的出现频率,将出现频率高于预设频率阈值的词语确定为待录入文档的关键词还包括:识别所述文档信息中词语,通过对比所述文档信息中词语与预设关键词确定待录入文档的关键词。在其中一个实施例中,所述通过光学字符识别所述文档图片,获得所述文档图片对应的文档信息具体包括:将所述文档图片转化为二值化图;对所述二值化图进行修正处理,所述修正处理包括去噪处理与倾斜矫正处理;对修正处理后所述二值化图进行分割处理;对分割处理完成后的所述二值化图进行字符识别,得到文档信息。在其中一个实施例中,所述提根据所述文档类型将所述文档信息分类导入至对应数据库内之前还包括:提取文档信息内文档格式信息;获取所述文档类型对应的类型格式信息;获取所述文档格式信息与所述类型格式信息的格式相似度,根据所述相似度为所述文档信息添加格式相似度标签。在其中一个实施例中,所述提取所述文档信息中的特征信息以及关键词信息,根据所述特征信息与所述关键词信息,对所述文档信息进行分类,获得文档类型之前还包括:当存在待录入文档对应的配置场景信息以及类型信息时,根据所述配置信息场景以及所述类型信息,对所述文档信息进行分类,获得文档类型。一种数据录入装置,所述装置包括:图片获取模块,用于获取待录入文档的文档图片;信息识别模块,用于通过光学字符识别所述文档图片,获得所述文档图片对应的文档信息;文档分类模块,用于提取所述文档信息的特征信息以及关键词信息,根据所述特征信息确定所述文档信息的格式属性,根据所述关键词信息确定所述文档信息的内容属性,根据所述格式属性与所述内容属性对所述文档信息进行分类,获得文档类型;数据导入模块,用于根据所述文档类型将所述文档信息分类导入至对应数据库内,所述对应数据库包括各类型文档对应的存储空间。在其中一个实施例中,所述文档分类模块具体用于:获取的文档信息中的特征信息,所述特征信息具体包括标题信息、页眉信息以及文档格式信息;获取所述文档信息中词语的出现频率,将出现频率高于预设频率阈值的词语确定为待录入文档的关键词;根据所述特征信息确定所述文档信息的格式属性,根据所述关键词信息确定所述文档信息的内容属性,根据所述格式属性确定所述待录入文档的格式类别,查找待录入文档同格式类别文档中各内容类别文档的关键词,通过对比所述内容类别文档的关键词与待录入文档的关键词确定所述待录入文档的内容类别,获得文档类型。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待录入文档的文档图片;通过光学字符识别方法解析所述文档图片,获得所述文档图片对应的文档信息;提取所述文档信息的特征信息以及关键词信息,根据所述特征信息确定所述文档信息的格式属性,根据所述关键词信息确定所述文档信息的内容属性,根据所述格式属性与所述内容属性对所述文档信息进行分类,获得文档类型;根据所述文档类型将所述文档信息分类导入至对应数据库内,所述对应数据库包括各类型文档对应的存储空间。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待录入文档的文档图片;通过光学字符识别方法解析所述文档图片,获得所述文档图片对应的文档信息;提取所述文档信息的特征信息以及关键词信息,根据所述特征信息确定所述文档信息的格式属性,根据所述关键词信息确定所述文档信息的内容属性,根据所述格式属性与所述内容属性对所述文档信息进行分类,获得文档类型;根据所述文档类型将所述文档信息分类导入至对应数据库内,所述对应数据库包括各类型文档对应的存储空间。上述数据录入方法、装置、计算机设备以及存储介质,首先通过获取待录入文档的文档图片,而后通过光学字符识别方法解析文档图片,获得文档图片对应的文档信息;并提取文档信息中的特征信息以及关键词来判断文档信息的格式类别以及内容类别,并对文档信息进行分类,获得文档信息对应的文档类型;并根据文档类型将文档信息分类导入至对应数据库内。本申请采用光学字符识别方法自动识别文档,并根据文档内的信息内容对文档信息,并自动录入数据,可以提高数据录入效率,减少发生录入时发生错误,提高数据录入的效率。附图说明图1为一个实施例中数据录入方法的应用环境图;图2为一个实施例中数据录入方法的流程示意图;图3为一个实施例中图2的步骤S600的子流程示意图;图4为一个实施例中图2的步骤S400的子流程示意图;图5为另一个实施例中数据录入方法的流程示意图;图6为一个实施例中数据录入装置的结构框图;图7为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的数据录入方法,可以应用于如图1所示的应用环境中,其中,数据录入人员所在的终端102通过网络与服务器进行通信,服务器104通过网络获取数据录入提供的文档图片,服务器接受到文档图片后,首先通过光学字符识别方法解析文档图片,获得文档图片对应的文档信息;而后提取待录入文档的特征信息以及关键词信息,根据特征信息与关键词信息,对文档信息进行分类,获得本文档来自技高网...
【技术保护点】
1.一种数据录入方法,所述方法包括:获取待录入文档的文档图片;通过光学字符识别方法解析所述文档图片,获得所述文档图片对应的文档信息;提取所述文档信息的特征信息以及关键词信息,根据所述特征信息确定所述文档信息的格式属性,根据所述关键词信息确定所述文档信息的内容属性,根据所述格式属性与所述内容属性对所述文档信息进行分类,获得文档类型;根据所述文档类型将所述文档信息分类导入至对应数据库内,所述对应数据库包括各类型文档对应的存储空间。
【技术特征摘要】
1.一种数据录入方法,所述方法包括:获取待录入文档的文档图片;通过光学字符识别方法解析所述文档图片,获得所述文档图片对应的文档信息;提取所述文档信息的特征信息以及关键词信息,根据所述特征信息确定所述文档信息的格式属性,根据所述关键词信息确定所述文档信息的内容属性,根据所述格式属性与所述内容属性对所述文档信息进行分类,获得文档类型;根据所述文档类型将所述文档信息分类导入至对应数据库内,所述对应数据库包括各类型文档对应的存储空间。2.根据权利要求1所述的方法,其特征在于,所述提取所述文档信息中的特征信息以及关键词信息,根据所述特征信息与所述关键词信息,对所述文档信息进行分类,获得文档类型具体包括:获取的文档信息中的特征信息;获取所述文档信息中词语的出现频率,将出现频率高于预设频率阈值的词语确定为待录入文档的关键词;根据所述特征信息确定所述文档信息的格式属性,根据所述关键词信息确定所述文档信息的内容属性,根据所述格式属性确定所述待录入文档的格式类别,查找待录入文档同格式类别文档中各内容类别文档的关键词,通过对比所述内容类别文档的关键词与待录入文档的关键词确定所述待录入文档的内容类别,获得文档类型。3.根据权利要求2所述的方法,其特征在于,所述获取所述文档信息中词语的出现频率,将出现频率高于预设频率阈值的词语确定为待录入文档的关键词还包括:识别所述文档信息中词语,通过对比所述文档信息中词语与预设关键词确定待录入文档的关键词。4.根据权利要求1所述的方法,其特征在于,所述通过光学字符识别所述文档图片,获得所述文档图片对应的文档信息具体包括:将所述文档图片转化为二值化图;对所述二值化图进行修正处理,所述修正处理包括去噪处理与倾斜矫正处理;对修正处理后所述二值化图进行分割处理;对分割处理完成后的所述二值化图进行字符识别,得到文档信息。5.根据权利要求1所述的方法,其特征在于,所述提根据所述文档类型将所述文档信息分类导入至对应数据库内之前还包括:提取文档信息内文档格式信息;获取所述文档类型对应的类型格式信息;...
【专利技术属性】
技术研发人员:张杰,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。