本申请公开了一种文档内容分类方法、系统、装置及计算机可读存储介质,包括:将所述文档转换为图片格式,得到与所述目标文档对应的目标图片;利用预设的文档内容分类模型,从所述目标图片中提取内容特征,根据内容特征对所述目标图片进行区域划分,得到多个待排序的分割区域;利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型进行排序,得到多个文本顺序正确的文本区域;将各个文本区域重新排序,得到重组后的文档。本申请过图像识别按照类别将文档划分为多个区域,每个区域单独进行排版,使的排版更为灵活,区域之间的错误不严重影响整体,最后进行整体排序,得到完整的文档。得到完整的文档。得到完整的文档。
【技术实现步骤摘要】
文档内容分类方法、系统、装置及计算机可读存储介质
[0001]本专利技术涉及信息检索领域,特别涉及一种文档内容分类方法、系统、装置及计算机可读存储介质。
技术介绍
[0002]文档内容分类技术是在一定的分类体系下对信息内容进行标注分类,属于信息检索技术的一个研究领域,其作用是帮助人们提高管理和处理文本信息的效率,在文档结构化处理、文档组织、文本过滤等领域广泛使用。经过调研,传统的文档内容分类技术是基于统计和规则的方法实现,基于统计的方法是在大规模的语料库上学习到的一种具有不确定性的基于概率推理方法,该方法的不足之处是语料的覆盖范围需要足够的广才能取得好的效果。基于规则的方法是根据语言学中的一些规则约束制定一定的分类规则,该方法是一种确定性的推理方法,该方法的不足之处是规则的制定需要领域专家的参与,进而造成规则的更新存在一定的限制。随着深度神经网络技术的发展,近些年来对于文档内容分类任务大多是基于NLP相关任务实现,实现基本方式是先对文本做分词处理,并做Embedding操作提取文字的特征向量,再经过一系列的卷积、池化操作,最后对输出结果经过softmax(Softmax logical regression,softmax逻辑回归)得到分类结果,该方式的优点是模型简单且容易训练,不足之处是根据训练的结果有针对性的对模型参数调整,同时对于长篇幅的文档无法体现出词向量之间语义特征。总之,上述的基于文本内容分类方法的前提是需要大量的、符合正确语义的、具有正确的文字顺序的文字内容做基础支撑,并且需要对文本数据做一定的预处理,例如分词处理、词频清洗、特殊符号与停用词的处理、词向量的构建等。
[0003]顺序是保障文本语义正确的前提,无论是文档分类后的结果,还是对每个类别中的文字进行检测和识别,其返回的结果都有可能是乱序的,对于这些结果不做顺序上的处理会直接严重影响下游NLP(Natural Language Processing,自然语言处理)相关任务的效果,因此返回正确的顺序是至关重要的。现有技术中,在对文本排序过程中,容易出现判断错误导致文档布局混乱。
[0004]因此,需要一种识别更为精准更为灵活和有效的文档内容分类方法
技术实现思路
[0005]有鉴于此,本专利技术的目的在于提供一种文档内容分类方法、系统、装置及计算机可读存储介质,更为灵活和有效。其具体方案如下:
[0006]一种文档内容分类方法,包括:
[0007]获取目标文档,将所述文档转换为图片格式,得到与所述目标文档对应的目标图片;
[0008]利用预设的文档内容分类模型,按照预设的分类标准,从所述目标图片中提取内容特征,根据内容特征对所述目标图片进行区域划分,得到多个待排序的分割区域;
[0009]利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域;
[0010]利用各个文本区域的内容特征和文本顺序,将各个文本区域重新排序,得到重组后的文档;
[0011]其中,所述文档内容分类模型为预先根据预设的所述分类标准,对历史图片进行分割训练得到的;所述文档布局分析模型为预先根据预设的所述布局规则,对历史图片进行布局训练得到的。
[0012]可选的,所述文档内容分类模型采用ResNet+FPN作为骨干网络,对ResNet网络中每一个ResBlock结构生成的Feature Map先融合通道注意力模型,再融合空间注意力模型,得到了由整个骨干网络生成的融合了注意力机制的Feature Map。
[0013]可选的,所述分类标准,包括:文本、标题、表格体、表格标题、表格注释、列表、图像、注释、页眉和页脚。
[0014]可选的,所述利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域的过程,包括:
[0015]利用文档布局分析模型分析出分割区域的文本类型;
[0016]利用分割区域的文本类型,计算出与分割区域相应的BoundingBox坐标区域;
[0017]利用BoundingBox坐标区域的宽度与相应的分割区域的宽度确定分割区域的排序纵向排序顺序;
[0018]利用BoundingBox坐标区域的高度,判断分割区域中的文本间距。
[0019]本专利技术还公开了一种文档内容分类系统,包括:
[0020]图片转换模块,用于获取目标文档,将所述文档转换为图片格式,得到与所述目标文档对应的目标图片;
[0021]区域分类模块,用于利用预设的文档内容分类模型,按照预设的分类标准,从所述目标图片中提取内容特征,根据内容特征对所述目标图片进行区域划分,得到多个待排序的分割区域;
[0022]文档布局模块,用于利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域;
[0023]文档重组模块,用于利用各个文本区域的内容特征和文本顺序,将各个文本区域重新排序,得到重组后的文档;
[0024]其中,所述文档内容分类模型为预先根据预设的所述分类标准,对历史图片进行分割训练得到的;所述文档布局分析模型为预先根据预设的所述布局规则,对历史图片进行布局训练得到的。
[0025]可选的,所述文档布局模块,包括:
[0026]文本类型分析单元,用于利用文档布局分析模型分析出分割区域的文本类型;
[0027]BoundingBox计算单元,用于利用分割区域的文本类型,计算出与分割区域相应的BoundingBox坐标区域;
[0028]纵向排序单元,用于利用BoundingBox坐标区域的宽度与相应的分割区域的宽度确定分割区域的排序纵向排序顺序;
[0029]间距排序单元,用于利用BoundingBox坐标区域的高度,判断分割区域中的文本间距。
[0030]本专利技术还公开了一种文档内容分类装置,包括:
[0031]存储器,用于存储计算机程序;
[0032]处理器,用于执行所述计算机程序以实现如前述的文档内容分类方法。
[0033]本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的文档内容分类方法。
[0034]本专利技术中,文档内容分类方法,包括:获取目标文档,将所述文档转换为图片格式,得到与所述目标文档对应的目标图片;利用预设的文档内容分类模型,按照预设的分类标准,从所述目标图片中提取内容特征,根据内容特征对所述目标图片进行区域划分,得到多个待排序的分割区域;利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文档内容分类方法,其特征在于,包括:获取目标文档,将所述文档转换为图片格式,得到与所述目标文档对应的目标图片;利用预设的文档内容分类模型,按照预设的分类标准,从所述目标图片中提取内容特征,根据内容特征对所述目标图片进行区域划分,得到多个待排序的分割区域;利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域;利用各个文本区域的内容特征和文本顺序,将各个文本区域重新排序,得到重组后的文档;其中,所述文档内容分类模型为预先根据预设的所述分类标准,对历史图片进行分割训练得到的;所述文档布局分析模型为预先根据预设的所述布局规则,对历史图片进行布局训练得到的。2.根据权利要求1所述的文档内容分类方法,其特征在于,所述文档内容分类模型采用ResNet+FPN作为骨干网络,对ResNet网络中每一个ResBlock结构生成的Feature Map先融合通道注意力模型,再融合空间注意力模型,得到了由整个骨干网络生成的融合了注意力机制的Feature Map。3.根据权利要求2所述的文档内容分类方法,其特征在于,所述分类标准,包括:文本、标题、表格体、表格标题、表格注释、列表、图像、注释、页眉和页脚。4.根据权利要求2所述的文档内容分类方法,其特征在于,所述利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域的过程,包括:利用文档布局分析模型分析出分割区域的文本类型;利用分割区域的文本类型,计算出与分割区域相应的BoundingBox坐标区域;利用BoundingBox坐标区域的宽度与相应的分割区域的宽度确定分割区域的排序纵向排序顺序;利用Boundin...
【专利技术属性】
技术研发人员:王明辉,闾磊,高阳,黄甫毅,樊淼淼,
申请(专利权)人:四川医枢科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。