一种识别版记的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36615984 阅读:20 留言:0更新日期:2023-02-15 00:22
本发明专利技术公开了一种识别版记的方法、装置、电子设备及存储介质。所述方法包括:获取待识别文档;遍历所述待识别文档的段落,将包含关键字符集合中任一关键字符的段落确定为版记内容,并确定所述版记内容对应的版记类型;收集所述待识别文档中确定的版记内容得到版记内容集合,基于所述版记内容集合确定候选版记,其中,所述候选版记中包含所述版记内容和所述版记内容所对应的版记类型,所述候选版记为至少一个,所述版记内容为一个或者多个;遍历所述候选版记,并判断所述候选版记中版记内容所对应的版记类型,是否为预设版记类型;如果是所述预设版记类型,则将所述候选版记确定为所述待识别文档的版记。为所述待识别文档的版记。为所述待识别文档的版记。

【技术实现步骤摘要】
一种识别版记的方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机软件应用
,特别是涉及一种识别版记的方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,用户在使用文档编辑软件对文档进行编辑时,可能需要编辑部分排版格式固定的文档。例如,行政公文。在行政公文中,对于版记的内容存在固定的排版格式,例如,版记中的主题词需要用3号黑体字,居左顶格标识,后标全角冒号,词目用3号小标宋体字。
[0003]用户针对文档中的具有固定排版格式的内容,例如版记,往往需要手动调整排版格式,不仅操作繁琐,还容易出现错误。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种识别版记的方法、装置、电子设备及存储介质,以解决用户手动操作的繁琐,实现自动识别文档中版记的功能,方便自动调整版记的排版格式。具体技术方案如下所示。
[0005]本专利技术实施例提供了一种识别版记的方法,包括:
[0006]获取待识别文档;
[0007]遍历所述待识别文档的段落,将包含关键字符集合中任一关键字符的段落确定为版记内容,并确定所述版记内容对应的版记类型;
[0008]收集所述待识别文档中确定的版记内容得到版记内容集合,基于所述版记内容集合确定候选版记,其中,所述候选版记中包含所述版记内容和所述版记内容所对应的版记类型,所述候选版记为至少一个,所述版记内容为一个或者多个;
[0009]遍历所述候选版记,并判断所述候选版记中版记内容所对应的版记类型,是否为预设版记类型;
[0010]如果是所述预设版记类型,则将所述候选版记确定为所述待识别文档的版记。
[0011]可选地,所述确定所述版记内容对应的版记类型,包括:
[0012]根据所述版记内容包含的关键字符确定段落初始版记类型,其中,所述段落初始版记类型是与所述版记内容一一对应的版记类型,所述关键字符集合中任一关键字符对应于一个版记类型。
[0013]可选地,在确定所述版记内容对应的版记类型之后,收集所述待识别文档中确定的版记内容得到版记内容集合之前,所述方法还包括:
[0014]再次遍历所述待识别文档的段落,根据预设段落规则确定当前遍历的段落对应的段落备选版记类型。
[0015]可选地,所述根据预设段落规则确定当前遍历的段落对应的段落备选版记类型,包括:
[0016]基于所述当前遍历的段落与上一段落的段落初始版记类型确定情况,根据所述预
设段落规则确定所述当前遍历的段落对应的段落备选版记类型。
[0017]可选地,所述根据所述预设段落规则确定所述当前遍历的段落对应的段落备选版记类型,包括:
[0018]在所述当前遍历的段落对应的段落初始版记类型为第一目标版记类型的情况下,将所述当前遍历的段落对应的段落初始版记类型,确定为所述当前遍历的段落对应的段落备选版记类型;
[0019]在所述当前遍历的段落没有被确定为版记内容,且所述上一段落对应的段落初始版记类型为第二目标版记类型的情况下,将所述上一段落对应的段落初始版记类型,确定为所述当前遍历的段落对应的段落备选版记类型;
[0020]在所述当前遍历的段落对应的段落初始版记类型为第三目标版记类型,且所述上一段落对应的段落初始版记类型为所述第二目标版记类型的情况下,将第四目标版记类型,确定为所述当前遍历的段落对应的段落备选版记类型。
[0021]可选地,在获取待识别文档之后,收集所述待识别文档中确定的版记内容得到版记内容集合之前,所述方法还包括:
[0022]遍历所述待识别文档的表格中的表格行内容,将包含所述关键字符集合中任一关键字符的表格行内容确定为版记内容,并针对被确定为版记内容的表格行内容确定对应的版记类型。
[0023]可选地,所述针对被确定为版记内容的表格行内容确定对应的版记类型,包括:
[0024]根据所述被确定为版记内容的表格行内容包含的关键字符,确定表格初始版记类型,其中,所述表格初始版记类型是与所述被确定为版记内容的表格行内容一一对应的版记类型;所述关键字符集合中任一关键字符对应于一个版记类型。
[0025]可选地,在针对被确定为版记内容的表格行内容确定对应的版记类型之后,收集所述待识别文档中确定的版记内容得到版记内容集合之前,所述方法还包括:
[0026]再次遍历所述待识别文档的表格,根据预设表格规则确定当前遍历的表格中表格行内容对应的表格备选版记类型。
[0027]可选地,所述根据预设表格规则确定当前遍历的表格中表格行内容对应的表格备选版记类型,包括:
[0028]针对所述当前遍历的表格,遍历所述表格中的表格行内容,判断当前遍历的表格行内容是否符合预设表格行要求;
[0029]在所述当前遍历的表格行内容符合所述预设表格行要求的情况下,将所述当前遍历的表格行内容对应的表格初始版记类型,标记为所述当前遍历的表格行内容对应的表格备选版记类型。
[0030]可选地,所述方法还包括:
[0031]在所述当前遍历的表格行内容不符合所述预设表格行要求的情况下,将所述当前遍历的表格中的全部表格行内容的标记清除,并直接遍历下一表格。
[0032]可选地,所述判断当前遍历的表格行内容是否符合预设表格行要求,包括:
[0033]在所述当前遍历的表格行内容包含版记内容,且上一表格行内容和下一表格行内容都包含版记内容的情况下,确定所述当前遍历的表格行内容符合预设表格行要求;或者
[0034]在所述当前遍历的表格行内容包含版记内容,所述上一表格行内容包含版记内
容,并且不存在所述下一表格行内容的情况下,确定所述当前遍历的表格行内容符合所述预设表格行要求。
[0035]可选地,所述根据预设表格规则确定当前遍历的表格中表格行内容对应的表格备选版记类型,包括:
[0036]基于所述当前遍历的表格中表格行内容的版记内容确定情况,根据预设表格规则确定所述当前遍历的表格是否包含版记内容;
[0037]在所述当前遍历的表格包含版记内容的情况下,将所述当前遍历的表格中表格行内容对应的表格初始版记类型,确定为所述表格行内容对应的表格备选版记类型;在所述当前遍历的表格不包含版记内容的情况下,确定所述当前遍历的表格中任一表格行内容不为版记内容。
[0038]可选地,所述根据预设表格规则确定所述当前遍历的表格是否包含版记内容,包括:
[0039]在所述当前遍历的表格中的表格行内容都被确定为版记内容的情况下,确定所述当前遍历的表格包含版记内容;
[0040]在所述当前遍历的表格中任一表格行内容未被确定为版记内容的情况下,确定所述当前遍历的表格不包含版记内容。
[0041]可选地,所述基于所述版记内容集合确定候选版记,包括:
[0042]根据版记内容在所述待识别文档的位置,按照从前到后的顺序,遍历所述版记内容集合中的版记内容;
[0043]在当前遍历的版记内容,与上一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别版记的方法,其特征在于,包括:获取待识别文档;遍历所述待识别文档的段落,将包含关键字符集合中任一关键字符的段落确定为版记内容,并确定所述版记内容对应的版记类型;收集所述待识别文档中确定的版记内容得到版记内容集合,基于所述版记内容集合确定候选版记,其中,所述候选版记中包含所述版记内容和所述版记内容所对应的版记类型,所述候选版记为至少一个,所述版记内容为一个或者多个;遍历所述候选版记,并判断所述候选版记中版记内容所对应的版记类型,是否为预设版记类型;如果是所述预设版记类型,则将所述候选版记确定为所述待识别文档的版记。2.根据权利要求1所述的方法,其特征在于,所述确定所述版记内容对应的版记类型,包括:根据所述版记内容包含的关键字符确定段落初始版记类型,其中,所述段落初始版记类型是与所述版记内容一一对应的版记类型,所述关键字符集合中任一关键字符对应于一个所述版记类型。3.根据权利要求2所述的方法,其特征在于,在确定所述版记内容对应的版记类型之后,收集所述待识别文档中确定的版记内容得到版记内容集合之前,所述方法还包括:再次遍历所述待识别文档的段落,根据预设段落规则确定当前遍历的段落对应的段落备选版记类型。4.根据权利要求3所述的方法,其特征在于,所述根据预设段落规则确定当前遍历的段落对应的段落备选版记类型,包括:基于所述当前遍历的段落与上一段落的段落初始版记类型确定情况,根据所述预设段落规则确定所述当前遍历的段落对应的段落备选版记类型。5.根据权利要求4所述的方法,其特征在于,所述根据所述预设段落规则确定所述当前遍历的段落对应的段落备选版记类型,包括:在所述当前遍历的段落对应的段落初始版记类型为第一目标版记类型的情况下,将所述当前遍历的段落对应的段落初始版记类型,确定为所述当前遍历的段落对应的段落备选版记类型;在所述当前遍历的段落没有被确定为版记内容,且所述上一段落对应的段落初始版记类型为第二目标版记类型的情况下,将所述上一段落对应的段落初始版记类型,确定为所述当前遍历的段落对应的段落备选版记类型;在所述当前遍历的段落对应的段落初始版记类型为第三目标版记类型,且所述上一段落对应的段落初始版记类型为所述第二目标版记类型的情况下,将第四目标版记类型,确定为所述当前遍历的段落对应的段落备选版记类型。6.根据权利要求1所述的方法,其特征在于,在获取待识别文档之后,收集所述待识别文档中确定的版记内容得到版记内容集合之前,所述方法还包括:遍历所述待识别文档的表格中的表格行内容,将包含所述关键字符集合中任一关键字符的表格行内容确定为版记内容,并针对被确定为版记内容的表格行内容确定对应的版记类型。
7.根据权利要求6所述的方法,其特征在于,所述针对被确定为版记内容的表格行内容确定对应的版记类型,包括:根据所述被确定为版记内容的表格行内容包含的关键字符,确定表格初始版记类型,其中,所述表格初始版记类型是与所述被确定为版记内容的表格行内容一一对应的版记类型;所述关键字符集合中任一关键字符对应于一个版记类型。8.根据权利要求7所述的方法,其特征在于,在针对被确定为版记内容的表格行内容确定对应的版记类型之后,收集所述待识别文档中确定的版记内容得到版记内容集合之前,所述方法还包括:再次遍历所述待识别文档的表格,根据预设表格规则确定当前遍历的表格中表格行内容对应的表格备选版记类型。9.根据权利要求8所述的方法,其特征在于,所述根据预设表格规则确定当前遍历的表格中表格行内容对应的表格备选版记类型,包括:针对所述当前遍历的表格,遍历所述表格中的表格行内容,判断当前遍历的表格行内容是否符合预设表格行要求;在所述当前遍历的表格行内容符合所述预设表格行要求的情况下,将所述当前遍历的表格行内容对应的表格初始版记类型,标记为所述当前遍历的表格行内容对应的表格备选版记类型。10.根据权利要求9所述的方法,其特征在于,还包括:在所述当前遍历的表格行内容不符合所述预设表格行要求的情况下,将所述当前遍历的表格中的全部表格行内容的标记清除,并直接遍历下一表格。11.根据权利要求9所述的方法,其特征在于,所述判断当前遍历的表格行内容是否符合预设表格行要求...

【专利技术属性】
技术研发人员:辛洋
申请(专利权)人:北京金山办公软件股份有限公司武汉金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1