System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 可携带文档格式页面识别方法、装置、设备及介质制造方法及图纸_技高网

可携带文档格式页面识别方法、装置、设备及介质制造方法及图纸

技术编号:40297721 阅读:11 留言:0更新日期:2024-02-07 20:45
本公开提供了一种可携带文档格式页面识别方法、装置、设备及介质,涉及自然语言处理技术领域。该方法包括:读取可携带文档格式PDF文档的文本内容,得到第一识别文本和PDF文档各个段落的起始字符及方位坐标;通过各个段落的起始字符及方位坐标,将第一识别文本与PDF文档进行比较,确定各个段落的识别质量;其中,段落的识别质量为高质量文本或低质量文本;针对PDF文档中的低质量文本段落,利用图像化分析的方式进行重新读取和识别,并更新第一识别文本得到第二识别结果。根据本公开实施例,能够有效提升内容的识别质量。

【技术实现步骤摘要】

本公开涉及自然语言处理,尤其涉及一种可携带文档格式页面识别方法、装置、设备及介质


技术介绍

1、可携带文档格式(portable document format,pdf),是一种跨操作系统平台的文件格式。pdf格式文件由专用的“编写器”软件生成,也可由其他的文字、图像处理软件转换而成。

2、面对多源化的pdf格式文件,现有的各类pdf内容识别算法,识别效果不佳。

3、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本公开提供一种可携带文档格式页面识别方法、装置、设备及介质,至少在一定程度上改善现有的各类pdf内容识别算法识别效果不佳的问题。

2、本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

3、根据本公开的一个方面,提供了一种可携带文档格式页面识别方法,包括:

4、读取可携带文档格式pdf文档的文本内容,得到第一识别文本和pdf文档各个段落的起始字符及方位坐标;

5、通过各个段落的起始字符及方位坐标,将第一识别文本与pdf文档进行比较,确定各个段落的识别质量;其中,段落的识别质量为高质量文本或低质量文本;

6、针对pdf文档中的低质量文本段落,利用图像化分析的方式进行重新读取和识别,并更新第一识别文本得到第二识别结果。

7、在本公开的一个实施例中,通过各个段落的起始字符及方位坐标,将第一识别文本与pdf文档进行比较,确定各个段落的识别质量,包括:

8、通过各个段落的起始字符及方位坐标,对第一识别文本进行序列化纠错和指定关键字/词检索,以及对各个特殊字符和转义字符的位置和出现频率进行统计分析,确定各个段落的质量级别;其中,指定关键字/词是基于pdf文档预设的。

9、在本公开的一个实施例中,方法还包括:

10、通过对第二识别结果中不同区域的字符进行检测,确定每个区域的文字类型,每个区域的文字类型为中文或英文;

11、针对文字类型为英文的区域在第二识别结果中对应的文本,进行长字符串筛查;

12、针对筛查得到的长字符串进行单词维度的分词处理;

13、基于pdf文档,在分词处理后的文本中,引入缺失的标点,并更新第二识别文本得到第三识别结果。

14、在本公开的一个实施例中,基于pdf文档,在分词处理后的文本中,引入缺失的标点,包括:

15、识别pdf文档中的标点,根据识别到的标点,在分词处理后的文本中,引入缺失的标点,和/或,通过对分词处理后的文本进行情感分析,引入缺失的标点。

16、在本公开的一个实施例中,通过对第二识别结果中不同区域的字符进行检测,确定每个区域的文字类型,包括:

17、对第二识别结果中不同区域的字符量进行统计;

18、提取字符量总数预设位置处的预设数量的完整字符;

19、对提取的完整字符进行列表化处理;

20、根据列表长度,确定每个区域的文字类型。

21、在本公开的一个实施例中,读取可携带文档格式pdf文档的文本内容,得到第一识别文本和pdf文档各个段落的起始字符及方位坐标,包括:

22、读取可携带文档格式pdf文档的文本内容,得到原始识别文本;

23、通过比较pdf文档和原始识别文本,判断原始识别文本是否为按正常段落读取,并在pdf文档中确定异常文档,异常文档为没有按正常段落被读取的文档;

24、对异常文档采用字符化提取的方式进行内容获取,并根据转义字符进行拼接。

25、在本公开的一个实施例中,对异常文档采用字符化提取的方式进行内容获取,并根据转义字符进行拼接之后,方法还包括:

26、对拼接后的文本按照字符容量进行筛查,分离出问题文档,问题文档包括未成功读取的文档和/或包含大量空白文本的文档;

27、对问题文档以分页图像化的形式进行读取,再利用光学字符识别ocr算法进行文字识别,将识别结果以各个段落起始字符及方位坐标的形式进行返回,并更新原始识别文本得到第一识别结果。

28、根据本公开的另一个方面,提供一种可携带文档格式页面识别装置,包括:

29、文本读取模块,用于读取可携带文档格式pdf文档的文本内容,得到第一识别文本和pdf文档各个段落的起始字符及方位坐标;

30、质量判断模块,用于通过各个段落的起始字符及方位坐标,将第一识别文本与pdf文档进行比较,确定各个段落的识别质量;其中,段落的识别质量为高质量文本或低质量文本;

31、重识别模块,用于针对pdf文档中的低质量文本段落,利用图像化分析的方式进行重新读取和识别,并更新第一识别文本得到第二识别结果。

32、根据本公开的又一个方面,提供一种电子设备,包括:存储器,用于存储指令;处理器,用于调用所述存储器中存储的指令,实现上述的可携带文档格式页面识别方法。

33、根据本公开的又一个方面,提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现上述的可携带文档格式页面识别方法。

34、根据本公开的又一个方面,提供一种计算机程序产品,计算机程序产品存储有指令,所述指令在由计算机执行时,使得计算机实施上述的可携带文档格式页面识别方法。

35、根据本公开的又一个方面,提供一种芯片,包括至少一个处理器和接口;

36、接口,用于为至少一个处理器提供程序指令或者数据;

37、至少一个处理器用于执行程序指令,以实现上述的可携带文档格式页面识别方法。

38、本公开实施例所提供的可携带文档格式页面识别方法、装置、设备及介质,通过各个段落的起始字符及方位坐标,将第一识别文本与pdf文档进行比较,确定各个段落的识别质量,然后,针对pdf文档中的低质量文本段落,利用图像化分析的方式进行重新读取和识别,并更新第一识别文本得到第二识别结果,能够有效提升内容的识别质量。

39、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文档来自技高网...

【技术保护点】

1.一种可携带文档格式页面识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,通过所述各个段落的起始字符及方位坐标,将所述第一识别文本与所述PDF文档进行比较,确定各个段落的识别质量,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,基于所述PDF文档,在分词处理后的文本中,引入缺失的标点,包括:

5.根据权利要求3所述的方法,其特征在于,通过对所述第二识别结果中不同区域的字符进行检测,确定每个区域的文字类型,包括:

6.根据权利要求1所述的方法,其特征在于,读取可携带文档格式PDF文档的文本内容,得到第一识别文本和所述PDF文档各个段落的起始字符及方位坐标,包括:

7.根据权利要求6所述的方法,其特征在于,对异常文档采用字符化提取的方式进行内容获取,并根据转义字符进行拼接之后,所述方法还包括:

8.一种可携带文档格式页面识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-7中任意一项所述的可携带文档格式页面识别方法。

...

【技术特征摘要】

1.一种可携带文档格式页面识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,通过所述各个段落的起始字符及方位坐标,将所述第一识别文本与所述pdf文档进行比较,确定各个段落的识别质量,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,基于所述pdf文档,在分词处理后的文本中,引入缺失的标点,包括:

5.根据权利要求3所述的方法,其特征在于,通过对所述第二识别结果中不同区域的字符进行检测,确定每个区域的文字类型,包括:

6.根据权...

【专利技术属性】
技术研发人员:朱美龙李明达王朝晖
申请(专利权)人:中国电信股份有限公司技术创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1