一种面向网络流传输的中文PDF文件文本内容提取方法技术

技术编号:13515257 阅读:90 留言:0更新日期:2016-08-12 01:26
本发明专利技术属于网络信息处理技术领域,尤其是一种面向网络流传输的中文PDF文件文本内容提取方法。本发明专利技术包括:步骤A:提供给应用层逻辑的接口;步骤B:对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取。本发明专利技术通过对网络数据流传输的中文PDF文件内容提取各个步骤进行分析及优化,达到了整个系统在时间效率,空间效率上最大可能的优化,同时,避免了时延抖动这样有害现象的产生,使得该方法能够在不影响系统整体运行效率得情况下,运行于大流量的监管系统中。

【技术实现步骤摘要】
201610161029

【技术保护点】
一种面向网络流传输的中文PDF文件文本内容提取方法,其特征在于,包括下列步骤:步骤A:提供给应用层逻辑的接口;步骤B:对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取;所述步骤B包括些下列步骤:步骤B1,PDF文件内容流定位;步骤B2,PDF文件内容流预解压与预识别;步骤B3,PDF文件内容流解压;步骤B4,PDF文件转码映射文件提取;步骤B5,PDF文件中文CID编码提取;步骤B6,PDF文件CID编码池内容通过缓冲池的方式提交。

【技术特征摘要】
1.一种面向网络流传输的中文PDF文件文本内容提取方法,其特征在于,包括下列步骤:步骤A:提供给应用层逻辑的接口;步骤B:对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取;所述步骤B包括些下列步骤:步骤B1,PDF文件内容流定位;步骤B2,PDF文件内容流预解压与预识别;步骤B3,PDF文件内容流解压;步骤B4,PDF文件转码映射文件提取;步骤B5,PDF文件中文CID编码提取;步骤B6,PDF文件CID编码池内容通过缓冲池的方式提交。2.根据权利要求1所述的一种面向网络流传输的中文PDF文件文本内容提取方法,其特征在于,所述步骤A包括下列步骤:步骤A11,通过设定输入缓冲,使得中文PDF文件文本内容提取装置能够获得PDF文件数据;步骤A12,通过设定输出缓冲,使得中文PDF文件文本内容提取装置能够将解析获取的中文文本内容反馈给应用层解析逻辑。3.根据权利要求1所述的一种面向网络流传输的中文PDF文件文本内容提取方法,其特征在于,所述步骤B1包括下列步骤:步骤B11,通过快速的单模式匹配算法,定位PDF文件内容流标签;步骤B12,通过内容流标签数据的解析,获取内容流数据。4.根据权利要求1所述的一种面向网络流传输的中文PDF文件文本内容提取方法,其特征在于,所述步骤B2包括下列步骤:步骤B21,通...

【专利技术属性】
技术研发人员:王巍杨武苘大鹏玄世昌段茂涛
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1