【技术实现步骤摘要】
201610161029
【技术保护点】
一种面向网络流传输的中文PDF文件文本内容提取方法,其特征在于,包括下列步骤:步骤A:提供给应用层逻辑的接口;步骤B:对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取;所述步骤B包括些下列步骤:步骤B1,PDF文件内容流定位;步骤B2,PDF文件内容流预解压与预识别;步骤B3,PDF文件内容流解压;步骤B4,PDF文件转码映射文件提取;步骤B5,PDF文件中文CID编码提取;步骤B6,PDF文件CID编码池内容通过缓冲池的方式提交。
【技术特征摘要】
1.一种面向网络流传输的中文PDF文件文本内容提取方法,其特征在于,包括下列步骤:步骤A:提供给应用层逻辑的接口;步骤B:对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取;所述步骤B包括些下列步骤:步骤B1,PDF文件内容流定位;步骤B2,PDF文件内容流预解压与预识别;步骤B3,PDF文件内容流解压;步骤B4,PDF文件转码映射文件提取;步骤B5,PDF文件中文CID编码提取;步骤B6,PDF文件CID编码池内容通过缓冲池的方式提交。2.根据权利要求1所述的一种面向网络流传输的中文PDF文件文本内容提取方法,其特征在于,所述步骤A包括下列步骤:步骤A11,通过设定输入缓冲,使得中文PDF文件文本内容提取装置能够获得PDF文件数据;步骤A12,通过设定输出缓冲,使得中文PDF文件文本内容提取装置能够将解析获取的中文文本内容反馈给应用层解析逻辑。3.根据权利要求1所述的一种面向网络流传输的中文PDF文件文本内容提取方法,其特征在于,所述步骤B1包括下列步骤:步骤B11,通过快速的单模式匹配算法,定位PDF文件内容流标签;步骤B12,通过内容流标签数据的解析,获取内容流数据。4.根据权利要求1所述的一种面向网络流传输的中文PDF文件文本内容提取方法,其特征在于,所述步骤B2包括下列步骤:步骤B21,通...
【专利技术属性】
技术研发人员:王巍,杨武,苘大鹏,玄世昌,段茂涛,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。