System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文档识别,尤其涉及一种识别文档中代码段的方法及装置。
技术介绍
1、随着计算机技术的快速发展,各种各样的文档运用而生。一些文档中通常会包含一部分代码段,例如介绍计算机语言的文档,又如用于网络攻击而携带有恶意代码的文档。
2、基于自动调整文档中代码段格式或者避免文档中恶意代码进行网络攻击等需求,如何自动识别文档中的代码段,是目前亟待解决的问题。
技术实现思路
1、针对现有技术存在的问题,本专利技术实施例提供一种识别文档中代码段的方法及装置。
2、本专利技术提供一种识别文档中代码段的方法,包括:
3、确定目标文档中的待识别区域,所述待识别区域包含相连的至少一个文本行;
4、对各所述文本行进行文本行关联检测,得到所述待识别区域是否具有连续性特征的检测结果,所述连续性特征表征所述文本行之间的特征连续;
5、对各所述文本行中文本对象的字体进行识别,确定所述待识别区域是否具有字体特征的第一识别结果;
6、对各所述文本行中文本对象的固定宽度属性和统一码进行识别,确定所述待识别区域是否具有代码特征的第二识别结果;
7、根据所述检测结果、所述第一识别结果和所述第二识别结果,确定所述目标文档中的所述待识别区域是否为代码段。
8、根据本专利技术提供的一种识别文档中代码段的方法,所述对各所述文本行中文本对象的固定宽度属性和统一码进行识别,确定所述待识别区域是否具有代码特征的第二识别结果,包括:
...【技术保护点】
1.一种识别文档中代码段的方法,其特征在于,包括:
2.根据权利要求1所述的识别文档中代码段的方法,其特征在于,所述对各所述文本行中文本对象的固定宽度属性和统一码进行识别,确定所述待识别区域是否具有代码特征的第二识别结果,包括:
3.根据权利要求1或2所述的识别文档中代码段的方法,其特征在于,所述字体特征包括字体大小特征和字体簇特征,所述第一识别结果包括字体大小识别结果和字体簇识别结果;
4.根据权利要求3所述的识别文档中代码段的方法,其特征在于,所述根据各所述第一平均字体大小,确定所述待识别区域是否具有所述字体大小特征的所述字体大小识别结果,包括:
5.根据权利要求1或2所述的识别文档中代码段的方法,其特征在于,所述文本行关联检测包括内容类型检测和文本行类型检测,所述连续性特征包括内容类型特征和文本行类型特征,所述检测结果包括内容类型检测结果和文本行类型检测结果;
6.根据权利要求5所述的识别文档中代码段的方法,其特征在于,所述内容类型检测包括空行检测和图片行检测,所述内容类型特征包括空行特征和图片行特征,所述内容类型
7.根据权利要求5所述的识别文档中代码段的方法,其特征在于,所述文本行类型检测包括书写方向检测、行交集检测、字体样式检测和行距检测,所述文本行类型特征包括书写方向特征、行交集特征、字体样式特征和行距特征,所述文本行类型检测结果包括书写方向检测结果、行交集检测结果、字体样式检测结果和行距检测结果;
8.根据权利要求7所述的识别文档中代码段的方法,其特征在于,所述根据各所述行距,确定所述待识别区域是否具有所述行距特征的所述行距检测结果,包括:
9.根据权利要求7所述的识别文档中代码段的方法,其特征在于,所述对各文本行对进行行交集检测,判断各所述文本行对中的所述文本行在行方向上的投影是否存在交集之后,还包括:
10.根据权利要求1或2所述的识别文档中代码段的方法,其特征在于,所述根据所述检测结果、所述第一识别结果和所述第二识别结果,确定所述目标文档中的所述待识别区域是否为代码段,包括:
11.根据权利要求10所述的识别文档中代码段的方法,其特征在于,所述将所述检测结果、所述第一识别结果和所述第二识别结果分别与设定代码识别条件进行比较之后,还包括:
12.一种识别文档中代码段的装置,其特征在于,包括:
...【技术特征摘要】
1.一种识别文档中代码段的方法,其特征在于,包括:
2.根据权利要求1所述的识别文档中代码段的方法,其特征在于,所述对各所述文本行中文本对象的固定宽度属性和统一码进行识别,确定所述待识别区域是否具有代码特征的第二识别结果,包括:
3.根据权利要求1或2所述的识别文档中代码段的方法,其特征在于,所述字体特征包括字体大小特征和字体簇特征,所述第一识别结果包括字体大小识别结果和字体簇识别结果;
4.根据权利要求3所述的识别文档中代码段的方法,其特征在于,所述根据各所述第一平均字体大小,确定所述待识别区域是否具有所述字体大小特征的所述字体大小识别结果,包括:
5.根据权利要求1或2所述的识别文档中代码段的方法,其特征在于,所述文本行关联检测包括内容类型检测和文本行类型检测,所述连续性特征包括内容类型特征和文本行类型特征,所述检测结果包括内容类型检测结果和文本行类型检测结果;
6.根据权利要求5所述的识别文档中代码段的方法,其特征在于,所述内容类型检测包括空行检测和图片行检测,所述内容类型特征包括空行特征和图片行特征,所述内容类型检测结果包括空行检测结果和图片行检测结果;
7.根据权...
【专利技术属性】
技术研发人员:罗志旺,
申请(专利权)人:珠海金山办公软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。