一种基于聚类的文章组段方法技术

技术编号:35512936 阅读:17 留言:0更新日期:2022-11-09 14:28
本发明专利技术公开了一种基于聚类的文章组段方法,步骤包括:计算待处理文书每行文本的半角字符的长度,存入一维数组中;将一维数组中的值,映射成平面上的坐标点;以映射坐标点为输入、以初始距离x进行聚类分析,得到聚类集合;在聚类集合中寻找坐标值最大和次大的聚类集合;计算元素的数量,数量较多的聚类集合作为需要处理的集合;计算需要处理的集合的方差;当集合方差>a,以距离为x

【技术实现步骤摘要】
一种基于聚类的文章组段方法


[0001]本专利技术涉及计算机应用技术,特别是一种基于聚类的文章组段方法。

技术介绍

[0002]在无纸化办公的过程中,常见的场景是当事人提交的纸质材料,需要扫描后转换成双层PDF,然后从PDF中提取出文本信息。此时,文本信息的每行,都会有一个换行符,这样,原来的段落信息就被分割成每行的信息。这种格式,可能将一些特征关键词分割到不同的行上,对后期的数据挖掘带来一定的困难。本专利技术可以将这种文本,处理成为正常的段落,删除多余的换行符,为后面环节的文本利用,做好了充分的铺垫。

技术实现思路

[0003]针对现有技术中存在的问题,本专利技术提供了一种对于OCR识别出来的文书删除多余的换行符,使文书的段落重组起来;可以减少误判情况的基于聚类的文章组段方法。
[0004]本专利技术的目的通过以下技术方案实现。
[0005]一种基于聚类的文章组段方法,步骤包括:
[0006]1)计算待处理文书每行文本的半角字符的长度,存入一维数组中;
[0007]2)将一维数组中的值,映射成平面上的坐标点:映射成X轴或者Y轴上的坐标点;
[0008]3)以映射坐标点CustomerPoint为输入、以初始距离x进行聚类分析,即平面上的坐标点,最大半径不超过x的点就分到一个集合内,得到若干集合:聚类集合clusterResult;
[0009]4)在聚类集合clusterResult中寻找坐标值最大和次大的聚类集合;
[0010]5)计算坐标值最大和次大的聚类集合中元素的数量,数量较多的聚类集合作为需要处理的集合clusterReturn;
[0011]6)计算需要处理的集合的方差,得到集合方差diff;
[0012]7)当集合方差diff>a,以距离为x

1重新进行聚类,重新返回执行步骤3)

步骤6);
[0013]8)当集合方差diff>a,以距离为x

2重新进行聚类,重新返回执行步骤3)

步骤6),以此类推,直到集合方差diff≤a,得到最终需要处理的集合clusterReturn;
[0014]9)将待处理文书进行逐行处理,判断每行的半角字符长度是否在最终需要处理的集合clusterReturn中;
[0015]10)判断当前行长度不符或以标点符号结束则不删除换行符,否则删除换行符,最终得到重组段落后的文本。
[0016]所述初始距离x为大于等于3的整数。
[0017]所述a的取值范围是2.5

3.5,优选3。
[0018]所述标点符号包括感叹号、句号、分号和冒号。
[0019]相比于现有技术,本专利技术的优点在于:本专利技术对于OCR识别出来的文书,使用聚类算法,找出需要删除换行符的行;删除多余的换行符,使文书的段落重组起来;使用方差控
制结果,减少误判情况。
附图说明
[0020]图1为无纸化办公流程图。
[0021]图2为本专利技术流程图。
具体实施方式
[0022]下面结合说明书附图和具体的实施例,对本专利技术作详细描述。
[0023]如图1所示,在无纸化过程中,原始的纸质文字材料,经过扫描后转换成PDF,然后抽取成txt文本,此时,每行都存在换行符,原始的文章段落,被换行符分割,导致后面的数据挖掘环节,由于关键词可能被换行符分隔,导致最终的结果不正确。本算法可以将这种文本,还原成原始的段落,为顺利开展无纸化办公奠定基础。
[0024]如图2所示,本专利技术提供一种基于聚类的文章组段算法,将每行包含的字符数量长度映射成坐标轴上的点,然后通过聚类,找出需要删除换行符的行,最终将分行的段落还原成原始的行。所述具体过程如下:
[0025]1.计算待处理文书每行文本的半角字符的长度,存放到一维数组中:文本长度lineLength[];
[0026]2.将这个数组中的值,映射成平面上的坐标点,本专利技术中是一维数组,可以映射成X轴或者Y轴上的坐标点:映射坐标点CustomerPoint;
[0027]3.以映射坐标点CustomerPoint为输入、以初始距离为3(这个是固定的吗?后面需要进行聚类分析,即平面上的坐标点,最大半径不超过3的点就分到一个集合内。最终得到若干集合:聚类集合clusterResult;
[0028]4.在聚类集合clusterResult中寻找值最大(取集合内的第一个元素,读取坐标值)和次大的类,得到两个集合。
[0029]5.计算这两个集合中元素的数量,留下数量较多的集合:需要处理的集合clusterReturn;
[0030]6.计算这个集合的方差,得到值:集合方差diff;
[0031]7.判断,如果集合方差diff>3.0,说明包含范围比较大,以距离为2重新进行聚类,按照步骤4获取集合,按照步骤5再次计算方差,得到新的集合方差diff;
[0032]8.判断,如果集合方差diff>3.0,说明包含范围还是比较大,以距离为1重新聚类,再次执行步骤4、5,得到最终需要处理的集合clusterReturn;
[0033]9.将待处理文书进行逐行处理,判断每行的半角字符长度是否在聚类的结果中;
[0034]10.判断当前行是否长度不符或者以标点符号结束。标点符号可以事先定义好,缺省是感叹号、句号、分号和冒号。是则不删除换行符,否则删除换行符;
[0035]11.最终得到重组段落后的文本。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类的文章组段方法,其特征在于步骤包括:1)计算待处理文书每行文本的半角字符的长度,存入一维数组中;2)将一维数组中的值,映射成平面上的坐标点:映射成X轴或者Y轴上的坐标点;3)以映射坐标点CustomerPoint为输入、以初始距离x进行聚类分析,即平面上的坐标点,最大半径不超过x的点就分到一个集合内,得到若干集合:聚类集合clusterResult;4)在聚类集合clusterResult中寻找坐标值最大和次大的聚类集合;5)计算坐标值最大和次大的聚类集合中元素的数量,数量较多的聚类集合作为需要处理的集合clusterReturn;6)计算需要处理的集合的方差,得到集合方差diff;7)当集合方差diff>a,以距离为x

1重新进行聚类,重新返回执行步骤3)

步骤6);8)当集合方差diff>a,以距离为x...

【专利技术属性】
技术研发人员:周小伟
申请(专利权)人:南京通达海科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1