一种基于聚类的文章组段方法技术

技术编号：35512936 阅读：36 留言：0更新日期：2022-11-09 14:28

本发明专利技术公开了一种基于聚类的文章组段方法，步骤包括：计算待处理文书每行文本的半角字符的长度，存入一维数组中；将一维数组中的值，映射成平面上的坐标点；以映射坐标点为输入、以初始距离x进行聚类分析，得到聚类集合；在聚类集合中寻找坐标值最大和次大的聚类集合；计算元素的数量，数量较多的聚类集合作为需要处理的集合；计算需要处理的集合的方差；当集合方差>a，以距离为x

全部详细技术资料下载

【技术实现步骤摘要】
一种基于聚类的文章组段方法

[0001]本专利技术涉及计算机应用技术，特别是一种基于聚类的文章组段方法。

技术介绍

[0002]在无纸化办公的过程中，常见的场景是当事人提交的纸质材料，需要扫描后转换成双层PDF，然后从PDF中提取出文本信息。此时，文本信息的每行，都会有一个换行符，这样，原来的段落信息就被分割成每行的信息。这种格式，可能将一些特征关键词分割到不同的行上，对后期的数据挖掘带来一定的困难。本专利技术可以将这种文本，处理成为正常的段落，删除多余的换行符，为后面环节的文本利用，做好了充分的铺垫。

技术实现思路

[0003]针对现有技术中存在的问题，本专利技术提供了一种对于OCR识别出来的文书删除多余的换行符，使文书的段落重组起来；可以减少误判情况的基于聚类的文章组段方法。
[0004]本专利技术的目的通过以下技术方案实现。
[0005]一种基于聚类的文章组段方法，步骤包括：
[0006]1)计算待处理文书每行文本的半角字符的长度，存入一维数组中；
[0007]2)将一维数组中的值，映射成平面上的坐标点：映射成X轴或者Y轴上的坐标点；
[0008]3)以映射坐标点CustomerPoint为输入、以初始距离x进行聚类分析，即平面上的坐标点，最大半径不超过x的点就分到一个集合内，得到若干集合：聚类集合clusterResult；
[0009]4)在聚类集合clusterResult中寻找坐标值最大和次大的聚类集合；
[0010]5)计算坐标值...

【技术保护点】

【技术特征摘要】
1.一种基于聚类的文章组段方法，其特征在于步骤包括：1)计算待处理文书每行文本的半角字符的长度，存入一维数组中；2)将一维数组中的值，映射成平面上的坐标点：映射成X轴或者Y轴上的坐标点；3)以映射坐标点CustomerPoint为输入、以初始距离x进行聚类分析，即平面上的坐标点，最大半径不超过x的点就分到一个集合内，得到若干集合：聚类集合clusterResult；4)在聚类集合clusterResult中寻找坐标值最大和次大的聚类集合；5)计算坐标值最大和次大的聚类集合中元素的数量，数量较多的聚类集合作为需要处理的集合clusterReturn；6)计算需要处理的集合的方差，得到集合方差diff；7)当集合方差diff>a，以距离为x
‑
1重新进行聚类，重新返回执行步骤3)
‑
步骤6)；8)当集合方差diff>a，以距离为x...

【专利技术属性】
技术研发人员：周小伟，
申请(专利权)人：南京通达海科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人