基于聚类分析的图纸文本读取方法及系统技术方案

技术编号:16080417 阅读:45 留言:0更新日期:2017-08-25 15:43
本发明专利技术公开了基于聚类分析的图纸文本读取方法,包括以下步骤:S1:将图纸上的文本框根据其角度进行角度分类;S2:提取同一角度类型的文本框的坐标特征值;S3:对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序;S4:将排序后的文本框根据该文本框的角度类型进行文字输出。本发明专利技术还公开了使用本发明专利技术方法的基于聚类分析的图纸文本读取系统。本发明专利技术基于聚类分析的图纸文本读取方法和系统,通过将文本框聚类,使得内容相近的文本框被聚到同一个类,然后输出文字,避免了连续的内容被解析到相隔非常远的地方,使得提取图纸文本并进行翻译更加方便。

【技术实现步骤摘要】
基于聚类分析的图纸文本读取方法及系统
本专利技术涉及文字排版领域,具体涉及基于聚类分析的图纸文本读取方法及系统。
技术介绍
随着国际合作日益加强,无论是中国公司还是外国公司,在国际工程与国际科研的立项及开展过程中,都需要通过图纸文件与对方进行交流。由于多次修改、手动排版等原因,图纸经常会出现本来应该是完整的一句话,被拆分为多个文本框手动放到了互相靠近的位置。而由于图纸文件自身的特性(文本框在文件中是依据写入时间依次往后写的),所以图纸上看起来相邻的文本框在保存内容上并不一定相邻,有些甚至可能隔得非常远,这使得提取图纸文本时,连续的内容被解析到相隔非常远的地方,这就对提取图纸文本并进行翻译造成了巨大的困扰。
技术实现思路
本专利技术所要解决的技术问题是提取图纸文本时,连续的内容被解析到相隔非常远的地方,导致提取图纸文本并进行翻译不便,目的在于提供基于聚类分析的图纸文本读取方法及系统,解决上述问题。本专利技术通过下述技术方案实现:基于聚类分析的图纸文本读取方法,包括以下步骤:S1:将图纸上的文本框根据其角度进行角度分类;S2:提取同一角度类型的文本框的坐标特征值;S3:对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序;S4:将排序后的文本框根据该文本框的角度类型进行文字输出。由于多次修改、手动排版等原因,图纸经常会出现本来应该是完整的一句话,被拆分为多个文本框手动放到了互相靠近的位置。而由于图纸文件自身的特性(文本框在文件中是依据写入时间依次往后写的),所以图纸上看起来相邻的文本框在保存内容上并不一定相邻,有些甚至可能隔得非常远,这使得提取图纸文本时,连续的内容被解析到相隔非常远的地方,这就对提取图纸文本并进行翻译造成了巨大的困扰。本专利技术应用时,先对图纸上的文本框根据其角度进行角度分类,将文本框分入多个不同的角度类型,如cad图纸中常出现的:0°、90°、180°和270°;然后提取同一角度类型的文本框的坐标特征值,这种坐标特征值是标识每一个文本框独有位置的坐标值;再然后,对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序;最后,将排序后的文本框根据该文本框的角度类型进行文字输出。以cad图纸为例:如文本框的角度为0°,则文字输出的顺序为从左到右;如文本框的角度为90°,则文字输出的顺序为从下到上;如文本框的角度为180°,则文字输出的顺序为从右到左;如文本框的角度为270°,则文字输出的顺序为从上到下。本专利技术通过将文本框聚类,使得内容相近的文本框被聚到同一个类,然后输出文字,避免了连续的内容被解析到相隔非常远的地方,使得提取图纸文本并进行翻译更加方便。进一步的,所述坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值。本专利技术应用时,坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值,由于坐标特征值是标识每一个文本框独有位置的坐标值,上述五种坐标值均可以表达该文本框的独有位置,有效提高了本专利技术聚类的准确性。进一步的,所述聚类采用optics算法;所述optics算法通过读取有序文本框组中文本框的坐标特征值来确定文本框之间的相对距离;所述坐标特征值相似的标准为相对距离小于或等于阈值。本专利技术应用时,由于图纸上的文本框具有规则但是不规整的特点,专利技术人通过创造性劳动发现,由于文本框不规则,所以很难准确确定聚类参数,而采用optics算法时,聚类参数发生合理变化时,聚类结果变化不大。而在本专利技术应用的optics算法中,通过读取有序文本框组中文本框的坐标特征值来确定文本框之间的相对距离,然后以这个相对距离作为optics算法所需要数据,这种方式可以有效的确定文本框是否聚集,并将不聚集的文本框分到不同的类中。在本专利技术optics算法中,坐标特征值相似的标准为相对距离小于阈值,该阈值在本专利技术用应用为密度值,只需要规定合理的密度值,即可将文本框合理的聚类,有效降低聚类误差。进一步的,步骤S3还包括以下子步骤:聚类完成后,根据文本框的坐标特征值对每一个类中文本框构成的形状进行判断;如果文本框构成的形状为预设形状,则对该类执行S4;如果文本框构成的形状不为预设形状,则对该类调整聚类参数并执行S3。本专利技术应用时,以土木施工cad图纸为例:土木施工cad图纸中文本框的特点为,如果文本框的角度为0°,则第一行文本框的水平坐标相同或相似,同时,第一列文本框的纵向坐标相同或相似,所以预设形状采用第一行文本框的水平坐标相同或相似同时第一列文本框的纵向坐标相同或相似的形状。而在聚类分析中,有时会出现聚类后的文本框构成的形状为“T”型或者圆形,这时,认定该形状不为预设形状,并对该类调整聚类参数并再次聚类。本专利技术通过对文本框构成的形状的判断,有效的提高了聚类的准确性。基于聚类分析的图纸文本读取系统,包括用于将图纸上的文本框根据其角度进行角度分类的分类模块;用于提取同一角度类型的文本框的坐标特征值的提取模块;用于对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序的聚类模块;用于将排序后的文本框根据该文本框的角度类型进行文字输出的输出模块。本专利技术应用时,分类模块先对图纸上的文本框根据其角度进行角度分类,将文本框分入多个不同的角度类型,如cad图纸中常出现的:0°、90°、180°和270°;然后提取模块提取同一角度类型的文本框的坐标特征值,这种坐标特征值是标识每一个文本框独有位置的坐标值;再然后,聚类模块对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序;最后,输出模块将排序后的文本框根据该文本框的角度类型进行文字输出。以cad图纸为例:如文本框的角度为0°,则文字输出的顺序为从左到右;如文本框的角度为90°,则文字输出的顺序为从下到上;如文本框的角度为180°,则文字输出的顺序为从右到左;如文本框的角度为270°,则文字输出的顺序为从上到下。本专利技术通过将文本框聚类,使得内容相近的文本框被聚到同一个类,然后输出文字,避免了连续的内容被解析到相隔非常远的地方,使得提取图纸文本并进行翻译更加方便。进一步的,所述坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值。本专利技术应用时,坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值,由于坐标特征值是标识每一个文本框独有位置的坐标值,上述五种坐标值均可以表达该文本框的独有位置,有效提高了本专利技术聚类的准确性。进一步的,所述聚类采用optics算法;所述optics算法通过读取有序文本框组中文本框的坐标特征值来确定文本框之间的相对距离;所述坐标特征值相似的标准为相对距离小于或等于阈值。本专利技术应用时,由于图纸上的文本框具有规则但是不规整的特点,专利技术人通过创造性劳动发现,由于文本框不规则,所以很难准确确定聚类参数,而采用optics算法时,聚类参数发生合理变化时,聚类结果变化不大。而在本专利技术应用的opti本文档来自技高网...
基于聚类分析的图纸文本读取方法及系统

【技术保护点】
基于聚类分析的图纸文本读取方法,其特征在于,包括以下步骤:S1:将图纸上的文本框根据其角度进行角度分类;S2:提取同一角度类型的文本框的坐标特征值;S3:对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序;S4:将排序后的文本框根据该文本框的角度类型进行文字输出。

【技术特征摘要】
1.基于聚类分析的图纸文本读取方法,其特征在于,包括以下步骤:S1:将图纸上的文本框根据其角度进行角度分类;S2:提取同一角度类型的文本框的坐标特征值;S3:对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序;S4:将排序后的文本框根据该文本框的角度类型进行文字输出。2.根据权利要求1所述的基于聚类分析的图纸文本读取方法,其特征在于,所述坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值。3.根据权利要求1所述的基于聚类分析的图纸文本读取方法,其特征在于,所述聚类采用optics算法;所述optics算法通过读取有序文本框组中文本框的坐标特征值来确定文本框之间的相对距离;所述坐标特征值相似的标准为相对距离小于或等于阈值。4.根据权利要求1所述的基于聚类分析的图纸文本读取方法,其特征在于,步骤S3还包括以下子步骤:聚类完成后,根据文本框的坐标特征值对每一个类中文本框构成的形状进行判断;如果文本框构成的形状为预设形状,则对该类执行S4;如果文本框构成的形状不为预设形状,则对该类调整聚类参数并执行S3。5.采用权利要求1的...

【专利技术属性】
技术研发人员:席斌李明王兴强彭成超
申请(专利权)人:成都优译信息技术股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1