本发明专利技术公开了一种用于图纸的文本断句方法、系统、设备和存储介质,方法包括对图纸进行文本解析得到初始语句序列;根据文本框的位置,调整所述初始语句序列,生成可选语句序列;对所述可选语句序列进行文本标注,采用标注后的文本构建训练集;采用所述训练集对SVM模型进行训练,得到识别模型和断句模型;对待处理图纸进行解析得到初始语句序列,并根据文本框的位置,调整初始语句序列,生成可选语句序列;利用所述识别模型从待处理图纸的可选语句序列中识别出正确语句序列;利用所述断句模型对所述正确语句序列进行断句处理。本发明专利技术能够实现图纸文本的有效断句,并保证其处理效率和准确性。确性。确性。
【技术实现步骤摘要】
一种用于图纸的文本断句方法、系统、设备和存储介质
[0001]本专利技术属于图纸文本处理
,具体涉及一种用于图纸的文本断句方法、系统、设备和存储介质。
技术介绍
[0002]图纸的特性在于存在图纸中各种位置的文本框,有些是要合并的,有些是无需合并的。例如,假定图纸中有一部分是这样的多个文本框,每个文本框中有对应的内容,如图1所示。根据图1可知,该示例中有些文本框是需要合并的,如需要将分别记载有“设”、“计”、“图”内容的文本框识别整合为一段文字“设计图”;将“本设计图由XXX设计院制作,”所在本文框和位置关系上与之临近的记载有“交由YYY公司进行建设。此为YYY项目的第一版设计图,未有详尽之处请参考其他文档。”内容的下方文本框先识别整合为一段文字“本设计图由XXX设计院制作,交由YYY公司进行建设。此为YYY项目的第一版设计图,未有详尽之处请参考其他文档。”,再进行分句;将记载有“制作XXX”、“审查XXX”、“复核XXX”内容的文本框识别整合为另一段。
[0003]由于图纸本身的特殊性,其解析出来的文本框顺序通常是不规范的,因此现有基于机器学习的断句技术无法准确可靠的实现图纸的文本断句,而普通的文本聚类也无法实现图纸的文本断句。
技术实现思路
[0004]为了解决现有技术无法准确可靠的实现图纸的文本断句的问题,本专利技术提供了解决上述问题的一种用于图纸的文本断句方法、系统、设备和存储介质。本专利技术首先对直接对图纸解析后的乱序语句进行重新排序后得到可选序列,然后利用识别模型从可选序列中识别出正确的语句序列,最后利用断句模型对正确的语句序列进行断句处理,从而实现图纸文本的有效断句。
[0005]本专利技术通过下述技术方案实现:
[0006]一种用于图纸的文本断句方法,包括:
[0007]对图纸进行文本解析得到初始语句序列;
[0008]根据文本框的位置,调整所述初始语句序列,生成可选语句序列;
[0009]对所述可选语句序列进行文本标注,采用标注后的文本构建训练集;
[0010]采用所述训练集对SVM模型进行训练,得到识别模型和断句模型;
[0011]对待处理图纸进行解析得到初始语句序列,并根据文本框的位置,调整初始语句序列,生成可选语句序列;
[0012]利用所述识别模型从待处理图纸的可选语句序列中识别出正确语句序列;
[0013]利用所述断句模型对所述正确语句序列进行断句处理。
[0014]现有基于断句模型对文本进行断句的技术,然而由于图纸的特性,其解析后的文本为乱序,无法直接利用断句模型进行断句处理,即利用现有的文本断句技术无法有效实
现图纸文本断句,其处理的准确性和可靠性较差。而本专利技术基于文本框的相对位置关系以及语种输入习惯,例如中文的输入习惯为从左至右、从上至下,对图纸解析后的乱序语句进行重组,得到2个可选文本序列,而正确的语句序列必然在这两个可选文本序列中,然后对可选文本序列进行标注,利用上述手段,获得若干标注的文本作为训练集,对SVM模型进行训练得到识别模型,利用该识别模型可从上述两个可选文本序列中识别出正确语句序列,从而利用断句模型对正确语句序列进行断句处理,实现图纸文本的有效断句,且本专利技术借助SVM模型的优势(其适用于超维数据处理和非线性数据处理),无需对学习样本进行降维处理,同时解决非线性问题,保证了文本识别和断句的效率和准确性。
[0015]作为优选实施方式,本专利技术的根据文本框的位置,调整所述初始语句序列,生成可选语句序列,具体为:
[0016]基于文本框的位置关系以及不同语种的书写习惯,对初始语句序列进行调整,得到若干个可选语句序列。
[0017]作为优选实施方式,本专利技术的对所述可选语句序列进行文本标注,采用标注后的文本构建训练集,具体为:
[0018]按照word2Vec的形式对若干个可选语句序列分别进行标注。
[0019]作为优选实施方式,本专利技术的SVM模型由2个SVM构成,第一个SVM输入为可选语句序列,输出句群对“错误”与否的判定准确率,第二个SVM输入为第一个SVM识别的正确语句序列,输出对“断开”与否的判断正确率。
[0020]作为优选实施方式,本专利技术的训练集包括若干标注后的文本数据。
[0021]第二方面,本专利技术提出了一种用于图纸的文本断句系统,包括:
[0022]解析模块,用于获取图纸并对其进行解析得到初始语句序列;
[0023]重组模块,用于根据文本框的位置,调整所述初始语句序列,生成可选语句序列;
[0024]标注模块,用于对所述可选语句序列进行文本标注,采用标注后的文本构建训练集;
[0025]模型构建模块,采用所述训练集对SVM模型进行训练,得到识别模型和断句模型;
[0026]识别模块,利用所述识别模型从待处理图纸的可选语句序列识别出正确语句序列;
[0027]断句模块,利用所述断句模型对所述正确语句序列进行断句处理。
[0028]作为优选实施方式,本专利技术的解析模块对待处理图纸进行解析得到初始语句序列,所述重组模块根据文本框的位置,对待处理图纸的初始语句序列进行调整,生成可选语句序列。
[0029]作为优选实施方式,本专利技术的重组模块根据文本框的位置关系以及不同语种的书写习惯,对初始语句序列进行调整,得到2个可选语句序列。
[0030]第三方面,本专利技术提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本专利技术所述方法的步骤。
[0031]第四方面,本专利技术提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术所述方法的步骤。
[0032]本专利技术具有如下的优点和有益效果:
[0033]本专利技术首先对直接解析原图纸后得到的乱序语句进行重组,得到正常的可选序
列,然后再利用识别模型,识别出正确的序列,最后再利用断句模型,对正确的序列进行断句处理。本申请能够有效实现图纸的文本断句,且保证断句的准确性和可靠性。
[0034]由于句群的特征量庞大,使得学习样本为高维样本,常规的机器学习方法需要对学习样本进行降维处理,同时,句群的特征量一般为非线性数据,常规的机器学习方法对非线性问题处理效果不好。基于此,本专利技术采用SVM实现语句序列的识别和断句处理,SVM能够很好的应用于文本这种超维数据处理,无需对学习样本进行降维处理,提高了文本识别和断句的效率,同时适合解决非线性问题,提高了处理效果。
附图说明
[0035]此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:
[0036]图1为图纸中部分文本框示例图。
[0037]图2为本专利技术实施例的断句方法流程示意图。
[0038]图3为本专利技术实施例的断句系统原理框图。
具体实施方式
[0039]为使本专利技术的目的、本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于图纸的文本断句方法,其特征在于,包括:对图纸进行文本解析得到初始语句序列;根据文本框的位置,调整所述初始语句序列,生成可选语句序列;对所述可选语句序列进行文本标注,采用标注后的文本构建训练集;采用所述训练集对SVM模型进行训练,得到识别模型和断句模型;对待处理图纸进行解析得到初始语句序列,并根据文本框的位置,调整初始语句序列,生成可选语句序列;利用所述识别模型从待处理图纸的可选语句序列中识别出正确语句序列;利用所述断句模型对所述正确语句序列进行断句处理。2.根据权利要求1所述的一种用于图纸的文本断句方法,其特征在于,根据文本框的位置,调整所述初始语句序列,生成可选语句序列,具体为:基于文本框的位置关系以及不同语种的书写习惯,对初始语句序列进行调整,得到若干个可选语句序列。3.根据权利要求2所述的一种用于图纸的文本断句方法,其特征在于,对所述可选语句序列进行文本标注,采用标注后的文本构建训练集,具体为:按照word2Vec的形式对若干个可选语句序列分别进行标注。4.根据权利要求1
‑
3任一项所述的一种用于图纸的文本断句方法,其特征在于,所述SVM模型由2个SVM构成,第一个SVM输入为可选语句序列,输出句群对“错误”与否的判定准确率,第二个SVM输入为第一个SVM识别的正确语句序列,输出对“断开”与否的判断正确率。5.根据权利要求1
‑
3任一项所述的一种用于图纸...
【专利技术属性】
技术研发人员:李明,廖富林,张马成,高立坤,
申请(专利权)人:成都优译信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。