本发明专利技术提供了一种建筑图纸文本信息的识别方法及装置,其中,该方法包括:识别建筑图纸中的至少一类建筑构件的原位标注的多个文本信息,至少一类建筑构件包括至少一个建筑构件;基于预设的文本识别模型计算各文本信息分别对应至少一类建筑构件中不同建筑构件的概率值;根据概率值确定至少一类建筑构件中不同建筑构件的所属文本信息。本发明专利技术提供的建筑图纸文本信息的识别方法,通过预设的文本识别模型计算文本信息与建筑构件相匹配的概率值,泛化能力更强,维护成本较低,并且,整体结合各文本信息与各建筑构件相匹配的概率值确定各建筑构件的原位标注,得到的原位标注和建筑构件的匹配结果更准确。的匹配结果更准确。的匹配结果更准确。
【技术实现步骤摘要】
一种建筑图纸文本信息的识别方法及装置
[0001]本专利技术涉及建筑工程图纸文本识别识别
,具体涉及一种建筑图纸文本信息的识别方法及装置。
技术介绍
[0002]在建筑行业中,在对建筑物进行施工、算量前,需要将二维图纸中的构件转换成三维模型。但是二维图纸中的建筑构件具有几何信息和文字等多种属性信息,其中原位标注是建筑构件的重要属性信息之一,原位标注属性不仅种类多,而且业务场景复杂,是建筑构件识别算法的难点和痛点。传统识别算法采用规则对二维图纸进行解析,得到建筑构件与原位标注之间的对应关系。但是采用规则进行解析时,泛化能力较弱,后期研发资源需要一直投入,不断更新规则,维护成本高。
技术实现思路
[0003]因此,本专利技术要解决的技术问题在于克服现有技术中的建筑图纸文本信息的识别时泛化能力较弱的缺陷,从而提供一种建筑图纸文本信息的识别方法及装置。
[0004]本专利技术第一方面提供了一种建筑图纸文本信息的识别方法,包括:识别建筑图纸中的至少一类建筑构件的原位标注的文本信息,该类建筑构件包括至少一个建筑构件;基于预设的文本识别模型计算各文本信息分别对应至少一类建筑构件中不同建筑构件的概率值;根据概率值确定该类建筑构件中不同建筑构件的所属原位标注。
[0005]可选地,在本专利技术提供的建筑图纸文本信息的识别方法中,基于预设的文本识别模型计算各文本信息分别对应至少一类建筑构件中不同建筑构件的概率值的步骤,包括:对文本信息进行聚类,得到至少一个文本图元集,文本图元集中的文本信息同属于一个建筑构件;将文本图元集对应所述各建筑构件的概率值确定为文本图元集中各文本信息对应各建筑构件的概率值。
[0006]可选地,在本专利技术提供的建筑图纸文本信息的识别方法中,基于预设的文本识别模型计算各文本信息分别对应至少一类建筑构件中不同建筑构件的概率值的步骤,包括:分别计算各文本图元集、至少一类建筑构件中不同建筑构件及表征文本图元集与至少一类建筑构件中不同建筑构件的关联关系的特征向量;分别根据各特征向量和预设的文本识别模型计算各文本图元集对应至少一类建筑构件中各建筑构件的概率值,将文本图元集对应各建筑构件的概率值确定为文本图元集中各文本信息对应各建筑构件的概率值。
[0007]可选地,在本专利技术提供的建筑图纸文本信息的识别方法中,对文本信息进行聚类,获取至少一个文本图元集的步骤,包括:根据文本信息的分布位置构建空间四叉树;根据空间四叉树确定文本图元集的搜索范围;根据搜索范围内的文本信息的分布位置和预设文字间距参数对文本信息进行聚类,得到至少一个文本图元集。
[0008]可选地,在本专利技术提供的建筑图纸文本信息的识别方法中,文本图元集的特征向量包括文本图元集的标注类型,计算各文本图元集的特征向量的步骤,包括:分别提取文本
图元集中各文本信息的特征向量;分别根据各文本信息的特征向量和预设文本类型预测模型计算各文本信息的文本类型;根据文本图元集中各文本信息的文本类型确定文本图元集的标注类型。
[0009]可选地,在本专利技术提供的建筑图纸文本信息的识别方法中,构建预设的文本识别模型的步骤,包括:获取训练建筑构件,标注训练建筑构件的原位标注属性,训练建筑构件和原位标注属性的关联关系为第一标签数据;获取训练文本信息,标注训练文本信息和原位标注属性的关联关系,训练文本信息和原位标注属性的关联关系为第二标签数据;根据第一标签数据和第二标签数据形成标签数据。
[0010]可选地,在本专利技术提供的建筑图纸文本信息的识别方法中,获取标签数据的步骤,包括:获取建筑构件,标注建筑构件的原位标注属性,建筑构件和原位标注属性的关联关系为第一标签数据;获取文本信息,标注文本信息和原位标注属性的关联关系,文本信息和原位标注属性的关联关系为第二标签数据;根据第一标签数据和第二标签数据形成标签数据。
[0011]可选地,在本专利技术提供的建筑图纸文本信息的识别方法中,获取预设文字间距参数的步骤,包括:获取图纸中的文字间距;根据图纸中的文字间距确定预设文字间距参数。
[0012]可选地,在本专利技术提供的建筑图纸文本信息的识别方法中,获取预设文字间距参数的步骤,包括:根据图纸提取图纸特征;根据图纸特征和预设特征库获取与图纸相对应的标准图纸;根据标准图纸确定预设文字间距参数。
[0013]本专利技术第二方面提供了一种建筑图纸文本信息的识别装置,包括:文本信息获取模块,用于识别建筑图纸中的至少一类建筑构件的文本信息,至少一类建筑构件包括至少一个建筑构件;文本信息预测模块,用于基于预设的文本识别模型计算各文本信息分别对应至少一类建筑构件中不同建筑构件的概率值;文本信息匹配模块,用于根据概率值确定至少一类建筑构件中不同建筑构件的所属文本信息。
[0014]本专利技术第三方面提供了一种计算机设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,从而执行如本专利技术第一方面提供的建筑图纸文本信息的识别方法。
[0015]本专利技术第四方面提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行如本专利技术第一方面提供的建筑图纸文本信息的识别方法。
[0016]本专利技术技术方案,具有如下优点:
[0017]1.本专利技术提供的建筑图纸文本信息的识别方法,通过预设的文本识别模型计算文本信息与建筑构件相匹配的概率值,相较于传统的方法,泛化能力更强,维护成本较低,并且,在识别建筑构件的文本信息时,在获取建筑图纸中各文本信息与各建筑构件相匹配的概率值后,整体结合各文本信息与各建筑构件相匹配的概率值确定各建筑构件的文本信息,由于文本信息与建筑构件的匹配结果是结合建筑图纸中的全部文本信息和全部建筑构件完成的,因此通过实施本专利技术得到的文本信息和建筑构件的匹配结果更准确。
[0018]2.本专利技术提供的建筑图纸文本信息的识别方法,在计算各文本信息和各建筑构件的概率值时,先对文本信息进行聚类得到文本图元集,然后计算各文本图元集对应各建筑构件的概率值,根据各文本图元集对应各建筑构件的概率值确定各文本信息对各建筑构件
的概率值,由于建筑图纸中的文本信息较多,且存在多个文本信息组成一个集合从属于同一建筑构件的情况,因此,先将文本信息进行聚类,让然后根据聚类后的文本图元集计算各文本信息对应于各建筑构件的概率值,加快了确定各建筑构件的所属原位标注的速度,提高了识别各建筑构件的所属原位标注的准确率。
[0019]3.本专利技术提供的建筑图纸文本信息的识别方法,在对建筑图纸中的文本信息进行聚类时,先根据文本信息的分布位置构建了空间四叉树,通过空间四叉树可以确定文本图元集的搜索范围,然后根据搜索范围内的文本信息的分布位置和预设文字间距参数对文本信息进行聚类。本专利技术通过构建空间四叉树提高了对文本信息进行聚类的效率。并且,本专利技术中在对文本信息进行聚类时,采用预设文字间距参数作为无监督机器学习中的超参数,使得聚类效果更好。
[00本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种建筑图纸文本信息的识别方法,其特征在于,包括:识别所述建筑图纸中的至少一类建筑构件的多个文本信息,所述至少一类建筑构件包括至少一个建筑构件;基于预设的文本识别模型计算各文本信息分别对应所述至少一类建筑构件中不同建筑构件的概率值;根据所述概率值确定所述至少一类建筑构件中不同建筑构件的所属文本信息。2.根据权利要求1所述的建筑图纸文本信息的识别方法,其特征在于,基于预设的原位标识别计算模型文本识别模型计算各文本信息分别对应所述至少一类建筑构件中不同建筑构件的概率值的步骤,包括:对所述文本信息进行聚类,得到至少一个文本图元集,所述文本图元集中的文本信息同属于一个建筑构件;将所述文本图元集对应所述各建筑构件的概率值确定为所述文本图元集中各文本信息对应所述各建筑构件的概率值。3.根据权利要求2所述的建筑图纸文本信息的识别方法,其特征在于,基于预设的文本识别模型计算各文本信息分别对应所述至少一类建筑构件中不同建筑构件的概率值的步骤,包括:分别计算各所述文本图元集、所述至少一类建筑构件中不同建筑构件及表征所述文本图元集与所述至少一类建筑构件中不同建筑构件的关联关系的特征向量;分别根据各所述特征向量和预设的文本识别模型计算各所述文本图元集对应所述至少一类建筑构件中各建筑构件的概率值。4.根据权利要求3所述的建筑图纸文本信息的识别方法,其特征在于,所述对所述文本信息进行聚类,获取至少一个文本图元集的步骤,包括:根据所述文本信息的分布位置构建空间四叉树;根据所述空间四叉树确定所述文本图元集的搜索范围;根据所述搜索范围内的文本信息的分布位置和预设文字间距参数对所述文本信息进行聚类,得到至少一个文本图元集。5.根据权利要求3所述的建筑图纸文本信息的识别方法,其特征在于,所述文本图元集的特征向量包括所述文本图元集的标注类型,计算各所述文本图元集的特征向量的步骤,包括:分别提取所述文本图元集中各所述文本信息的特征向量;分别根据各所述文本信息的特征向量和预设的文本类型预测模型计算各所述文本信息的文本类型;根据所述文本图元集中各所述文本信息的文本类型确定所述文本图元集的标注类型。6.根据权利要求1所述的建筑图纸文本信息的识别方法,其特征在于,构建所述预设的文本识别模型的步骤,包括:获取训练样本...
【专利技术属性】
技术研发人员:陈兵,赵晓,
申请(专利权)人:广联达科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。