当前位置: 首页 > 专利查询>陈韬文专利>正文

电气图纸文本分类方法、系统、装置及介质制造方法及图纸

技术编号:25439306 阅读:21 留言:0更新日期:2020-08-28 22:27
本发明专利技术公开了电气图纸文本分类方法、系统、装置及介质,方法包括:获取历史电气图纸数据;对所述历史电气图纸数据进行预处理;对预处理后的历史电气图纸数据进行分词处理,得到词集合;对所述词集合进行词频统计,构建电气图纸字典;获取待分类电气图纸数据;根据所述电气图纸字典,将所述待分类电气图纸数据中提取的各个词进行标签化处理;根据所述电气图纸字典,通过构建得到的分类模型对所述标签化处理后的各个词进行分类,得到所述待分类电气图纸数据中文本的分类结果。本发明专利技术大大提高了分类效率,同时降低了人工成本,可广泛应用于人工智能技术领域。

【技术实现步骤摘要】
电气图纸文本分类方法、系统、装置及介质
本专利技术涉及人工智能
,尤其是电气图纸文本分类方法、系统、装置及介质。
技术介绍
在电气行业,成套电气报价员需要根据从用户拿到的CAD电气设计图中列出元器件的清单列表。列清单是成套电气报价中最重要的一个环节,是成套电气报价的基础。作为一个有些枯燥繁琐但又需要有一定专业领域知识的环节,传统的成套电气报价员的报价方式主要是通过手工输入Excel的方式或者用软件的方式把元器件文本扒取出来,填写出对应的元器件类型,汇总出报价清单,最后根据这样的清单进行报价。这种传统的方式,机械繁琐,效率低下,严重依赖于“人”的操作,还很容易出错,很大程度上限制了报价员报价的速度与精度,不能满足用户及公司的对快速精准报价方面要求,也影响了工程的进度,严重的甚至可能导致企业竞标失败或亏损。电气文本分类问题是智能识别电气图纸中最基础核心的工作之一。其中,包含两大类文本,元器件文本和非元器件文本,非元器件文本主要包括:进线端文本、终端文本、配电箱参数文本、相序文本、回路编号文本及电线文本;元器件文本的种类更多,主要的有:双电源自动转换开关、微型断路器、塑壳断路器、熔断器、交流接触器、热继电器、浪涌保护器、电度表、控制变压器、负荷隔离开关、漏电微型断路器、漏电塑壳断路器、KB0控制与保护开关、时控开关、电流互感器、指示灯、智能照明模块等。在种类繁多的电气文本中,依靠专家规则和软件程序的硬编码,难以完全的覆盖所有的文本和类别,一些电气设计师对相同的实体描述可能存在差异和错漏,更是传统规则算法难以处理的。在电气行业人工智能领域,还没有专门针对电气图纸文本智能分类的行之有效的方法。
技术实现思路
有鉴于此,本专利技术实施例提供一种成本低且效率高的电气图纸文本分类方法、系统、装置及介质。本专利技术的第一方面提供了一种电气图纸文本分类方法,包括:获取历史电气图纸数据;对所述历史电气图纸数据进行预处理;对预处理后的历史电气图纸数据进行分词处理,得到词集合;对所述词集合进行词频统计,构建电气图纸字典;获取待分类电气图纸数据;根据所述电气图纸字典,将所述待分类电气图纸数据中提取的各个词进行标签化处理;根据所述电气图纸字典,通过构建得到的分类模型对所述标签化处理后的各个词进行分类,得到所述待分类电气图纸数据中文本的分类结果。在一些实施例中,所述对所述历史电气图纸数据进行预处理,包括:将数据中的特殊字符替换为分隔符;将数据中的英文字符转换为小写字符;将数据中的文本长度不合格的字符进行过滤处理。在一些实施例中,所述对预处理后的历史电气图纸数据进行分词处理,得到词集合,包括:按照电气元器件的名称对预处理后的历史电气图纸数据进行第一分词;按照非元器件的名称对预处理后的历史电气图纸数据进行第二分词;根据电气行业常用短语对预处理后的历史电气图纸数据进行第三分词。在一些实施例中,所述对所述词集合进行词频统计,构建电气图纸字典,包括:统计所述词集合中每个词语的词频;将词频从大到小进行排列;根据排列后的词频,为每个词建立唯一索引号;根据每个词的唯一索引号,构建电气图纸字典。在一些实施例中,所述根据所述电气图纸字典,将所述待分类电气图纸数据中提取的各个词进行标签化处理,包括:将所述待分类电气图纸进行分词处理,得到分词数组;遍历所述分词数组中的每个词语,在所述电气图纸字典中查询每个词语对应的索引号;根据每个词语的索引号,获取每个词语的标签。在一些实施例中,还包括构建分类模型的步骤,该步骤包括:对电气图纸字典的词表特征进行降维处理;通过长短期记忆层对降维处理得到的数据进行过滤;通过全连接分类层对过滤得到的数据进行类别特征空间构建,得到分类模型。在一些实施例中,所述对电气图纸字典的词表特征进行降维处理,包括:对所述电气图纸字典中的词进行One-Hot处理;获取ship-gram模型,并配置用于表示词向量的隐含层;配置窗口长度,并根据分词得到的数组生产训练数据集;通过cross-entropy损失函数对训练数据集进行训练;根据训练结果,输出隐含层矩阵。根据本专利技术的第二方面,还提供了一种电气图纸文本分类系统,包括:第一获取模块,用于获取历史电气图纸数据;预处理模块,用于对所述历史电气图纸数据进行预处理;分词模块,用于对预处理后的历史电气图纸数据进行分词处理,得到词集合;构建模块,用于对所述词集合进行词频统计,构建电气图纸字典;第二获取模块,用于获取待分类电气图纸数据;标签处理模块,用于根据所述电气图纸字典,将所述待分类电气图纸数据中提取的各个词进行标签化处理;分类模块,用于根据所述电气图纸字典,通过构建得到的分类模型对所述标签化处理后的各个词进行分类,得到所述待分类电气图纸数据中文本的分类结果。根据本专利技术的第三方面,还提供了一种装置,包括处理器以及存储器;所述存储器用于存储程序;所述处理器用于根据所述程序执行如第一方面所述的方法。根据本专利技术的第四方面,还提供了一种存储介质,所述存储介质存储有程序,所述程序被处理器执行完成如第一方面所述的方法。本专利技术的实施例首先建立电气图纸字典,然后根据电气图纸字典对词进行标签化,最后寄语分类模型实现对文本数据的自动分类,相较于人工分类的方法,本专利技术大大提高了分类效率,同时降低了人工成本。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的整体步骤流程图。具体实施方式下面结合说明书附图和具体实施例对本专利技术作进一步解释和说明。对于本专利技术实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。针对现有技术的人工分类方法效率低下且准确率低的问题,本专利技术提出了一种基于深度学习技术的电气图纸文本分类方法,如图1所示,该方法包括步骤S1-S7:S1、获取历史电气图纸数据;S2、对所述历史电气图纸数据进行预处理;由于电气图纸主要是由电气设计师手工设计和绘制,因此在电气图纸中提取到的文本信息,包含各种各样的人为不规范或者小错误,需要对文本信息进行合理的清洗、过滤、替换等操作,保证后续算法的输入的稳定性,提高算法的鲁棒性。在一些实施例中,所述步骤S2包括S21-S23:S21、将数据中的特殊字符替换为分隔符;具体地,本实施例为了保证后续分词的健壮性,对每一条电气文本本文档来自技高网
...

【技术保护点】
1.电气图纸文本分类方法,其特征在于,包括:/n获取历史电气图纸数据;/n对所述历史电气图纸数据进行预处理;/n对预处理后的历史电气图纸数据进行分词处理,得到词集合;/n对所述词集合进行词频统计,构建电气图纸字典;/n获取待分类电气图纸数据;/n根据所述电气图纸字典,将所述待分类电气图纸数据中提取的各个词进行标签化处理;/n根据所述电气图纸字典,通过构建得到的分类模型对所述标签化处理后的各个词进行分类,得到所述待分类电气图纸数据中文本的分类结果。/n

【技术特征摘要】
1.电气图纸文本分类方法,其特征在于,包括:
获取历史电气图纸数据;
对所述历史电气图纸数据进行预处理;
对预处理后的历史电气图纸数据进行分词处理,得到词集合;
对所述词集合进行词频统计,构建电气图纸字典;
获取待分类电气图纸数据;
根据所述电气图纸字典,将所述待分类电气图纸数据中提取的各个词进行标签化处理;
根据所述电气图纸字典,通过构建得到的分类模型对所述标签化处理后的各个词进行分类,得到所述待分类电气图纸数据中文本的分类结果。


2.根据权利要求1所述的电气图纸文本分类方法,其特征在于,所述对所述历史电气图纸数据进行预处理,包括:
将数据中的特殊字符替换为分隔符;
将数据中的英文字符转换为小写字符;
将数据中的文本长度不合格的字符进行过滤处理。


3.根据权利要求1所述的电气图纸文本分类方法,其特征在于,所述对预处理后的历史电气图纸数据进行分词处理,得到词集合,包括:
按照电气元器件的名称对预处理后的历史电气图纸数据进行第一分词;
按照非元器件的名称对预处理后的历史电气图纸数据进行第二分词;
根据电气行业常用短语对预处理后的历史电气图纸数据进行第三分词。


4.根据权利要求1所述的电气图纸文本分类方法,其特征在于,所述对所述词集合进行词频统计,构建电气图纸字典,包括:
统计所述词集合中每个词语的词频;
将词频从大到小进行排列;
根据排列后的词频,为每个词建立唯一索引号;
根据每个词的唯一索引号,构建电气图纸字典。


5.根据权利要求1所述的电气图纸文本分类方法,其特征在于,所述根据所述电气图纸字典,将所述待分类电气图纸数据中提取的各个词进行标签化处理,包括:
将所述待分类电气图纸进行分词处理,得到分词数组;
遍历所述分词数组中的每个词语,在所述电气图纸字典中查询每个词语对应的...

【专利技术属性】
技术研发人员:陈韬文
申请(专利权)人:陈韬文
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1