改进迁移学习模型进行工业互联网发现并提取信息的装置制造方法及图纸

技术编号：27136873 阅读：17 留言：0更新日期：2021-01-25 20:55

改进迁移学习模型进行工业互联网发现并提取信息的装置涉及信息技术领域。本发明专利技术由网络爬虫、文本清洗模块、内容分类执行模块、改进的迁移学习模型和实体识别模块组成；本发明专利技术不需要海量带有标签的文本进行训练，节省了大量的人力成本；其次不受分词的影响，可以得到更多、更相关的文本特征用于网站分类及工业互联网平台网站的关键业务信息提取。网平台网站的关键业务信息提取。网平台网站的关键业务信息提取。

全部详细技术资料下载

【技术实现步骤摘要】
改进迁移学习模型进行工业互联网发现并提取信息的装置

[0001]本专利技术涉及信息
，特别是信息安全

技术介绍

[0002]随着制造业从数字化阶段向网络化阶段加速迈进，我国工业互联网平台迅速兴起，平台信息的及时发现与管理成为当前急需解决的一个问题。互联网中网站类别众多，如何从海量的网站中自动找到工业互联网平台网站是目前面临的第一个问题，如何从平台网站内容中提取关键的平台信息是第二个问题。
[0003]当前，工业互联网平台信息主要由人工收集，十分浪费人力和时间成本，因此一种自动发现、提取平台信息的方法极为迫切。
[0004]近年来，人工智能技术的迅猛发展在自然语言处理领域有了不小进展，其中文本分类用于将不同特征的文本，命名实体识别技术主要用于信息抽取、文本数据结构化。
[0005]目前的网站分类方法主要是基于传统机器学习算法和基于深度学习的方式，传统机器学习算法，如专利技术专利CN106168968A，通过计算匹配到词典的数据的权重来确定网站类别。由于构建词典难度大，且网站类别众多，传统算法很难根据词典将网站进行准确分类。基于深度学习的方法，如专利技术专利CN110442823A，需要大量的训练样本来训练神经网络的参数，搜集大量样本的过程较长，耗费大量的人力资源。
[0006]现有技术中命名实体识别方法主要是基于传统机器学习的实体识别方法以及基于深度学习的实体识别方法。基于传统机器学习的实体识别方法，如专利技术专利CN111274804A，通过统计学对标注的数据进行模型学...

【技术保护点】

【技术特征摘要】
1.改进迁移学习模型进行工业互联网发现并提取信息的装置，其特征在于由网络爬虫、文本清洗模块、内容分类执行模块、改进的迁移学习模型和实体识别模块组成；网络爬虫负责爬取网页内容并将网页内容和网页地址发送给文本清洗模块；文本清洗模块负责将网页内容和网页地址所形成的文本中的噪声字符去除生成干净的网页信息，文本清洗模块将干净的网页信息发送给内容分类执行模块；噪声字符包括：html标签、停用词、转发符、url、标记信息；内容分类执行模块包含了工业互联网分类模型，工业互联网分类模型由已分类互联网样本数据经过改进的迁移学习模型进行语言训练得到；工业互联网分类模型是由已分类互联网样本数据的分类标签和已分类互联网样本数据的内容属于每种分类标签的概率组成；改进的迁移学习模型的算法表示为：1）使用StructBERT对文本中的每句话的每个字进行表示，然后使用双向Transformer学习被表示后的文本，Transformer是StructBERT中的标准程序，传统Transformer的每一层参数独立，当层数增加时，参数量也会明显上升，本模型将所有层的参数进行共享，学习一层的参数量；2）改进StructBERT的词表示为由词向量、段向量和位置向量共同表示；词向量的第一个单词用于之后的分类任务，段向量用来区别两种句子，位置向量用于表示词位置信息；3）通过四个训练任务来学习语义特征：i）遮掩语言模型，ii）预测下一句任务，iii）词序任务，iv）句子结构任务；遮掩语言模型任务是指模型在训练过程中预测随机遮掩15%的字，而在随机遮掩15%的字中8...

【专利技术属性】
技术研发人员：林飞，汪致伦，王丹，易永波，古元，
申请(专利权)人：北京亚鸿世纪科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人