一种字词双维度的化妆品安全监管领域事件信息抽取方法技术

技术编号:28676194 阅读:18 留言:0更新日期:2021-06-02 02:53
本发明专利技术涉及一种字词双维度的化妆品安全监管领域事件信息抽取方法,包括:对互联网上爬取到的舆情事件数据进行预处理,在公共领域资源库的基础上构建化妆品安全领域word embedding资源库、对其使用领域语料进行增量训练、通过基于BERT的神经网络提取字词双维度文本特征,完成化妆品安全监管领域事件信息抽取。本发明专利技术一定程度上解决了化妆品安全监管领域事件信息抽取准确程度不高,领域性强的难题,通过构建新的模型,将字维度作为文本向量化表示的基础上再加入词维度进行辅助表示,提高事件信息抽取准确性。

【技术实现步骤摘要】
一种字词双维度的化妆品安全监管领域事件信息抽取方法
本专利技术涉及人工智能领域,尤其是指一种字词双维度的化妆品安全监管领域事件信息抽取方法。
技术介绍
随着人们生活质量的普遍提高,化妆品的安全逐渐成为了人们日常生活中重点关注的一方面,在化妆品安全监管领域内加强化妆品安全风险管理能力是重点内容,如应强化突发事件应急处置。化妆品安全事件的发生往往会伴随生成大量的信息,监管部门和大众很难从第一时间从互联网上大量的信息中获取到准确的事件信息,事件信息抽取技术作为信息抽取技术的一种,可以为监管部门提供决策支撑的辅助作用,为化妆品安全事件发生后的舆情监控提供支持,也可以为普通群众提供第一时间的信息收集与发布作用。所以建立起事件信息抽取模型对化妆品安全的监管是具有重大意义的。事件信息抽取从模式匹配逐渐发展到基于统计的机器学习方法,机器学习方法中当下以人工神经网络为基础的深度学习最为高效,深度学习不仅将事件抽取看作是分类任务,还看作是序列标注任务。目前有些模型使用级联(pipline)的方式,先进行触发词的识别,再进行论元的提取。这种方法会一定的不足,会导致前一阶段的误差传播到后一阶段导致误差传播。本专利技术采用联合抽取的方式,将触发词和论元同时抽取,进而提高两个子任务的性能,同时加入了全局特征以表示触发词和论元之间的全局信息。本专利技术采用标注序列标注模式,将事件论元抽取问题变成一个端到端的问题。同时采用双网络模型结构,一个使用以字维度文本向量化表示作为输入,另一个引入了领域词机制,使用词维度文本向量化表示作为输入。
技术实现思路
本专利技术的技术解决问题是:克服了现有
针对性不强,事件信息抽取不完全的问题,提供一种字词双维度的化妆品安全监管领域事件信息抽取方法,提高化妆品安全领域舆情事件信息抽取准确性,以解决目前化妆品安全领域相关的监管需求,在此处提出的方法能够快速准确的对化妆品安全事件进行信息抽取,大幅提高监管者的工作效率,辅助监管者做出判断。本专利技术所提出的方法是:一种字词双维度的化妆品安全监管领域事件信息抽取方法,包括以下步骤:步骤1、使用python编程语言根据化妆品安全监管领域的特点,针对发生的舆情事件编写网络爬虫,并对爬虫爬取到的原始文本数据进行去重和筛选预处理,再去除原始文本数据中没有含义的停用词,提取化妆品安全监管领域的专业词汇,同时形成可用的舆情事件文本语料。步骤2、根据步骤1获得的化妆品安全监管领域的专业词汇,结合公共领域的词嵌入(wordembedding)资源库来获得化妆品安全领域词嵌入资源库。在公共领域词嵌入资源库基础上,使用化妆品安全监管领域的专业词汇对词嵌入资源库进行增量训练,获得化妆品安全领域词嵌入资源库。步骤3、首先基于双向深度自注意力变换网络的编码器(BERT-BidirectionalEncoderRepresentationsfromTransformers)构建的字维度和词维度两个维度上的预训练模型,步骤2得到化妆品安全领域词嵌入资源库来获取字词双维度文本向量化表示。首先使用第二步构建的化妆品安全领域词嵌入资源库词嵌入资源库对两个维度上的预训练模型进行增量训练,得到了针对化妆品安全领域的预训练模型。然后将步骤1形成的舆情事件文本语料输入在字维度上构建的预训练模型,运行模型得到字维度上的文本向量化表示;然后同样将步骤1形成的舆情事件文本语料输入词维度上构建的预训练模型得到词维度上的文本向量化表示。步骤4、根据步骤3的结果,获得所需的词维度和字维度两种不同维度的输入向量,将字维度文本向量化表示作为主要输入信息,将文本向量化表示扩展到字向量长度,并作为辅助输入信息,输入到基于双向深度自注意力变换网络的编码器BERT模型中并对进行训练,得到融合全文语义信息后的文本向量。步骤5、根据步骤4得到模型训练后的输出后,将输出的融合全文语义信息后的文本向量再输入到条件随机场CRF(ConditionalRandomFields)中,在通过条件随机场计算最优概率后得到最终的事件信息抽取结果。进一步的,所述步骤1中,构建的适用于化妆品安全领域的网络爬虫,其爬取主要内容有化妆品安全领域词汇百科,化妆品安全突发事件发生后的舆情新闻报道,人们对于化妆品安全突发事件的评论信息。爬取内容中的化妆品安全领域词汇百科内容用来提取化妆品安全领域的领域专业词汇,化妆品安全突发事件的舆情新闻报导以及人们的评论信息两部分内容形成可以使用的事件文本语料。进一步的,所述步骤2中,在公共领域词嵌入资源库的基础上,将步骤1中得到的化妆品领域专业词汇输入到跳跃式(skip-gram)模型中,对公共领域词嵌入资源库进行增量训练,随着步骤1中爬取内容的不断增多,每隔一段时间,当积累一定数量的可以进行增量训练的内容后,再次将其输入到跳跃式(skip-gram)模型中对公共领域词嵌入资源库进行增量训练,最终将公共领域词嵌入资源库扩展为适用于化妆品安全领域的词嵌入资源库。进一步的,所述步骤3中,将步骤1中形成的可以使用的舆情事件文本语料输入到预训练模型中获取文本的向量化表示,其中具体执行过程为对整段文本输入按句子进行分割,然后使用深度自注意力变换网络对输入进行编码,编码后对句子的部分内容进行掩盖(mask),掩盖后通过句子剩余内容对掩盖内容进行预测,并将预测掩盖结果与真实掩盖内容进行对比,得到预测的误差,根据预测误差对模型的参数进行调整,通过这种预测任务将输入文本映射到了向量空间中,从而得到了字维度(以中文字为单位)的文本向量化表示。但是词维度需要在输入到预训练前首先进行中文的分词工作,然后同样可得词维度(以中文词为单位)上的文本输入向量。进一步的,所述步骤4中,字维度文本向量化表示作为主要输入信息,词维度文本向量化表示作为辅助输入信息时,首先需要将字维度文本向量化和词维度文本向量化表示进行向量融合,再将不同维度的两种向量输入统一到同一个维度,字维度文本向量化表示vc∈Rn,词维度文本向量表示为vw∈Rm,通过线性变换将向量统一到同一维度后,然后将两种文本向量化表示进行相加,最后添加与文本等长的向量存储文本的分句信息,作为分割嵌入向量与和文本向量化表示,一并输入到双向深度自注意力变换网络的编码器BERT中。进一步的,所述步骤5中,通过条件随机场得到最终舆情事件信息抽取结果,根据化妆品安全领域的特点,同时参考ACE2005语料库以及CEC语料库的数据标签和标注内容,舆情事件抽取得到的主要信息内容重新定义并分为6类:事件发生时间(HappenedTime)、事件发生地点(Location)、事件参与者(EventParticipant)、参与者行为(ParticipantsBehavior)、事件受影响对象(AffectObject)、受影响对象的状态变化(AffectState)。本专利技术与现有技术相比的优点在于:本专利技术能够通过双向深度自注意力变换网络的编码器BERT(BERT-BidirectionalEncoderRepresentationsfr本文档来自技高网
...

【技术保护点】
1.一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于,包括以下步骤:/n步骤1、针对基于化妆品安全监管领域发生的舆情事件,构建的适用于化妆品安全领域的网络爬虫,并对网络爬虫爬取到的原始文本数据进行去重和筛选预处理,再去除原始文本数据中没有含义的停用词,提取化妆品安全监管领域的专业词汇,同时形成事件文本语料;/n步骤2、使用步骤1提取的化妆品安全监管领域的专业词汇,对公共领域的词嵌入资源库进行增量训练,获得化妆品安全领域词嵌入资源库;/n步骤3、采用基于双向深度自注意力变换网络的编码器BERT构建字维度和词维度两个维度上的预训练模型,再使用化妆品安全领域词嵌入资源库对字维度和词维度两个维度上的预训练模型进行增量训练,得到针对化妆品安全领域的字维度和词维度预训练模型,然后将事件文本语料输入到在字维度预训练模型,得到字维度文本向量化表示,将事件文本语料输入词维度预训练模型得到词维度文本向量化表示;/n步骤4、根据步骤3的结果,获得所需的词维度和字维度两种不同维度的输入向量,将字维度文本向量化表示作为主要输入信息,将文本向量化表示扩展到字向量长度,并作为辅助输入信息,输入到基于双向深度自注意力变换网络的编码器BERT中并对进行训练,得到融合全文语义信息后的文本向量;/n步骤5、将融合全文语义信息后的文本向量再输入到条件随机场CRF中,在通过条件随机场计算最优概率后得到最终的事件信息抽取结果。/n...

【技术特征摘要】
1.一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于,包括以下步骤:
步骤1、针对基于化妆品安全监管领域发生的舆情事件,构建的适用于化妆品安全领域的网络爬虫,并对网络爬虫爬取到的原始文本数据进行去重和筛选预处理,再去除原始文本数据中没有含义的停用词,提取化妆品安全监管领域的专业词汇,同时形成事件文本语料;
步骤2、使用步骤1提取的化妆品安全监管领域的专业词汇,对公共领域的词嵌入资源库进行增量训练,获得化妆品安全领域词嵌入资源库;
步骤3、采用基于双向深度自注意力变换网络的编码器BERT构建字维度和词维度两个维度上的预训练模型,再使用化妆品安全领域词嵌入资源库对字维度和词维度两个维度上的预训练模型进行增量训练,得到针对化妆品安全领域的字维度和词维度预训练模型,然后将事件文本语料输入到在字维度预训练模型,得到字维度文本向量化表示,将事件文本语料输入词维度预训练模型得到词维度文本向量化表示;
步骤4、根据步骤3的结果,获得所需的词维度和字维度两种不同维度的输入向量,将字维度文本向量化表示作为主要输入信息,将文本向量化表示扩展到字向量长度,并作为辅助输入信息,输入到基于双向深度自注意力变换网络的编码器BERT中并对进行训练,得到融合全文语义信息后的文本向量;
步骤5、将融合全文语义信息后的文本向量再输入到条件随机场CRF中,在通过条件随机场计算最优概率后得到最终的事件信息抽取结果。


2.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于:所述步骤1中,构建的适用于化妆品安全领域的网络爬虫时,爬取主要内容有化妆品安全领域词汇百科,化妆品安全突发事件发生后的舆情新闻报道,人们对于化妆品安全突发事件的评论信息;爬取内容中的化妆品安全领域词汇百科内容用来提取化妆品安全领域的领域专业词汇,化妆品安全突发事件的舆情新闻报导以及人们的评论信息两部分内容形成使用的事件文本语料。


3.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法,...

【专利技术属性】
技术研发人员:左敏张宝宇张青川颜文婧
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1