【技术实现步骤摘要】
一种字词双维度的化妆品安全监管领域事件信息抽取方法
本专利技术涉及人工智能领域,尤其是指一种字词双维度的化妆品安全监管领域事件信息抽取方法。
技术介绍
随着人们生活质量的普遍提高,化妆品的安全逐渐成为了人们日常生活中重点关注的一方面,在化妆品安全监管领域内加强化妆品安全风险管理能力是重点内容,如应强化突发事件应急处置。化妆品安全事件的发生往往会伴随生成大量的信息,监管部门和大众很难从第一时间从互联网上大量的信息中获取到准确的事件信息,事件信息抽取技术作为信息抽取技术的一种,可以为监管部门提供决策支撑的辅助作用,为化妆品安全事件发生后的舆情监控提供支持,也可以为普通群众提供第一时间的信息收集与发布作用。所以建立起事件信息抽取模型对化妆品安全的监管是具有重大意义的。事件信息抽取从模式匹配逐渐发展到基于统计的机器学习方法,机器学习方法中当下以人工神经网络为基础的深度学习最为高效,深度学习不仅将事件抽取看作是分类任务,还看作是序列标注任务。目前有些模型使用级联(pipline)的方式,先进行触发词的识别,再进行论元的提取。这种方法会一定的不足,会导致前一阶段的误差传播到后一阶段导致误差传播。本专利技术采用联合抽取的方式,将触发词和论元同时抽取,进而提高两个子任务的性能,同时加入了全局特征以表示触发词和论元之间的全局信息。本专利技术采用标注序列标注模式,将事件论元抽取问题变成一个端到端的问题。同时采用双网络模型结构,一个使用以字维度文本向量化表示作为输入,另一个引入了领域词机制,使用词维度文本向量化表示 ...
【技术保护点】
1.一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于,包括以下步骤:/n步骤1、针对基于化妆品安全监管领域发生的舆情事件,构建的适用于化妆品安全领域的网络爬虫,并对网络爬虫爬取到的原始文本数据进行去重和筛选预处理,再去除原始文本数据中没有含义的停用词,提取化妆品安全监管领域的专业词汇,同时形成事件文本语料;/n步骤2、使用步骤1提取的化妆品安全监管领域的专业词汇,对公共领域的词嵌入资源库进行增量训练,获得化妆品安全领域词嵌入资源库;/n步骤3、采用基于双向深度自注意力变换网络的编码器BERT构建字维度和词维度两个维度上的预训练模型,再使用化妆品安全领域词嵌入资源库对字维度和词维度两个维度上的预训练模型进行增量训练,得到针对化妆品安全领域的字维度和词维度预训练模型,然后将事件文本语料输入到在字维度预训练模型,得到字维度文本向量化表示,将事件文本语料输入词维度预训练模型得到词维度文本向量化表示;/n步骤4、根据步骤3的结果,获得所需的词维度和字维度两种不同维度的输入向量,将字维度文本向量化表示作为主要输入信息,将文本向量化表示扩展到字向量长度,并作为辅助输入信息,输入到基于双 ...
【技术特征摘要】
1.一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于,包括以下步骤:
步骤1、针对基于化妆品安全监管领域发生的舆情事件,构建的适用于化妆品安全领域的网络爬虫,并对网络爬虫爬取到的原始文本数据进行去重和筛选预处理,再去除原始文本数据中没有含义的停用词,提取化妆品安全监管领域的专业词汇,同时形成事件文本语料;
步骤2、使用步骤1提取的化妆品安全监管领域的专业词汇,对公共领域的词嵌入资源库进行增量训练,获得化妆品安全领域词嵌入资源库;
步骤3、采用基于双向深度自注意力变换网络的编码器BERT构建字维度和词维度两个维度上的预训练模型,再使用化妆品安全领域词嵌入资源库对字维度和词维度两个维度上的预训练模型进行增量训练,得到针对化妆品安全领域的字维度和词维度预训练模型,然后将事件文本语料输入到在字维度预训练模型,得到字维度文本向量化表示,将事件文本语料输入词维度预训练模型得到词维度文本向量化表示;
步骤4、根据步骤3的结果,获得所需的词维度和字维度两种不同维度的输入向量,将字维度文本向量化表示作为主要输入信息,将文本向量化表示扩展到字向量长度,并作为辅助输入信息,输入到基于双向深度自注意力变换网络的编码器BERT中并对进行训练,得到融合全文语义信息后的文本向量;
步骤5、将融合全文语义信息后的文本向量再输入到条件随机场CRF中,在通过条件随机场计算最优概率后得到最终的事件信息抽取结果。
2.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于:所述步骤1中,构建的适用于化妆品安全领域的网络爬虫时,爬取主要内容有化妆品安全领域词汇百科,化妆品安全突发事件发生后的舆情新闻报道,人们对于化妆品安全突发事件的评论信息;爬取内容中的化妆品安全领域词汇百科内容用来提取化妆品安全领域的领域专业词汇,化妆品安全突发事件的舆情新闻报导以及人们的评论信息两部分内容形成使用的事件文本语料。
3.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法,...
【专利技术属性】
技术研发人员:左敏,张宝宇,张青川,颜文婧,
申请(专利权)人:北京工商大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。