本发明专利技术公开的是一种用于政策解读语义的分析算法,包括分析模型,分析模型包括BERT语言模型、TCN时序模型及CRF概率模型,分析算法包括:1、将需要识别的政策文件输入到分析模型中;2、BERT语言模型将步骤一输入的文件转化为包含上下文信息的词向量;3、TCN时序模型对步骤二得到的词向量进行分类;4、CRF概率模型对步骤三中分类好的词向量进行句子顺序的调整;5、使用正则匹配来对模型输出的结果进行清洗;6、对识别出实体进行抽取与展示,完成政策解读语义的分析。本发明专利技术能够运用命名实体识别技术对政策文件进行分析研究,自动识别并分类政策中的有价值信息,解决了识别结果清洗入库工作,同时对于识别错误的字段也进行判别并记录。录。录。
【技术实现步骤摘要】
一种用于政策解读语义的分析算法
[0001]本专利技术属于计算机
,更具体地说是一种用于政策解读语义的分析算法。
技术介绍
[0002]不同地区针对企业的引入和管理出台了大量的政策性文件,这些文件里包含了许多对于企业非常重要的信息,例如补助条件、贷款政策、项目申报条件等,随着社会和科技的发展,越来越多的企业有着解读政策文件的需求。由于政策文件大都是半结构和非结构化的状态,对其进行分析处理和数据挖掘收到严重制约。
[0003]近年来深度学习在NLP、图像识别等领域均取得重大进展,大量研究人员也将深度学习运用到命名实体识别中。基于深度学习的命名实体识别方法,都需要通过词嵌入方法将文本信息转换为序列化向量。目前提出的词嵌入方法例如Word2Vec等,都存在无法处理汉字歧义的问题,例如“疾”在不同的语境中可能表示名词疾病,也可以表示形容词速度快。针对该问题,许多学者提出了不同的结合上下文的词嵌入方法,例如ELMO(embeddings from language models)方法和OpenAI
‑
GPT(generativepre
‑
training)方法等。但目前结合上下文的词向量嵌入方法的语言表示都是单向的,无法同时获得前后语义的信息。
[0004]本专利技术能够运用命名实体识别技术对政策文件进行分析研究,自动识别并分类政策中的有价值信息,解决了识别结果清洗入库工作,同时对于识别错误的字段也进行判别并记录。
技术实现思路
[0005]本专利技术公开的是一种用于政策解读语义的分析算法,其主要目的在于克服现有技术存在的上述不足和缺点。
[0006]本专利技术采用的技术方案如下:
[0007]一种用于政策解读语义的分析算法,包括分析模型,所述分析模型包括BERT语言模型、TCN时序模型以及CRF概率模型,所述分析算法包括以下具体分析步骤:
[0008]步骤一:将需要识别的政策文件输入到分析模型中;
[0009]步骤二:所述BERT语言模型将步骤一输入的文件转化为包含上下文信息的词向量;
[0010]步骤三:所述TCN时序模型对步骤二得到的词向量进行分类;
[0011]步骤四:所述CRF概率模型对步骤三中分类好的词向量进行句子顺序的调整;
[0012]步骤五:使用正则匹配来对模型输出的结果进行清洗;
[0013]步骤六:对识别出实体进行抽取与展示,完成政策解读语义的分析。
[0014]更进一步,所述步骤二中的转化过程包括:
[0015](1)利用BIOES标注法对数据进行标注,其中,B表示一个句子的开头,I表示句子中的实体,O表示无关紧要的内容,E表示句子的结尾,S表示单个字组成的实体;
[0016](2)利用步骤(1)中标注好的数据对BERT语言模型进行训练,其训练过程为:先将
标注好的数据经过BERT网络,再将输入的数据转换成包含有上下语义的嵌入词向量。
[0017]更进一步,所述步骤(2)中BERT网络的整体框架由多层transformer的encoder堆叠而成,每层的encoder由一层的muti
‑
head
‑
attention和一层feed
‑
forword组成,每个attention通过目标词与句子中的所有词汇的相关度,对目标词重新编码,得到每个词新的编码。
[0018]更进一步,所述attention的计算包括以下三个步骤:
[0019]步骤一:计算词之间的相关度,通过三个权重矩阵对输入的序列向量(512*768)做线性变换,分别生成query、key和value三个新的序列向量,用每个词的query向量分别和序列中的所有词的key向量做乘积,得到词与词之间的相关度;
[0020]步骤二:对相关度归一化,将步骤一得到的相关度通过softmax进行归一化;
[0021]步骤三:通过相关度与所有词的编码进行加权求和,将步骤二得到的归一化的权重与value加权求和,得到每个词新的编码。
[0022]更进一步,所述BERT网络包括有24层transformer,每层transformer具有16个attention。
[0023]更进一步,所述步骤六中识别出的实体为属于I类的实体。
[0024]更进一步,所述步骤三中TCN时序模型进行词向量分类的具体过程包括:
[0025](1)先将步骤二输入的词向量输入到TCN网络中;
[0026](2)利用TCN时序卷积网络对步骤(1)中输入的词向量进行分类。
[0027]更进一步,所述步骤四中的句子顺序的调整方式为:将分类完成的词向量输入到CRF条件随机场,然后调整顺利,使其符合句子的顺序要求,完成句子顺序的调整。
[0028]更进一步,所述CRF条件随机场为判别式概率分布模型,是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔可夫随机场。
[0029]通过上述对本专利技术的描述可知,和现有技术相比,本专利技术的优点在于:
[0030]本专利技术使用BERT
‑
TCN
‑
CRF模型实现了政策性文件的命名实体识别,使用BERT网络预训练模型,在大规模语料库中训练得到的动态词向量代替传统方法生成的静态词向量,有效的解决传统词嵌入方法存在的一词多义问题,使得语义表示更加准确。BERT网络预训练模型在自己标注的政策性文件语料库的F1值达到了94.72%,相较于其他模型具有更好的识别效果,能够较好的完成政策文件命名实体识别的任务,能够实现企业在政策文本命名实体识别方面的需求。同时本专利技术提供了完整的数据清洗入库工作,能够对于识别结果进行更加细粒度的清洗。
[0031]使用TCN网络,传统的命名实体识别模型通常采用的是LSTM模型,但实验证明TCN网络可以保持更多的扩展记忆,在识别模型中的性能高于LSTM模型。
[0032]使用CRF条件随机场,考虑到在序列标注任务中,相邻的字或者词需要遵循一定的规则,比如I标签前面是B标签,不能是O标签等。CRF模型可以合理考虑到信息之间存在的依赖关系,对标签序列进行建模,从而获取最优序列。
[0033]同时本专利技术也解决了识别结果清洗入库工作,比如模型识别出来的增长率,我们通过正则匹配的形势判断是上一年的增长率还是上两年的增长率,并存入数据库相应的字段中,对于识别错误的字段也进行判别并记录。
附图说明
[0034]图1是本专利技术BERT网络的结构示意图。
[0035]图2是本专利技术TCN网络的结构示意图。
[0036]图3是本专利技术CRF条件随机场的结构示意图。
具体实施方式
[0037]下面参照附图说明来进一步地说明本专利技术的具体实施方式。
[0038]如图1、图2和图3所示,一种用于政策解读语义的分析算法,包括分析模型,所述分析模型包括BERT语言模型、TCN时序模型本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于政策解读语义的分析算法,其特征在于:包括分析模型,所述分析模型包括BERT语言模型、TCN时序模型以及CRF概率模型,所述分析算法包括以下具体分析步骤:步骤一:将需要识别的政策文件输入到分析模型中;步骤二:所述BERT语言模型将步骤一输入的文件转化为包含上下文信息的词向量;步骤三:所述TCN时序模型对步骤二得到的词向量进行分类;步骤四:所述CRF概率模型对步骤三中分类好的词向量进行句子顺序的调整;步骤五:使用正则匹配来对模型输出的结果进行清洗;步骤六:对识别出实体进行抽取与展示,完成政策解读语义的分析。2.根据权利要求1所述的一种用于政策解读语义的分析算法,其特征在于:所述步骤二中的转化过程包括:(1)利用BIOES标注法对数据进行标注,其中,B表示一个句子的开头,I表示句子中的实体,O表示无关紧要的内容,E表示句子的结尾,S表示单个字组成的实体;(2)利用步骤(1)中标注好的数据对BERT语言模型进行训练,其训练过程为:先将标注好的数据经过BERT网络,再将输入的数据转换成包含有上下语义的嵌入词向量。3.根据权利要求2所述的一种用于政策解读语义的分析算法,其特征在于:所述步骤(2)中BERT网络的整体框架由多层transformer的encoder堆叠而成,每层的encoder由一层的muti
‑
head
‑
attention和一层feed
‑
forword组成,每个attention通过目标词与句子中的所有词汇的相关度,对目标词重新编码,得到每个词新的编码。4.根据权利要求3所述的一种用于政策解读语义的分...
【专利技术属性】
技术研发人员:黄明明,施东晓,廖晓洁,
申请(专利权)人:福建省科立方科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。