一种用于政策解读语义的分析算法制造技术

技术编号：35482568 阅读：20 留言：0更新日期：2022-11-05 16:34

本发明专利技术公开的是一种用于政策解读语义的分析算法，包括分析模型，分析模型包括BERT语言模型、TCN时序模型及CRF概率模型，分析算法包括：1、将需要识别的政策文件输入到分析模型中；2、BERT语言模型将步骤一输入的文件转化为包含上下文信息的词向量；3、TCN时序模型对步骤二得到的词向量进行分类；4、CRF概率模型对步骤三中分类好的词向量进行句子顺序的调整；5、使用正则匹配来对模型输出的结果进行清洗；6、对识别出实体进行抽取与展示，完成政策解读语义的分析。本发明专利技术能够运用命名实体识别技术对政策文件进行分析研究，自动识别并分类政策中的有价值信息，解决了识别结果清洗入库工作，同时对于识别错误的字段也进行判别并记录。录。录。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于政策解读语义的分析算法

[0001]本专利技术属于计算机
，更具体地说是一种用于政策解读语义的分析算法。

技术介绍

[0002]不同地区针对企业的引入和管理出台了大量的政策性文件，这些文件里包含了许多对于企业非常重要的信息，例如补助条件、贷款政策、项目申报条件等，随着社会和科技的发展，越来越多的企业有着解读政策文件的需求。由于政策文件大都是半结构和非结构化的状态，对其进行分析处理和数据挖掘收到严重制约。
[0003]近年来深度学习在NLP、图像识别等领域均取得重大进展，大量研究人员也将深度学习运用到命名实体识别中。基于深度学习的命名实体识别方法，都需要通过词嵌入方法将文本信息转换为序列化向量。目前提出的词嵌入方法例如Word2Vec等，都存在无法处理汉字歧义的问题，例如“疾”在不同的语境中可能表示名词疾病，也可以表示形容词速度快。针对该问题，许多学者提出了不同的结合上下文的词嵌入方法，例如ELMO(embeddings from language models)方法和OpenAI
‑
GPT(generativepre
‑
training)方法等。但目前结合上下文的词向量嵌入方法的语言表示都是单向的，无法同时获得前后语义的信息。
[0004]本专利技术能够运用命名实体识别技术对政策文件进行分析研究，自动识别并分类政策中的有价值信息，解决了识别结果清洗入库工作，同时对于识别错误的字段也进行判别并记录。

技术实现思路

[0005]本专利技术公...

【技术保护点】

【技术特征摘要】
1.一种用于政策解读语义的分析算法，其特征在于：包括分析模型，所述分析模型包括BERT语言模型、TCN时序模型以及CRF概率模型，所述分析算法包括以下具体分析步骤：步骤一：将需要识别的政策文件输入到分析模型中；步骤二：所述BERT语言模型将步骤一输入的文件转化为包含上下文信息的词向量；步骤三：所述TCN时序模型对步骤二得到的词向量进行分类；步骤四：所述CRF概率模型对步骤三中分类好的词向量进行句子顺序的调整；步骤五：使用正则匹配来对模型输出的结果进行清洗；步骤六：对识别出实体进行抽取与展示，完成政策解读语义的分析。2.根据权利要求1所述的一种用于政策解读语义的分析算法，其特征在于：所述步骤二中的转化过程包括：(1)利用BIOES标注法对数据进行标注，其中，B表示一个句子的开头，I表示句子中的实体，O表示无关紧要的内容，E表示句子的结尾，S表示单个字组成的实体；(2)利用步骤(1)中标注好的数据对BERT语言模型进行训练，其训练过程为：先将标注好的数据经过BERT网络，再将输入的数据转换成包含有上下语义的嵌入词向量。3.根据权利要求2所述的一种用于政策解读语义的分析算法，其特征在于：所述步骤(2)中BERT网络的整体框架由多层transformer的encoder堆叠而成，每层的encoder由一层的muti
‑
head
‑
attention和一层feed
‑
forword组成，每个attention通过目标词与句子中的所有词汇的相关度，对目标词重新编码，得到每个词新的编码。4.根据权利要求3所述的一种用于政策解读语义的分...

【专利技术属性】
技术研发人员：黄明明，施东晓，廖晓洁，
申请(专利权)人：福建省科立方科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人