一种基于BERT模型的预测下一句模型自动构建技术制造技术

技术编号:22658862 阅读:16 留言:0更新日期:2019-11-28 03:24
本发明专利技术公开了一种基于BERT模型的预测下一句模型自动构建技术,包括测试图谱数据获取和自然语言推理模型构建训练、预测,所述测试图谱数据获取部分能够连接图数据库,自动获取某个领域有关的所有APP中具有指定关系的数据,本发明专利技术涉及自然语言处理技术领域。该基于BERT模型的预测下一句模型自动构建技术,通过将深度学习中的自然语言推理技术应用于APP测试领域,自动获取图数据库中具有下一句关系的节点对,并自动处理转换成预测下一句模型所需的训练数据,使用基于BERT的预测下一句模型来实现自动推理,辅助完成图谱自动构建,提高工作效率,通过基于BERT的预测下一句模型与其他自然语言推理模型相比,具有更高的预测准确率。

An automatic construction technology of prediction next sentence model based on Bert model

The invention discloses a prediction next sentence model automatic construction technology based on the Bert model, including test map data acquisition and natural language reasoning model construction training and prediction. The test map data acquisition part can connect the map database and automatically obtain data with specified relationship in all apps related to a certain field. The invention relates to the field of natural language processing technology \u3002 By applying the natural language reasoning technology in deep learning to the app testing field, the node pairs with the next sentence relationship in the graph database are automatically obtained, and the training data needed to convert the prediction into the next sentence model is automatically processed. The prediction next sentence model based on Bert is used to realize the automatic reasoning and assist the completion It can automatically construct the map and improve the working efficiency. Compared with other natural language reasoning models, the prediction accuracy of the next sentence model based on Bert is higher.

【技术实现步骤摘要】
一种基于BERT模型的预测下一句模型自动构建技术
本专利技术涉及自然语言处理
,具体为一种基于BERT模型的预测下一句模型自动构建技术。
技术介绍
在当前时期,以深度学习为主的自然语言处理技术已经广泛应用于各个场景,用于辅助人类理解、处理自然语言与文本,典型应用场景包括文本分类、对话系统、问答系统、文本翻译和自然语言推理,自然语言推理作为自然语言理解的一个重要组成部分,在整个自然语言理解中扮演着重要的角色,自然语言推理主要是判断两个句子或者两个词之间的语义关系,为了保证模型能够集中在语义理解上,该任务最终退化为一个分类任务,简单来说,文本蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提,另一个文本作为假设,如果根据前提P能够推理得出假设H,那么就说P蕴含H,记做P→H。在APP测试领域,同样存在这种文本蕴含关系,当执行到测试某一节点时,在整个界面上有众多待测试节点,测试人员需要选择下一个需要测试节点,当前节点与下一个节点间即存在文本蕴含关系,当测试新的APP时,首先需要匹配新的APP节点与已有图谱中某个节点是否相似,如果没有找到,则需要使用图谱数据中的这种文本蕴含关系,需要针对上一操作节点和当前界面的候选节点,加载预测下一句模型实现自然语言推理,从而找到当前可能的待测试节点,辅助完成新APP自动测试。目前在NLP领域其他场景,也同样使用了自然语言推理技术,挖掘文本之间存在的文本蕴含关系,例如在进行文本推理时,判断两句话之前是否具有因果关系或者并列关系,传统方法基于循环神经网络结合Attention机制实现,最典型的方案为使用双向LSTM加上句子级别的注意力机制,来判断两个句子间的文本蕴含关系,传统方案使用循环神经网络可能会存在梯度消失/爆炸问题,且本身无法并行化计算,计算速度较慢,精度也较低。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于BERT模型的预测下一句模型自动构建技术,解决了传统方案使用循环神经网络可能会存在梯度消失或爆炸,且本身无法并行化计算,计算速度较慢,精度也较低的问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于BERT模型的预测下一句模型自动构建技术,包括测试图谱数据获取和自然语言推理模型构建训练、预测,所述测试图谱数据获取部分能够连接图数据库,自动获取某个领域有关的所有APP中具有指定关系的数据。所述自然语言推理模型构建训练、预测部分的处理方法具体包括以下步骤:S1、首先根据处理得到的训练数据;S2、再进行相关预处理,转换为BERT模型所需格式,在bert-base-chinese模型基础上进行fine-tune训练得到领域相关的预测下一句模型并保存模型参数;S3、编写模型预测函数实现加载训练好的模型参数进行关系预测,作为推理模块供图谱路径生成模块调用。优选的,所述步骤S2在基于BERT的预测下一句模型中,输入句子A和B被拼接到一起,两句子之间以句子分隔符[SEP]隔开,并且在拼接完毕的句子头部再引入一个分类标识符[CLS]。优选的,所述步骤S2中使整个模型的输入变成如下格式:[CLS]A[SEP]B,模型会先将句子分隔成为一个个的字,并通过Embedding操作转换成对应的嵌入式词向量来表示当前的字。优选的,所述步骤S3中将字向量送入到模型内部的双向Transformer编码器进行编码,在编码模型的最后一层增加一层pooling层,获取输入两个句子间的文本蕴含关系,作为模型输出,判断两个句子间是否有先后或因果关系,实现预测下一句功能。优选的,所述测试图谱数据获取部分自动获取银行领域数据,具体包括以下步骤:T1、通过连接neo4j,自动获取所有银行数据中具有下一步关系的数据,对其进行标签化作为正例样本;T2、接着根据生成的正例样本进行反转和负采样,拼接扩充成为训练数据;T3、再对训练数据按照7:2:1的比例划分训练集、验证集、测试集并存储到指定位置,完成数据预处理工作。优选的,所述步骤S2中BERT为使用海量语料进行无监督训练得到一个蕴含海量语义信息的语言模型。(三)有益效果本专利技术提供了一种基于BERT模型的预测下一句模型自动构建技术。与现有技术相比具备以下有益效果:该基于BERT模型的预测下一句模型自动构建技术,包括测试图谱数据获取和自然语言推理模型构建训练、预测,测试图谱数据获取部分能够连接图数据库,自动获取某个领域有关的所有APP中具有指定关系的数据,自然语言推理模型构建训练、预测部分的处理方法具体包括以下步骤:S1、首先根据处理得到的训练数据,S2、再进行相关预处理,转换为BERT模型所需格式,在bert-base-chinese模型基础上进行fine-tune训练得到领域相关的预测下一句模型并保存模型参数,S3、编写模型预测函数实现加载训练好的模型参数进行关系预测,作为推理模块供图谱路径生成模块调用,可实现通过自动获取已有图谱数据,再自动处理转换形成模型训练所需数据,最后自动构建基于BERT的预测下一句模型,用于预测两个操作节点间是否存在语义蕴含关系,用于在语义相似度匹配模型未匹配到合适节点时辅助确定当前操作节点可能对应的下一个操作节点,从而顺利实现自动测试流程,与仅仅使用语义相似度匹配模型进行节点匹配测试相比,增加了能够预测文本蕴含关系的预测下一句模型,能够提升节点匹配时的准确率与容错,尽可能找到所有可能的待测试路径,从而提升了自动测试的整体准确率,同时也能减少人为干预,减少了冗余人工工作量,同时通过将深度学习中的自然语言推理技术应用于APP测试领域,自动获取图数据库中具有下一句关系的节点对,并自动处理转换成预测下一句模型所需的训练数据,使用基于BERT的预测下一句模型来实现自动推理,辅助完成图谱自动构建,提高工作效率,通过基于BERT的预测下一句模型与其他自然语言推理模型相比,具有更高的预测准确率。附图说明图1为本专利技术自然语言推理模块整体流程图;图2为本专利技术基于BERT的预测下一句模型的结构示意图;图3为本专利技术BERT模型与GPT、ELMO模型结构对比示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-3,本专利技术实施例提供一种技术方案:一种基于BERT模型的预测下一句模型自动构建技术,能够实现预测下一句模型的自动训练、加载、及调用,包括测试图谱数据获取和自然语言推理模型构建训练、预测,测试图谱数据获取部分能够连接图数据库,自动获取某个领域有关的所有APP中具有指定关系的数据。自然语言推理模型构建训练、预测部分的处理方法具体包括以下步骤:S1、首先根据处理本文档来自技高网
...

【技术保护点】
1.一种基于BERT模型的预测下一句模型自动构建技术,其特征在于:包括测试图谱数据获取和自然语言推理模型构建训练、预测,所述测试图谱数据获取部分能够连接图数据库,自动获取某个领域有关的所有APP中具有指定关系的数据;/n所述自然语言推理模型构建训练、预测部分的处理方法具体包括以下步骤:/nS1、首先根据处理得到的训练数据;/nS2、再进行相关预处理,转换为BERT模型所需格式,在bert-base-chinese模型基础上进行fine-tune训练得到领域相关的预测下一句模型并保存模型参数;/nS3、编写模型预测函数实现加载训练好的模型参数进行关系预测,作为推理模块供图谱路径生成模块调用。/n

【技术特征摘要】
1.一种基于BERT模型的预测下一句模型自动构建技术,其特征在于:包括测试图谱数据获取和自然语言推理模型构建训练、预测,所述测试图谱数据获取部分能够连接图数据库,自动获取某个领域有关的所有APP中具有指定关系的数据;
所述自然语言推理模型构建训练、预测部分的处理方法具体包括以下步骤:
S1、首先根据处理得到的训练数据;
S2、再进行相关预处理,转换为BERT模型所需格式,在bert-base-chinese模型基础上进行fine-tune训练得到领域相关的预测下一句模型并保存模型参数;
S3、编写模型预测函数实现加载训练好的模型参数进行关系预测,作为推理模块供图谱路径生成模块调用。


2.根据权利要求1所述的一种基于BERT模型的预测下一句模型自动构建技术,其特征在于:所述步骤S2在基于BERT的预测下一句模型中,输入句子A和B被拼接到一起,两句子之间以句子分隔符[SEP]隔开,并且在拼接完毕的句子头部再引入一个分类标识符[CLS]。


3.根据权利要求2所述的一种基于BERT模型的预测下一句模型自动构建技术,其特征在于:所述步骤S2中使整个模型的输入变成如下格式:[CLS]A[SEP]B,模型会先将句子分...

【专利技术属性】
技术研发人员:刘轶
申请(专利权)人:南京璇玑信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1