一种基于BERT的短文本匹配方法及装置制造方法及图纸

技术编号:22295633 阅读:85 留言:0更新日期:2019-10-15 04:46
本发明专利技术公开了一种基于BERT的短文本匹配方法,根据第一场景的需求,获取第一场景的第一监督任务数据,并对第一监督任务数据进行降噪处理,生成第一数据,然后从第一数据中提取第一关键词,并对第一数据和第一关键词进行转换处理,生成第一原始表达式和第一特征表达式,再分别将第一原始表达式和第一特征表达式输入至预设的短文本匹配模型,生成第一原始表达式的第一得分和第一特征表达式的第二得分,最后判断第一得分和/或第二得分是否达到预设阈值,若是,则判定第一监督任务数据属于正面样本,否则判定第一监督任务数据属于负面样本,能够在监督任务数据有限的情况下,最大限度地发挥先验知识的作用,具有较强的鲁棒性和可解释性。

A Method and Device of Short Text Matching Based on BERT

The invention discloses a short text matching method based on BERT, which obtains the first supervisory task data of the first scene according to the requirements of the first scene, denoises the first supervisory task data, generates the first data, extracts the first key words from the first data, and transforms the first data and the first key words to generate the first original expression and the first key words. The first original expression and the first feature expression are input into the preset short text matching model respectively, and the first score of the first original expression and the second score of the first feature expression are generated. Finally, whether the first score and/or the second score reach the preset threshold is judged. If so, the data of the first supervisory task belongs to the positive sample, otherwise the decision is made. The first supervisory task data is a negative sample, which can maximize the role of prior knowledge under the limited supervisory task data, and has strong robustness and explanability.

【技术实现步骤摘要】
一种基于BERT的短文本匹配方法及装置
本专利技术涉及图像识别和数据处理
,尤其涉及一种基于BERT的短文本匹配方法及装置。
技术介绍
目前用于短文本匹配的技术路线大多是先找到短文本的特征向量描述,再通过求解两个短文本的向量空间距离或夹角来评估其相似度。而短文本的特征向量描述,主要有两大类:第一大类是基于传统方法提取短文本的关键特征,并基于这些关键特征建立向量空间模型;另外一大类则是基于多层神经网络的特征表达,大多采用预训练的WORD2VEC,或者是通过监督任务训练得到的词嵌入向量,利用训练中使用的多层CNN或LSTM完成短文本的特征向量描述。但是传统方法提取的关键特征往往是基于词的,其建立的向量空间往往是这些词的集合,虽然有提取技术的不完美,且集合缺失顺序性,但因实施方法简单,普适性强,其实际效果往往作为我们的baseline。而基于多层神经网络的特征表达,大多需要丰富的样本数据才能完成较为完善的表达,同时,因为词嵌入缺乏多义性,仍存在固有的语义表达缺陷。
技术实现思路
本专利技术实施例的目的是提供一种基于BERT的短文本匹配方法,能够在监督数据有限的情况下,最大限度地发挥先验知识的作用,具有较强的鲁棒性和可解释性。为实现上述目的,本专利技术实施例提供了一种基于BERT的短文本匹配方法,包括以下步骤:根据第一场景的需求,获取所述第一场景的第一监督任务数据,并对所述第一监督任务数据进行降噪处理,生成第一数据;从所述第一数据中提取第一关键词,并对所述第一数据和所述第一关键词进行转换处理,生成第一原始表达式和第一特征表达式;其中,所述第一原始表达式为原始的字或词的向量表达,第一特征表达式为基于关键词的特征向量表达;分别将所述第一原始表达式和所述第一特征表达式输入至预设的短文本匹配模型,生成第一原始表达式的第一得分和第一特征表达式的第二得分;判断所述第一得分和/或所述第二得分是否达到预设阈值,若是,则判定所述第一监督任务数据属于正面样本,否则判定所述第一监督任务数据属于负面样本。进一步的,所述预设的短文本匹配模型通过以下方法构建:获取若干个符合所述第一场景需求的监督任务数据作为训练语料,并将所述训练语料投入至BERT预训练模型进行训练,得到第一模型;在标准BERT网络后添加二分类网络,将所述二分类网络中的成本函数调整为分类交叉熵,同时加载所述第一模型并进行FineTune,得到短文本匹配模型。进一步的,所述从所述第一数据中提取第一关键词,并对所述第一数据和所述第一关键词进行转换处理,生成第一原始表达式和第一特征表达式,具体为:通过TF-IDF算法结合词性的关键词提取算法,从所述第一数据中提取第一关键词,并将所述第一关键词转换为基于关键词库的第一特征表达式;通过BERT将所述第一数据进行转换为低纬向量的第一原始表达式。进一步的,所述第一场景包括针对社会新闻的用户评论分析。进一步的,所述第一监督任务数据包括用户对所述社会新闻的评论。本专利技术实施例还提供了一种基于BERT的短文本匹配装置,包括:数据获取模块、数据处理模块、数据匹配模块,以及判断模块;所述数据获取模块,用于根据第一场景的需求,获取所述第一场景的第一监督任务数据,并对所述第一监督任务数据进行降噪处理,生成第一数据;所述数据处理模块,用于从所述第一数据中提取第一关键词,并对所述第一数据和所述第一关键词进行转换处理,生成第一原始表达式和第一特征表达式;其中,所述第一原始表达式为原始的字或词的向量表达,第一特征表达式为基于关键词的特征向量表达;所述数据匹配模块,用于分别将所述第一原始表达式和所述第一特征表达式输入至预设的短文本匹配模型,生成第一原始表达式的第一得分和第一特征表达式的第二得分;所述判断模块,用于判断所述第一得分和/或所述第二得分是否达到预设阈值,若是,则判定所述第一监督任务数据属于正面样本,否则判定所述第一监督任务数据属于负面样本。进一步的,所述预设的短文本匹配模型通过以下方法构建:获取若干个符合所述第一场景需求的监督任务数据作为训练语料,并将所述训练语料投入至BERT预训练模型进行训练,得到第一模型;在标准BERT网络后添加二分类网络,将所述二分类网络中的成本函数调整为分类交叉熵,同时加载所述第一模型并进行FineTune,得到短文本匹配模型。进一步的,所述数据处理模块包括:关键词转换单元和数据转换单元;所述关键词转换单元,用于通过TF-IDF算法结合词性的关键词提取算法,从所述第一数据中提取第一关键词,并将所述第一关键词转换为基于关键词库的第一特征表达式;所述数据转换单元,用于通过BERT将所述第一数据进行转换为低纬向量的第一原始表达式。进一步的,所述第一场景包括针对社会新闻的用户评论分析。进一步的,所述第一监督任务数据包括用户对所述社会新闻的评论。与现有技术相比,具有如下有益效果:本专利技术实施例提供的基于BERT的短文本匹配方法,根据第一场景的需求,获取第一场景的第一监督任务数据,并对第一监督任务数据进行降噪处理,生成第一数据,然后从第一数据中提取第一关键词,并对第一数据和第一关键词进行转换处理,生成第一原始表达式和第一特征表达式,再分别将第一原始表达式和第一特征表达式输入至预设的短文本匹配模型,生成第一原始表达式的第一得分和第一特征表达式的第二得分,最后判断第一得分和/或第二得分是否达到预设阈值,若是,则判定第一监督任务数据属于正面样本,否则判定第一监督任务数据属于负面样本,能够在监督任务数据有限的情况下,最大限度地发挥先验知识的作用,具有较强的鲁棒性和可解释性。附图说明图1是本专利技术提供的基于BERT的短文本匹配方法的一个实施例的流程示意图;图2是本专利技术提供的基于BERT的短文本匹配方法的一个实施例的工作原理流程示意图;图3是本专利技术提供的基于BERT的短文本匹配装置的一个实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1,图1是本专利技术提供的基于BERT的短文本匹配方法的一个实施例的流程示意图;本专利技术实施例提供一种基于BERT的短文本匹配方法,包括步骤S1-S4;S1,根据第一场景的需求,获取所述第一场景的第一监督任务数据,并对所述第一监督任务数据进行降噪处理,生成第一数据。在本实施例中,所述第一场景包括针对社会新闻的用户评论分析,所述第一监督任务数据包括用户对所述社会新闻的评论。S2,从所述第一数据中提取第一关键词,并对所述第一数据和所述第一关键词进行转换处理,生成第一原始表达式和第一特征表达式。需要说明的是,所述第一原始表达式为原始的字或词的向量表达,第一特征表达式为基于关键词的特征向量表达。作为本专利技术的优选实施例,步骤S3具体为:通过TF-IDF算法结合词性的关键词提取算法,从所述第一数据中提取第一关键词,并将所述第一关键词转换为基于关键词库的第一特征表达式;通过BERT将所述第一数据进行转换为低纬向量的第一原始表达式。S3,分别将所述第一原始表达式和所述第一特征表达式输入至预设的短文本文档来自技高网...

【技术保护点】
1.一种基于BERT的短文本匹配方法,其特征在于,包括以下步骤:根据第一场景的需求,获取所述第一场景的第一监督任务数据,并对所述第一监督任务数据进行降噪处理,生成第一数据;从所述第一数据中提取第一关键词,并对所述第一数据和所述第一关键词进行转换处理,生成第一原始表达式和第一特征表达式;其中,所述第一原始表达式为原始的字或词的向量表达,第一特征表达式为基于关键词的特征向量表达;分别将所述第一原始表达式和所述第一特征表达式输入至预设的短文本匹配模型,生成第一原始表达式的第一得分和第一特征表达式的第二得分;判断所述第一得分和/或所述第二得分是否达到预设阈值,若是,则判定所述第一监督任务数据属于正面样本,否则判定所述第一监督任务数据属于负面样本。

【技术特征摘要】
1.一种基于BERT的短文本匹配方法,其特征在于,包括以下步骤:根据第一场景的需求,获取所述第一场景的第一监督任务数据,并对所述第一监督任务数据进行降噪处理,生成第一数据;从所述第一数据中提取第一关键词,并对所述第一数据和所述第一关键词进行转换处理,生成第一原始表达式和第一特征表达式;其中,所述第一原始表达式为原始的字或词的向量表达,第一特征表达式为基于关键词的特征向量表达;分别将所述第一原始表达式和所述第一特征表达式输入至预设的短文本匹配模型,生成第一原始表达式的第一得分和第一特征表达式的第二得分;判断所述第一得分和/或所述第二得分是否达到预设阈值,若是,则判定所述第一监督任务数据属于正面样本,否则判定所述第一监督任务数据属于负面样本。2.如权利要求1所述的基于BERT的短文本匹配方法,其特征在于,所述预设的短文本匹配模型通过以下方法构建:获取若干个符合所述第一场景需求的监督任务数据作为训练语料,并将所述训练语料投入至BERT预训练模型进行训练,得到第一模型;在标准BERT网络后添加二分类网络,将所述二分类网络中的成本函数调整为分类交叉熵,同时加载所述第一模型并进行FineTune,得到短文本匹配模型。3.如权利要求1所述的基于BERT的短文本匹配方法,其特征在于,所述从所述第一数据中提取第一关键词,并对所述第一数据和所述第一关键词进行转换处理,生成第一原始表达式和第一特征表达式,具体为:通过TF-IDF算法结合词性的关键词提取算法,从所述第一数据中提取第一关键词,并将所述第一关键词转换为基于关键词库的第一特征表达式;通过BERT将所述第一数据进行转换为低纬向量的第一原始表达式。4.如权利要求2所述的基于BERT的短文本匹配方法,其特征在于,所述第一场景包括针对社会新闻的用户评论分析。5.如权利要求4所述的基于BERT的短文本匹配方法,其特征在于,所述第一监督任务数据包括用户对所述社会新闻的评论。6.一种基于BERT的短文本匹配装置,其特征在于...

【专利技术属性】
技术研发人员:陈开冉黎展陶峰
申请(专利权)人:广州探迹科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1