当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于BERT模型的反驳论辩语句检索方法及设备技术

技术编号:38105753 阅读:10 留言:0更新日期:2023-07-06 09:27
本发明专利技术公开了一种基于BERT模型的反驳论辩语句检索方法及设备,所述方法包括:构造一个有着形式的数据集,其中是对应着论辩语句的语境语句,y

【技术实现步骤摘要】
一种基于BERT模型的反驳论辩语句检索方法及设备


[0001]本专利技术涉及论辩挖掘领域,具体涉及给定论辩语句时给出最佳反驳论辩语句的检索方法及设备。

技术介绍

[0002]论证过程的核心是检索给定输入论辩语句的最佳反驳论辩语句。这是一个对于人类和计算机而言都非常有挑战的任务,部分原因是很难定义什么是好的论辩(反驳论辩)。迄今为止,无论是从论证理论还是计算机科学,都对论辩质量进行了广泛的研究。尽管人们普遍认为,说服力、逻辑性、良好贡献、本地可接受性等品质在评估反论点时应发挥重要作用,但这些品质很难具体形式化,让机器学习。通过采用数据驱动的方法来避免形式化任务是一种解决方法,但这需要大量的标记工作,并不具备很好的实用性。
[0003]根据最佳反驳论辩与输入论辩强调相同方面而立场相反的定义,Wachmuth等人在参考文献[1](Henning Wachsmuth,Shahbaz Syed,and Benno Stein.2018.Retrieval of the Best Counterargument without Prior Topic Knowledge.In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),pages241

251,Melbourne,Australia.Association for Computational Linguistics)中提出了一种简单的评分方法(SimpleSD),该方法结合了Manhattan和Earth Mover's distance等相似性度量。尽管简单,但它展示了为反驳论辩检索同时建模相似性和不相似性的潜力。Orbach等人在参考文献[2](Matan Orbach,Yonatan Bilu,Assaf Toledo,Dan Lahav,Michal Jacovi,RanitAharonov,and Noam Slonim.2020.Out of the Echo Chamber:Detecting Countering Debate Speeches.In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,pages 7073

7086,Online.Association for Computational Linguistics)研究了一项相关但略有不同的任务,他们试图“从一组对立的演讲中识别对支持性演讲的回应,所有讨论都是同一个主题”,以打击社交媒体上的假新闻和虚假信息。这两种设置之间的主要区别在于前者使用的是没有主题或立场的事先信息的论点,而后者则侧重于每个都包含几个已知话题和立场的论点的演讲。作者报告了几个基准,包括基于BERT的分类和SimpleSD。令人惊讶的是,即使进行了微调,基于BERT的方法也没有显示出相对于SimpleSD的优势。这可能是因为输入语句通常很长,需要为BERT截断,其中输入仅限于512个字符。因此,本专利技术中关注Wachmuth中的设定,即,在没有主题和立场信息的情况下,进行反驳论辩语句的检索。
[0004]只有在支持大数据情况下的检索,才有可能实现无先验主题、不预设情景情况下的全面可靠的反驳检索。而在大数据情形下如何保证效率是需要考虑的问题,尤其对于实时论辩应对任务,对时间复杂度的要求更高。

技术实现思路

[0005]专利技术目的:本专利技术提出了一种基于BERT模型的反驳论辩语句检索方法及设备,至
少部分地解决现有技术的问题。
[0006]技术方案:为了实现上述目的,本专利技术采用如下技术方案:
[0007]第一方面,一种基于BERT模型的反驳论辩语句检索方法,包括如下步骤:
[0008]从辩论论坛爬取或者从可用的文本信息中抽取数据,构造训练数据集,数据集中每条数据有着四元组形式其中为论辩语句所对应的语境语句,是论辩语句的反驳论辩语句;
[0009]使用两个BERT模型编码BERT1和BERT2分别对四元组中的两对语境语句和论辩语句对和进行编码;
[0010]构造语境相关性层,用于获得两个论辩语句的语境相似性,所述语境相关性层对BERT1和BERT2的输出中对应于语境语句表征的向量和进行标准化、RELU激活和线性变换处理,得到和计算二者之间的距离;
[0011]构造反驳分类层,用于衡量两个论辩语句是否互相反驳,所述反驳分类层对BERT1和BERT2的输出中对应于论辩语句表征的向量和进行做差取绝对值,再和拼接后进行标准化、RELU激活、线性变换、分类处理;
[0012]进行负采样并构造六元组进行联合训练,其中qi为负样本辩论语句,为负样本语境语句,所述负采样是指对于正确相互反驳论辩语句对,采样一个有着不同语境的论辩语句作为负样本,将语境相关任务和反驳分类任务的损失函数相加作为模型损失函数,经过训练得到反驳论辩语句检索模型;
[0013]利用训练好的反驳论辩语句检索模型对新的一个论辩语句二元组进行处理,给出反驳论辩语句候选集,之后使用反驳分类层获得反驳程度概率得分,对反驳候选集中的二元组进行再次排序得出所需结果。
[0014]进一步地,BERT模型的编码过程包括:对每一对语境语句与论辩语句对(C,p)加入分隔标识符,构建形式为“[STR1]C[STR2]p”的字符串,将该字符串输入到对应的BERT模型:
[0015][0016][0017]第一字符串STR1用于标识语境语句的开始,第二字符串STR2用于标识论辩语句的开始,BERT模型的输出中对应C部分的字符向量的聚合作为语境语句表征,对应p部分的字符向量的聚合作为论辩语句表征。
[0018]进一步地,对字符向量的聚合使用平均池化的聚合方法。
[0019]进一步地,语境相关性层的处理包括:
[0020][0021][0022]其中,layernorm为标准化处理,relu为非线性变换处理,linear1为线性变换处理;两个论辩语句的语境相似性使用欧氏距离来衡量。
[0023]进一步地,反驳分类层的处理包括:
[0024][0025]abs表示取绝对值,layernorm为标准化处理,relu为非线性变换处理,linear2为线性变换处理;
[0026]分类处理采用softmax函数来确定论辩语句对是互相反驳的概率。
[0027]进一步地,语境相关任务使用对比学习三元组损失函数进行训练,计算表达式为:其中表示负样本的语境向量。
[0028]进一步地,反驳分类任务使用交叉熵损失函数进行训练。
[0029]进一步地,利用训练好的反驳论辩语句检索模型对新的论辩语句和对应语境语句对进行处理时,利用BallTree来构建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT模型的反驳论辩语句检索方法,其特征在于,包括以下步骤:从辩论论坛爬取或者从可用的文本信息中抽取数据,构造训练数据集,数据集中每条数据有着四元组形式其中为论辩语句所对应的语境语句,是论辩语句的反驳论辩语句;使用两个BERT模型编码BERT1和BERT2分别对四元组中的两对语境语句和论辩语句对和进行编码;构造语境相关性层,用于获得两个论辩语句的语境相似性,所述语境相关性层对BERT1和BERT2的输出中对应于语境语句表征的向量和进行标准化、RELU激活和线性变换处理,得到和计算二者之间的距离;构造反驳分类层,用于衡量两个论辩语句是否互相反驳,所述反驳分类层对BERT1和BERT2的输出中对应于论辩语句表征的向量和进行做差取绝对值,再和拼接后进行标准化、RELU激活、线性变换、分类处理;进行负采样并构造六元组进行联合训练,其中qi为负样本辩论语句,为负样本语境语句,所述负采样是指对于正确相互反驳论辩语句对,采样一个有着不同语境的论辩语句作为负样本,将语境相关任务和反驳分类任务的损失函数相加作为模型损失函数,经过训练得到反驳论辩语句检索模型;利用训练好的反驳论辩语句检索模型对新的一个论辩语句二元组进行处理,给出反驳论辩语句候选集,之后使用反驳分类层获得反驳程度概率得分,对反驳候选集中的二元组进行再次排序得出所需结果。2.根据权利要求1所述的方法,其特征在于,BERT模型的编码过程包括:对每一对语境语句与论辩语句对(C,p)加入分隔标识符,构建形式为“[STR1]C[STR2]p”的字符串,将该字符串输入到对应的BERT模型:符串输入到对应的BERT模型:第一字符串STR1用于标识语境语句的开始,第二字符串STR2用于标识论辩语句的开始,BERT模型的输出中对应C部分的字符向量的聚合作为语境语句表征,对应p部分的字符向量的聚合...

【专利技术属性】
技术研发人员:史红光阮锦绣
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1