一种基于BERT模型的反驳论辩语句检索方法及设备技术

技术编号：38105753 阅读：10 留言：0更新日期：2023-07-06 09:27

本发明专利技术公开了一种基于BERT模型的反驳论辩语句检索方法及设备，所述方法包括：构造一个有着形式的数据集，其中是对应着论辩语句的语境语句，y

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BERT模型的反驳论辩语句检索方法及设备

[0001]本专利技术涉及论辩挖掘领域，具体涉及给定论辩语句时给出最佳反驳论辩语句的检索方法及设备。

技术介绍

[0002]论证过程的核心是检索给定输入论辩语句的最佳反驳论辩语句。这是一个对于人类和计算机而言都非常有挑战的任务，部分原因是很难定义什么是好的论辩(反驳论辩)。迄今为止，无论是从论证理论还是计算机科学，都对论辩质量进行了广泛的研究。尽管人们普遍认为，说服力、逻辑性、良好贡献、本地可接受性等品质在评估反论点时应发挥重要作用，但这些品质很难具体形式化，让机器学习。通过采用数据驱动的方法来避免形式化任务是一种解决方法，但这需要大量的标记工作，并不具备很好的实用性。
[0003]根据最佳反驳论辩与输入论辩强调相同方面而立场相反的定义，Wachmuth等人在参考文献[1](Henning Wachsmuth,Shahbaz Syed,and Benno Stein.2018.Retrieval of the Best Counterargument without Prior Topic Knowledge.In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),pages241
–
251,Melbourne,Australia.Association for Comput...

【技术保护点】

【技术特征摘要】
1.一种基于BERT模型的反驳论辩语句检索方法，其特征在于，包括以下步骤：从辩论论坛爬取或者从可用的文本信息中抽取数据，构造训练数据集，数据集中每条数据有着四元组形式其中为论辩语句所对应的语境语句，是论辩语句的反驳论辩语句；使用两个BERT模型编码BERT1和BERT2分别对四元组中的两对语境语句和论辩语句对和进行编码；构造语境相关性层，用于获得两个论辩语句的语境相似性，所述语境相关性层对BERT1和BERT2的输出中对应于语境语句表征的向量和进行标准化、RELU激活和线性变换处理，得到和计算二者之间的距离；构造反驳分类层，用于衡量两个论辩语句是否互相反驳，所述反驳分类层对BERT1和BERT2的输出中对应于论辩语句表征的向量和进行做差取绝对值，再和拼接后进行标准化、RELU激活、线性变换、分类处理；进行负采样并构造六元组进行联合训练，其中qi为负样本辩论语句，为负样本语境语句，所述负采样是指对于正确相互反驳论辩语句对，采样一个有着不同语境的论辩语句作为负样本，将语境相关任务和反驳分类任务的损失函数相加作为模型损失函数，经过训练得到反驳论辩语句检索模型；利用训练好的反驳论辩语句检索模型对新的一个论辩语句二元组进行处理，给出反驳论辩语句候选集，之后使用反驳分类层获得反驳程度概率得分，对反驳候选集中的二元组进行再次排序得出所需结果。2.根据权利要求1所述的方法，其特征在于，BERT模型的编码过程包括：对每一对语境语句与论辩语句对(C,p)加入分隔标识符，构建形式为“[STR1]C[STR2]p”的字符串，将该字符串输入到对应的BERT模型：符串输入到对应的BERT模型：第一字符串STR1用于标识语境语句的开始，第二字符串STR2用于标识论辩语句的开始，BERT模型的输出中对应C部分的字符向量的聚合作为语境语句表征，对应p部分的字符向量的聚合...

【专利技术属性】
技术研发人员：史红光，阮锦绣，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人