文本推荐方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37047830 阅读:13 留言:0更新日期:2023-03-29 19:26
本发明专利技术提供一种文本推荐方法、装置、电子设备和存储介质,该方法包括:将原始文本输入对比学习模型中,得到原始文本的目标特征信息,对比学习模型为基于多批样本文本对初始对比学习模型进行训练得到的,每批样本文本中包括至少一个第一三元组和至少一个第二三元组,第一三元组中包括原始样本文本、原始样本文本的第一正例样本和负例样本,第二三元组中包括原始样本文本、原始样本文本的第二正例样本和负例样本,第一正例样本包括与原始样本文本的相似度大于预设值的文本,第二正例样本包括原始样本文本的部分文本;确定目标特征信息和多个预设文本对应的预设特征信息之间的相似度,以确定目标相似文本。本发明专利技术可以提高文本推荐的准确性。的准确性。的准确性。

【技术实现步骤摘要】
文本推荐方法、装置、电子设备和存储介质


[0001]本专利技术涉及文本推荐
,尤其涉及一种文本推荐方法、装置、电子设备和存储介质。

技术介绍

[0002]随着个性化教育的普及和发展,因才施教成为了教育领域中追求的重要目标,如在教学评阅中,如果能够对学生的薄弱环节进行相应习题文本的推荐练习,这对学生学习的提高有着至关重要的作用。
[0003]现有技术中的文本推荐方法,大多是采用如Glove(Global Vectors,全局向量)等的静态语言模型,其提取出的每个词向量embedding表示与上下文无关。因此,对于较为复杂的语篇类试题的推荐时,模型将会导致表征空间的各项异性,使得绝大部分的表征向量都集中分布在表征空间的一个锥形区域内,从而导致任意两篇文本的相似度都很高,即相似度集中在0.9以上。大量的文本集中在同一片相似度区间内,无论是对阈值设置还是模型鲁棒性都有较大风险,这对于相似文本的召回方案是极为不利的,即无法满足现有召回需求。
[0004]为了解决上述技术问题,现有技术中提出一种动态的语言模型,即SimCSE(Simple Contrastive Learning of Sentence Embeddings,基于简单对比学习的句向量表示)模型,该模型采用的是BERT(Bidirectional Encoder Representation from Transformers,基于变压器的双向编码器表示)的框架,其通过简单的对比学习就可以在文本相似度任务上达到SOTA(State Of The Art,目前最好)的效果。另外,该模型中自注意力机制以及内部复杂的交互方式相比于Glove静态模型有着巨大的优势,而且对原有的召回逻辑并没有较大的改变,即可以继承原有的召回逻辑。由此可见,SimCSE动态模型仅是改变了文本的向量表示,即通过在文本语义信息的提取上取得了较大的效果提升,实现了更高准确率的文本推荐。
[0005]然而,在通过SimCSE模型推荐与原始文本相似的文本时,可能会出现推荐的相似文本是原始文本的部分文本的情况,降低了文本推荐的准确性。

技术实现思路

[0006]本专利技术提供一种文本推荐方法、装置、电子设备和存储介质,用以解决现有技术中文本推荐不准确的缺陷,实现了更加准确的文本推荐。
[0007]本专利技术提供一种文本推荐方法,包括:
[0008]获取原始文本;
[0009]将所述原始文本输入对比学习模型中,得到所述原始文本的目标特征信息,所述对比学习模型为基于多批样本文本对初始对比学习模型进行训练得到的,每批样本文本中包括至少一个第一三元组和至少一个第二三元组,所述第一三元组中包括原始样本文本、所述原始样本文本的第一正例样本和负例样本,所述第二三元组中包括所述原始样本文
本、所述原始样本文本的第二正例样本和所述负例样本,所述第一正例样本包括与所述原始样本文本的相似度大于预设值的文本,所述第二正例样本包括所述原始样本文本的部分文本;
[0010]确定所述目标特征信息和多个预设文本对应的预设特征信息之间的相似度,并确定处于召回阈值和去重阈值之间的相似度对应的目标预设特征信息,所述召回阈值小于所述去重阈值;
[0011]将所述目标预设特征信息对应的预设文本确定为所述目标相似文本。
[0012]根据本专利技术提供的一种文本推荐方法,所述每批样本文本中包括的至少一个第一三元组为基于如下方式得到的:
[0013]获取至少一个原始样本文本;
[0014]在样本文本集中不存在第一原始样本文本的目标正例样本的情况下,将所述第一原始样本文本确定为所述第一原始样本文本的第一正例样本,所述第一原始样本文本为所述至少一个原始样本文本中的一个;
[0015]基于所述第一原始样本文本、所述第一原始样本文本的第一正例样本和所述第一原始样本文本的负例样本,确定所述第一三元组。
[0016]根据本专利技术提供的一种文本推荐方法,所述每批样本文本中包括的至少一个第二三元组为基于如下方式得到的:
[0017]针对每个原始样本文本,将所述原始样本文本中的部分文本确定为所述原始样本文本的第二正例样本;
[0018]基于所述原始样本文本、所述原始样本文本的第二正例样本和所述原始样本文本的负例样本,确定所述第二三元组。
[0019]根据本专利技术提供的一种文本推荐方法,所述原始样本文本的所述负例样本为基于如下方式得到的:
[0020]在所述样本文本集中不存在第二原始样本文本的目标负例样本的情况下,基于所述多个原始样本文本中除所述第二原始样本文本之外的其他原始样本文本,确定所述第二原始样本文本的负例样本,所述第二原始样本文本为所述至少一个原始样本文本中的一个。
[0021]根据本专利技术提供的一种文本推荐方法,所述基于所述多个原始样本文本中除所述第二原始样本文本之外的其他原始样本文本,确定所述第二原始样本文本的负例样本,包括:
[0022]分别确定所述第二原始样本文本与每个其他原始样本文本之间的相似度;
[0023]基于所述相似度,从所述其他原始样本文本中确定所述负例样本。
[0024]根据本专利技术提供的一种文本推荐方法,所述基于所述多个原始样本文本中除所述第二原始样本文本之外的其他原始样本文本,确定所述第二原始样本文本的负例样本,包括:
[0025]从所述其他原始样本文本中随机选择目标原始样本文本,并将所述目标原始样本文本确定为所述第二原始样本文本的负例样本。
[0026]根据本专利技术提供的一种文本推荐方法,所述第一三元组的数量为至少两个,各第一三元组中包括的原始样本文本不同。
[0027]本专利技术还提供一种文本推荐装置,包括:
[0028]获取模块,用于获取原始文本;
[0029]输入模块,用于将所述原始文本输入对比学习模型中,得到所述原始文本的目标特征信息,所述对比学习模型为基于多批样本文本对初始对比学习模型进行训练得到的,每批样本文本中包括至少一个第一三元组和至少一个第二三元组,所述第一三元组中包括原始样本文本、所述原始样本文本的第一正例样本和负例样本,所述第二三元组中包括所述原始样本文本、所述原始样本文本的第二正例样本和所述负例样本,所述第一正例样本包括与所述原始样本文本的相似度大于预设值的文本,所述第二正例样本包括所述原始样本文本的部分文本;
[0030]确定模块,用于确定所述目标特征信息和多个预设文本对应的预设特征信息之间的相似度,并确定处于召回阈值和去重阈值之间的相似度对应的目标预设特征信息,所述召回阈值小于所述去重阈值;
[0031]所述确定模块,还用于将所述目标预设特征信息对应的预设文本确定为所述目标相似文本。
[0032]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本推荐方法。
[0033]本专利技术还提供一种电子设备,包括显示器、存储器、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本推荐方法,其特征在于,包括:获取原始文本;将所述原始文本输入对比学习模型中,得到所述原始文本的目标特征信息,所述对比学习模型为基于多批样本文本对初始对比学习模型进行训练得到的,每批样本文本中包括至少一个第一三元组和至少一个第二三元组,所述第一三元组中包括原始样本文本、所述原始样本文本的第一正例样本和负例样本,所述第二三元组中包括所述原始样本文本、所述原始样本文本的第二正例样本和所述负例样本,所述第一正例样本包括与所述原始样本文本的相似度大于预设值的文本,所述第二正例样本包括所述原始样本文本的部分文本;确定所述目标特征信息和多个预设文本对应的预设特征信息之间的相似度,并确定处于召回阈值和去重阈值之间的相似度对应的目标预设特征信息,所述召回阈值小于所述去重阈值;将所述目标预设特征信息对应的预设文本确定为所述目标相似文本。2.根据权利要求1所述的文本推荐方法,其特征在于,所述每批样本文本中包括的至少一个第一三元组为基于如下方式得到的:获取至少一个原始样本文本;在样本文本集中不存在第一原始样本文本的目标正例样本的情况下,将所述第一原始样本文本确定为所述第一原始样本文本的第一正例样本,所述第一原始样本文本为所述至少一个原始样本文本中的一个;基于所述第一原始样本文本、所述第一原始样本文本的第一正例样本和所述第一原始样本文本的负例样本,确定所述第一三元组。3.根据权利要求1所述的文本推荐方法,其特征在于,所述每批样本文本中包括的至少一个第二三元组为基于如下方式得到的:针对每个原始样本文本,将所述原始样本文本中的部分文本确定为所述原始样本文本的第二正例样本;基于所述原始样本文本、所述原始样本文本的第二正例样本和所述原始样本文本的负例样本,确定所述第二三元组。4.根据权利要求1

3任一项所述的文本推荐方法,其特征在于,所述原始样本文本的所述负例样本为基于如下方式得到的:在所述样本文本集中不存在第二原始样本文本的目标负例样本的情况下,基于所述多个原始样本文本中除所述第二原始样本文本之外的其他原始样本文本,确定所述第二原始样本文本的负例样本,所述第二原始样本文本为所述至少一个原始样本文本中的一个。5.根据权利要求4所述的文本推荐方法,其...

【专利技术属性】
技术研发人员:李卓李松汪洋盛志超王士进魏思
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1