文本推荐方法、装置、电子设备和存储介质制造方法及图纸

技术编号：37047830 阅读：13 留言：0更新日期：2023-03-29 19:26

本发明专利技术提供一种文本推荐方法、装置、电子设备和存储介质，该方法包括：将原始文本输入对比学习模型中，得到原始文本的目标特征信息，对比学习模型为基于多批样本文本对初始对比学习模型进行训练得到的，每批样本文本中包括至少一个第一三元组和至少一个第二三元组，第一三元组中包括原始样本文本、原始样本文本的第一正例样本和负例样本，第二三元组中包括原始样本文本、原始样本文本的第二正例样本和负例样本，第一正例样本包括与原始样本文本的相似度大于预设值的文本，第二正例样本包括原始样本文本的部分文本；确定目标特征信息和多个预设文本对应的预设特征信息之间的相似度，以确定目标相似文本。本发明专利技术可以提高文本推荐的准确性。的准确性。的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本推荐方法、装置、电子设备和存储介质

[0001]本专利技术涉及文本推荐
，尤其涉及一种文本推荐方法、装置、电子设备和存储介质。

技术介绍

[0002]随着个性化教育的普及和发展，因才施教成为了教育领域中追求的重要目标，如在教学评阅中，如果能够对学生的薄弱环节进行相应习题文本的推荐练习，这对学生学习的提高有着至关重要的作用。
[0003]现有技术中的文本推荐方法，大多是采用如Glove(Global Vectors，全局向量)等的静态语言模型，其提取出的每个词向量embedding表示与上下文无关。因此，对于较为复杂的语篇类试题的推荐时，模型将会导致表征空间的各项异性，使得绝大部分的表征向量都集中分布在表征空间的一个锥形区域内，从而导致任意两篇文本的相似度都很高，即相似度集中在0.9以上。大量的文本集中在同一片相似度区间内，无论是对阈值设置还是模型鲁棒性都有较大风险，这对于相似文本的召回方案是极为不利的，即无法满足现有召回需求。
[0004]为了解决上述技术问题，现有技术中提出一种动态的语言模型，即SimCSE(Simple Contrastive Learning of Sentence Embeddings，基于简单对比学习的句向量表示)模型，该模型采用的是BERT(Bidirectional Encoder Representation from Transformers，基于变压器的双向编码器表示)的框架，其通过简单的对比学习就可以在文本相似度任务上达到SOTA(State Of Th...

【技术保护点】

【技术特征摘要】
1.一种文本推荐方法，其特征在于，包括：获取原始文本；将所述原始文本输入对比学习模型中，得到所述原始文本的目标特征信息，所述对比学习模型为基于多批样本文本对初始对比学习模型进行训练得到的，每批样本文本中包括至少一个第一三元组和至少一个第二三元组，所述第一三元组中包括原始样本文本、所述原始样本文本的第一正例样本和负例样本，所述第二三元组中包括所述原始样本文本、所述原始样本文本的第二正例样本和所述负例样本，所述第一正例样本包括与所述原始样本文本的相似度大于预设值的文本，所述第二正例样本包括所述原始样本文本的部分文本；确定所述目标特征信息和多个预设文本对应的预设特征信息之间的相似度，并确定处于召回阈值和去重阈值之间的相似度对应的目标预设特征信息，所述召回阈值小于所述去重阈值；将所述目标预设特征信息对应的预设文本确定为所述目标相似文本。2.根据权利要求1所述的文本推荐方法，其特征在于，所述每批样本文本中包括的至少一个第一三元组为基于如下方式得到的：获取至少一个原始样本文本；在样本文本集中不存在第一原始样本文本的目标正例样本的情况下，将所述第一原始样本文本确定为所述第一原始样本文本的第一正例样本，所述第一原始样本文本为所述至少一个原始样本文本中的一个；基于所述第一原始样本文本、所述第一原始样本文本的第一正例样本和所述第一原始样本文本的负例样本，确定所述第一三元组。3.根据权利要求1所述的文本推荐方法，其特征在于，所述每批样本文本中包括的至少一个第二三元组为基于如下方式得到的：针对每个原始样本文本，将所述原始样本文本中的部分文本确定为所述原始样本文本的第二正例样本；基于所述原始样本文本、所述原始样本文本的第二正例样本和所述原始样本文本的负例样本，确定所述第二三元组。4.根据权利要求1
‑
3任一项所述的文本推荐方法，其特征在于，所述原始样本文本的所述负例样本为基于如下方式得到的：在所述样本文本集中不存在第二原始样本文本的目标负例样本的情况下，基于所述多个原始样本文本中除所述第二原始样本文本之外的其他原始样本文本，确定所述第二原始样本文本的负例样本，所述第二原始样本文本为所述至少一个原始样本文本中的一个。5.根据权利要求4所述的文本推荐方法，其...

【专利技术属性】
技术研发人员：李卓，李松，汪洋，盛志超，王士进，魏思，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人