一种数据预测方法、装置、设备及存储介质制造方法及图纸

技术编号：30648178 阅读：24 留言：0更新日期：2021-11-04 01:00

本发明专利技术实施例涉及人工智能领域，公开了一种数据预测方法、装置、设备及存储介质，该方法包括：获取测试数据集，测试数据集包括已标注的句子对和未标注的句子对；利用测试数据集对BERT模型进行训练，得到第一数据预测模型；将未标注的句子对作为第一数据集输入第一数据预测模型中，得到第二数据集；将测试数据集与第二数据集进行合并处理，并根据合并后的训练数据集训练Sentence BERT模型，得到第二数据预测模型；将待测试数据输入第二数据预测模型，得到预测结果，以提升模型的性能以及提高数据预测的准确性。本发明专利技术涉及区块链技术，如可将数据写入区块链中，以用于数据取证等场景。景。景。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据预测方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能领域，尤其涉及一种数据预测方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网技术的发展，自然语言处理是当前人工智能重要的一部分，其中，数据预测受到了广泛的关注。例如，智能检索系统能及时给用户提供用户疑惑的问题答案，其通常包括问句理解、信息检索、答案抽取和选择三个主要部分，其中，句子相似度计算是问句理解的一部分，它的性能将直接影响到最后答案的准确性。
[0003]句子相似度指的是两个句子之间匹配的程度，Sentence BERT模型能帮助快速计算句子相似度。但是目前训练一个表现优秀的Sentence BERT模型需要大量标注好的句子对，而大量标注好的句子对的获得需要花费大量的资源，如时间、人力、金钱等。因此，如何有效地提升Sentence BERT模型的性能以及提高数据预测的准确性非常重要。

技术实现思路

[0004]本专利技术实施例提供了一种数据预测方法、装置、设备及存储介质，可以提升Sentence BERT模型的性能以及提高数据预测的准确性。
[0005]第一方面，本专利技术实施例提供了一种数据预测方法，所述方法包括：
[0006]获取测试数据集，所述测试数据集包括多个句子对，所述多个句子对中包括已标注的句子对和未标注的句子对；
[0007]利用所述测试数据集对预设的BERT模型进行训练，得到第一数据预测模型；
[0008]将未标注的句子对作为第一数据集输入所述第一数据预测...

【技术保护点】

【技术特征摘要】
1.一种数据预测方法，其特征在于，所述方法包括：获取测试数据集，所述测试数据集包括多个句子对，所述多个句子对中包括已标注的句子对和未标注的句子对；利用所述测试数据集对预设的BERT模型进行训练，得到第一数据预测模型；将未标注的句子对作为第一数据集输入所述第一数据预测模型中，得到第二数据集；将所述测试数据集与所述第二数据集进行合并处理，并根据合并后的训练数据集训练预设的Sentence BERT模型，得到第二数据预测模型；将待测试数据输入所述第二数据预测模型，得到与所述待测试数据对应的预测结果。2.根据权利要求1所述的方法，其特征在于，所述利用所述测试数据集对预设的BERT模型进行训练，得到第一数据预测模型，包括：将所述测试数据集中的各个句子对输入预设的BERT模型，得到与所述各个句子对对应的目标特征向量；根据所述目标特征向量重新训练所述预设的BERT模型，确定得到所述第一数据预测模型。3.根据权利要求2所述的方法，其特征在于，所述将所述测试数据集中的各个句子对输入预设的BERT模型，得到与所述各个句子对对应的目标特征向量，包括：在所述测试数据集中各个句子对的两个句子之间添加第一标识符，并在每个句子对的起始位置添加第二标识符；将添加第一标识符和第二标识符的各个句子对输入所述预设的BERT模型，得到用于表示所述第二标识符所处位置的所述目标特征向量。4.根据权利要求3所述的方法，其特征在于，所述根据所述目标特征向量重新训练所述预设的BERT模型，确定得到所述第一数据预测模型，包括：将所述目标特征向量输入预设的二分类模型，得到所述测试数据集中各个句子对中每两个句子之间的匹配概率；根据所述匹配概率重新训练所述预设的BERT模型，确定得到所述第一数据预测模型。5.根据权利要求4所述的方法，其特征在于，所述根据所述匹配概率重新训练所述预设的BERT模型，确定得到所述第一数据预测模型，包括：根据所述匹配概率调整所述预设的BERT模型的模型参数，并利用调整后的模型参数重新训练所述预设的BERT模型；当利用重新训练后的BERT模型得到的匹配概率满足预设阈值时，确定得到所述第一数据预测模型。6.根据权利要求1所述的方法，其特征在于，所述新的训练数据集包括多个句子对，每个句子对包括第一句子和第二句子，所述预设的Sentence BERT模型包括第一BERT模型和第二BERT模型；所述根据所述新的训练数...

【专利技术属性】
技术研发人员：颜泽龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人