一种基于高效微调开源大语言模型的文本立场检测方法技术

技术编号：42911869 阅读：11 留言：0更新日期：2024-10-11 15:42

本发明专利技术涉及文本分析技术领域，提供一种基于高效微调开源大语言模型的文本立场检测方法，包括如下步骤：步骤1，通过提示词工程构建提示词句；步骤2，构建并训练得到微调开源大语言模型；步骤3，将提示词句输入微调开源大语言模型进行文本立场检测。本发明专利技术提升了模型在专业领域中的立场检测精度和稳定性。优化了模型的训练过程，显著降低了基于预训练开源大语言模型的立场检测方法在特定专业领域应用时对计算资源的依赖，提高了效率和成本效益，使得基于大语言模型的立场检测方法在专业领域的部署变得更加广泛和实际可行。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本分析，具体而言，涉及一种基于高效微调开源大语言模型的文本立场检测方法。

技术介绍

1、目前，常用的立场检测方法有基于机器学习的立场检测、基于深度学习的立场检测和基于预训练语言模型的立场检测。其中基于预训练大语言模型的立场检测方法因为能够利用大规模数据学习到的深层语言理解能力，表现效果最优，代表模型有生成式gpt（generative pre-trained，一种基于互联网的、可用数据来训练的、文本生成的深度学习模型）等。但是gpt-4（美国人工智能研究实验室openai发布的语言模型）、文心一言等模型未开源、需要付费，而且存在隐私泄露和高延迟等问题。除此之外，虽然现有预训练大语言模型在大规模数据集上进行了预训练，但是缺乏专业领域立场检测相关的先验知识，因此在专业领域（例如社交媒体分析、对事件的态度等）立场检测应用中准确性较低。通常需要通过微调使其学习专业领域的先验知识，从而提高大语言模型在下游任务中的准确性。然而，传统的微调方法通常需要更新模型的所有参数，耗费的计算资源极大，导致实际应用成本较高。

技术实现思路

1、本专利技术旨在提供一种基于高效微调开源大语言模型的文本立场检测方法，以解决以下两个问题：

2、(1)解决常见未开源大语言模型如gpt-4需要付费使用、存在隐私泄露和高延迟的问题。

3、(2)解决现有预训练大语言模型缺乏立场检测相关的先验知识而导致准确率低的问题和解决传统微调方法训练难度较大、训练成本高和效率低的问题。