System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的文本智能校对方法、系统和设备技术方案_技高网

一种基于大语言模型的文本智能校对方法、系统和设备技术方案

技术编号:41420782 阅读:7 留言:0更新日期:2024-05-28 20:21
本发明专利技术公开一种基于大语言模型的文本智能校对方法、系统和设备,涉及文本检测技术领域,方法包括:获取输入文本,对文本进行切分;利用向量化模型将切分结果转化为向量,利用向量数据库对转化结果进行检索,得到相关事实文本;对输入文本进行实体抽取;对实体进行两两遍历组合,并基于输入文本及事实文本构建相关提示,随后调用大语言模型判断实体关系,构建三元组,再后对三元组按照规则匹配方式依次遍历组合,构建多元组;针对多元组,调用大语言模型构建问题,得到问题集合;基于事实文本及问题集合进行错误实体以及句子定位,并调用大语言模型进行错误纠正,将对应的真实信息展示给用户。本发明专利技术可以很好的解决文本质量问题。

【技术实现步骤摘要】

本专利技术涉及文本检测,具体的说是一种基于大语言模型的文本智能校对方法、系统和设备


技术介绍

1、随着互联网技术的发展和社会信息化程度的提高,文本数据量呈现爆炸性增长。文本数据以其丰富的信息内容和广泛的应用领域,已经成为人们获取知识、表达观点和传递信息的重要形式。然而,由于种种原因,如个人的语言水平、认知能力、输入设备的限制等,使得人们在撰写和编辑文本时可能会产生各种错误,如字诈、词误、语病等。这些错误不仅影响了文本的质量,也阻碍了人们对文本信息的准确理解和有效利用。面对大量存在错误的文本,传统的人工校对方法无法满足日益增长的校对需求,而且工作量巨大,耗时、耗力,效率低下。

2、因此,研究并设计一种能够自动检测和纠正文本错误的计算机系统具有极其重要的理论意义和实际价值。随着人工智能和深度学习的发展,文本错误检测是一种以机器学习为核心的技术,主要用于对文本进行深度解析和纠错。在现代社会,大规模的文本信息处理已成为一种需求,而很多这些文本信息往往存在着各种语法和拼写的错误。这就需要一种强大的文本错误检测技术来提升文本信息的质量和准确性。本质上,文本错误检测可以被视为一种自然语言处理(nlp)的问题,它利用机器学习和深度学习技术在不同的应用场景中进行预测、检测和纠正错误。具体的技术背景包括但不限于机器学习(如决策树、随机森林、逻辑回归、支持向量机等),深度学习(如神经网络、长短期记忆网络-lstm、卷积神经网络-cnn、变分自编码器-vae等),以及自然语言处理的各种技术(包括但不限于语言模型、分词技术、词义消歧、句法分析等)。

3、近年来,随着深度学习和机器学习技术的繁荣与发展,文本错误检测技术也取得了显著的进步。比如,transformer模型(如bert,gpt等)在文本错误检测方面表现出色。更甚至,一些模型已经能够考虑句子的语境,进行细粒度的检测和修正,比如预训练模型bert。然而,尽管有所进步,文本错误检测依然面临着诸如多样性的错误类型、高质量标注数据的匮乏、领域专业性错误的检测等挑战。总的来说,面对日益复杂和庞大的文本信息,文本错误检测仍是一个值得深入研究的问题。


技术实现思路

1、本专利技术针对目前技术发展的需求和不足之处,提供一种基于大语言模型的文本智能校对方法、系统和设备,来提高文本的质量,增强信息的交流效果,同时减轻人工校对的工作量,提高文本处理的效率。

2、第一方面,本专利技术的一种基于大语言模型的文本智能校对方法,解决上述技术问题采用的技术方案如下:

3、一种基于大语言模型的文本智能校对方法,其包括如下步骤:

4、获取用户输入文本,对用户输入文本进行切分;

5、利用向量化模型将切分结果转化为向量,利用向量数据库对转化结果进行检索,得到相关事实文本;

6、对用户输入文本进行实体抽取,得到实体集合;

7、对实体集合中的实体进行两两遍历组合,并基于用户输入文本以及事实文本构建相关提示,随后调用大语言模型判断实体关系,构建三元组,再后对三元组按照规则匹配方式依次遍历组合,构建多元组;

8、针对多元组,调用大语言模型构建问题,得到问题集合;

9、基于事实文本及问题集合构建提示,利用提示进行错误实体以及句子定位,并调用大语言模型进行错误纠正,将对应的真实信息展示给用户。

10、可选的,使用nltk工具切分用户输入文本,依次得到段落级文本、句子级文本,随后对句子级文本进行规范化处理。

11、可选的,使用命名实体识别模型对用户输入文本进行实体抽取,得到实体集合。

12、进一步可选的,使用命名实体识别模型对用户输入文本进行实体抽取,使用无用实体库过滤无用实体,得到实体集合。

13、第二方面,本专利技术的一种基于大语言模型的文本智能校对系统,解决上述技术问题采用的技术方案如下:

14、一种基于大语言模型的文本智能校对系统,其包括:

15、文本预处理模块,用于获取用户输入文本,并对用户输入文本进行切分和规范化处理;

16、文本检索模块,用于使用向量化模型将句子级文本转化为向量,并对向量数据库进行检索,检索到相关事实文本;

17、实体抽取模块,用于对用户输入文本进行实体抽取,得到实体集合;

18、实体关系构建模块,用于对实体集合中的实体进行两两遍历组合,随后基于用户输入文本以及事实文本构建相关提示,并调用大语言模型判断实体关系,构建三元组,再后对三元组按照规则匹配方式依次遍历组合,构建多元组;

19、问题生成模块,用于针对多元组,调用大语言模型构建问题,得到问题集合;

20、错误检测与纠正模块,用于基于事实文本及问题集合构建提示,利用提示进行错误实体以及句子定位,并调用大语言模型进行错误纠正,将对应的真实信息展示给用户。

21、可选的,所涉及文本预处理模块使用nltk工具切分用户输入文本,依次得到段落级文本、句子级文本,随后对句子级文本进行规范化处理。

22、可选的,所涉及实体抽取模块使用命名实体识别模型对用户输入文本进行实体抽取,得到实体集合。

23、进一步可选的,所涉及实体抽取模块使用命名实体识别模型对用户输入文本以及事实文本进行实体抽取后,使用无用实体库过滤无用实体,得到实体集合。

24、第三方面,本专利技术的一种计算机设备,解决上述技术问题采用的技术方案如下:

25、一种计算设备,其包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面所述的方法。

26、本专利技术的一种基于大语言模型的文本智能校对方法、系统和设备,与现有技术相比具有的有益效果是:

27、(1)本专利技术可以很好的解决文本质量问题,并且无需人工收集大量数据,具有简单高效、维护简单、应用场景广泛等优点;

28、(2)本专利技术实现了高效且低成本的错误检测与纠正方法,为用户提供了便捷、精准的文本错误检测服务,同时,还具备良好的可扩展性,能够应用于不同领域和场景,具有训练成本低、维护简单、准确率高等优点。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的文本智能校对方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于大语言模型的文本智能校对方法,其特征在于,使用NLTK工具切分用户输入文本,依次得到段落级文本、句子级文本,随后对句子级文本进行规范化处理。

3.根据权利要求1所述的一种基于大语言模型的文本智能校对方法,其特征在于,使用命名实体识别模型对用户输入文本进行实体抽取,得到实体集合。

4.根据权利要求3所述的一种基于大语言模型的文本智能校对方法,其特征在于,使用命名实体识别模型对用户输入文本进行实体抽取,使用无用实体库过滤无用实体,得到实体集合。

5.一种基于大语言模型的文本智能校对系统,其特征在于,其包括:

6.根据权利要求5所述的一种基于大语言模型的文本智能校对系统,其特征在于,所述文本预处理模块使用NLTK工具切分用户输入文本,依次得到段落级文本、句子级文本,随后对句子级文本进行规范化处理。

7.根据权利要求5所述的一种基于大语言模型的文本智能校对系统,其特征在于,所述实体抽取模块使用命名实体识别模型对用户输入文本进行实体抽取,得到实体集合。

8.根据权利要求7所述的一种基于大语言模型的文本智能校对系统,其特征在于,所述实体抽取模块使用命名实体识别模型对用户输入文本以及事实文本进行实体抽取后,使用无用实体库过滤无用实体,得到实体集合。

9.一种计算设备,其特征在于,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-4中任一项所述的方法。

...

【技术特征摘要】

1.一种基于大语言模型的文本智能校对方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于大语言模型的文本智能校对方法,其特征在于,使用nltk工具切分用户输入文本,依次得到段落级文本、句子级文本,随后对句子级文本进行规范化处理。

3.根据权利要求1所述的一种基于大语言模型的文本智能校对方法,其特征在于,使用命名实体识别模型对用户输入文本进行实体抽取,得到实体集合。

4.根据权利要求3所述的一种基于大语言模型的文本智能校对方法,其特征在于,使用命名实体识别模型对用户输入文本进行实体抽取,使用无用实体库过滤无用实体,得到实体集合。

5.一种基于大语言模型的文本智能校对系统,其特征在于,其包括:

6.根据权利要求5所述的一种...

【专利技术属性】
技术研发人员:黄登蓉郭冬升张其来张思嘉
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1