System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及自然语言处理,尤其涉及一种基于大语言模型的数据处理方法及其相关设备。
技术介绍
1、自然语言处理(natural language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。例如,利用自然语言处理技术可以对各种语料数据,例如语音数据、文本数据,进行处理。
2、随着人工智能技术和硬件设备的快速发展,大语言模型(large languagemodels,llms)在自然语言处理领域取得了显著的成果。现有的大语言模型技术普遍以transformer框架为核心,通过对预训练语料、编码器、解码器以及各种微调工具的优化,提升大语言模型的内容生成质量。随着大语言模型应用领域的扩展,需要大语言模型分析、理解技术方案、文学巨著、技术标准、学术专著等大体量词元(token)的场景日益增多,对应的,需要大语言模型生成大量token的场景也大量增多。但大语言模型自身的预定义上下文窗口大小受模型架构、实现算法、算力资源等多重因素的影响,窗口可调整的空间相对较小。目前,解决大模型长文本问题的方法各有优劣,在实际应用中均需要大量的调优、测试,内容质量难以得到很好的保证。
技术实现思路
1、有鉴于此,本申请的目的在于提供了一种基于大语言模型的数据处理方法及其相关设备,在处理长文本时保持上下文语义的连贯性,提升大语言模型的内容生成质量,其具体技术方案如下:
2、第一方面,
3、获取待处理文本数据;
4、利用大语言模型对所述待处理文本数据进行向量转换,得到所述待处理文本数据对应的文本向量和实体向量;
5、利用所述大语言模型对所述实体向量进行处理,得到实体矩阵;
6、利用所述大语言模型基于所述实体矩阵对所述文本向量进行处理,得到文本矩阵;
7、利用所述大语言模型对所述文本矩阵进行文本转换,得到所述待处理文本数据对应的输出结果。
8、在一种可能的实现方式中,所述利用大语言模型对所述待处理文本数据进行向量转换,得到所述待处理文本数据对应的文本向量和实体向量,包括:
9、利用所述大语言模型基于实体数据集对所述待处理文本数据进行实体提取,得到实体集合;
10、基于所述实体集合对所述待处理文本数据进行分词处理,得到分词集合;
11、对所述实体集合进行向量转换,得到所述实体向量;
12、对所述分词集合进行向量转换,得到所述文本向量。
13、在一种可能的实现方式中,利用所述大语言模型对所述实体向量进行处理,得到实体矩阵,包括:
14、利用所述大语言模型对所述实体向量进行注意力计算,得到实体注意力矩阵;
15、对所述实体注意力矩阵进行线性变换,得到所述实体矩阵。
16、在一种可能的实现方式中,所述利用所述大语言模型基于所述实体矩阵对所述文本向量进行处理,得到文本矩阵,包括:
17、利用所述大语言模型基于所述实体矩阵对所述文本向量进行分块处理,得到分块向量;
18、计算各个所述分块向量与所述实体矩阵中各个元素的第一相似度;
19、基于所述第一相似度对所述分块向量进行筛选,得到保留向量;
20、对所述保留向量进行注意力计算,得到文本注意力矩阵;
21、对所述文本注意力矩阵进行线性变换,得到所述文本矩阵。
22、在一种可能的实现方式中,所述利用所述大语言模型对所述文本矩阵进行文本转换,得到所述待处理文本数据对应的输出结果,包括:
23、利用所述大语言模型对所述文本矩阵中的元素进行合并,得到输出序列;
24、利用所述大语言模型对所述输出序列进行文本转换,得到所述待处理文本数据对应的输出结果。
25、第二方面,本申请还提供了一种基于大语言模型的数据处理装置,所述装置包括:
26、文本获取模块,用于获取待处理文本数据;
27、向量转换模块,用于利用大语言模型对所述待处理文本数据进行向量转换,得到所述待处理文本数据对应的文本向量和实体向量;
28、实体处理模块,用于利用所述大语言模型对所述实体向量进行处理,得到实体矩阵;
29、文本处理模块,用于利用所述大语言模型基于所述实体矩阵对所述文本向量进行处理,得到文本矩阵;
30、文本转换模块,用于利用所述大语言模型对所述文本矩阵进行文本转换,得到所述待处理文本数据对应的输出结果。
31、在一种可能的实现方式中,所述向量转换模块,包括:
32、实体提取单元,用于利用所述大语言模型基于实体数据集对所述待处理文本数据进行实体提取,得到实体集合;
33、分词处理单元,用于基于所述实体集合对所述待处理文本数据进行分词处理,得到分词集合;
34、实体转换单元,用于对所述实体集合进行向量转换,得到所述实体向量;
35、分词转换单元,用于对所述分词集合进行向量转换,得到所述文本向量。
36、在一种可能的实现方式中,所述实体处理模块,包括:
37、实体计算单元,用于利用所述大语言模型对所述实体向量进行注意力计算,得到实体注意力矩阵;
38、实体变换单元,用于对所述实体注意力矩阵进行线性变换,得到所述实体矩阵。
39、第三方面,本申请还提供了一种计算机设备,包括:存储器以及处理器;
40、其中,所述存储器用于存储计算机程序;
41、所述处理器用于执行所述存储器中的计算机程序,以实现上述第一方面或第一方面任一项所述的方法。
42、第四方面,本申请还提供了一种计算机可读存储介质,存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的方法。
43、在本申请中,获取待处理文本数据;利用大语言模型对待处理文本数据进行向量转换,得到待处理文本数据对应的文本向量和实体向量;利用大语言模型对实体向量进行处理,得到实体矩阵;利用大语言模型基于实体矩阵对文本向量进行处理,得到文本矩阵;利用大语言模型对文本矩阵进行文本转换,得到待处理文本数据对应的输出结果。本申请通过引入实体分析来实现长文本数据的分析处理和结果生成,能够提升大语言模型的内容生成质量。利用实体这一概念、数据和相关处理方法,可有效保证大语言模型在处理长文本时保持上下文语义的连贯性,从而保证大语言模型在结果生成时能够紧扣当前主题。
本文档来自技高网...【技术保护点】
1.一种基于大语言模型的数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述利用大语言模型对所述待处理文本数据进行向量转换,得到所述待处理文本数据对应的文本向量和实体向量,包括:
3.根据权利要求1所述的方法,其特征在于,利用所述大语言模型对所述实体向量进行处理,得到实体矩阵,包括:
4.根据权利要求1所述的方法,其特征在于,所述利用所述大语言模型基于所述实体矩阵对所述文本向量进行处理,得到文本矩阵,包括:
5.根据权利要求1所述的方法,其特征在于,所述利用所述大语言模型对所述文本矩阵进行文本转换,得到所述待处理文本数据对应的输出结果,包括:
6.一种基于大语言模型的数据处理装置,其特征在于,所述装置包括:
7.根据权利要求6所述的装置,其特征在于,所述向量转换模块,包括:
8.根据权利要求6所述的装置,其特征在于,所述实体处理模块,包括:
9.一种计算机设备,其特征在于,包括:存储器以及处理器;
10.一种计算机可读存储介质,其特征在于
...【技术特征摘要】
1.一种基于大语言模型的数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述利用大语言模型对所述待处理文本数据进行向量转换,得到所述待处理文本数据对应的文本向量和实体向量,包括:
3.根据权利要求1所述的方法,其特征在于,利用所述大语言模型对所述实体向量进行处理,得到实体矩阵,包括:
4.根据权利要求1所述的方法,其特征在于,所述利用所述大语言模型基于所述实体矩阵对所述文本向量进行处理,得到文本矩阵,包括:
5.根据权利要求1所述的方法,其特征在于,所...
【专利技术属性】
技术研发人员:刘明超,杨鹏程,张立佳,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。