System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文本分析,尤其是涉及一种基于lora算法的文本分析方法。
技术介绍
1、在当今信息化的社会,企业年报作为公司年度经营情况的详细记录,承载着大量重要的信息。这些年报文本数据通常是非结构化的,意味着它们以自然语言的形式存在,其中包含了大量的文字、表格和图形等数据。这些非结构化数据的存在给信息的提取和分析带来了很大的挑战。在当前的文本分析
,如何有效地从年报等文档中提取有价值的信息成为了一个重要的研究方向。传统的信息提取技术通常依赖于自然语言处理(nlp)技术,通过构建基于规则的方法或使用机器学习模型对文本进行分析。这些传统方法在处理特定领域的数据时可能表现良好,但在面对大量非结构化文本时,其效果往往不尽如人意。尤其是随着企业年报的内容日益复杂,传统方法的再训练和适应能力不足,造成了信息提取效率的低下。随着深度学习的快速发展,许多研究者开始尝试利用深度学习模型进行文本分析。其中,预训练语言模型(如bert、gpt等)已被证明在文本分类、情感分析等任务中具有优异的性能。然而,这些预训练模型通常需要大量的计算资源和训练数据,对于中小企业而言,实施成本较高。此外,在特定任务上对这些模型进行微调(fine-tuning)也需要较高的专业知识和技能,限制了其推广应用。总而言之,现有方法往往存在以下不足:第一,文本数据预处理过程复杂且耗时,难以保证信息的完整性;第二,现有分类和评分模型对年报信息的解读能力有限,难以全面反映企业的实际情况;第三,缺乏综合评估机制,导致最终分析结果的准确性和可靠性不足。为了解决上述问题,lora(
技术实现思路
1、本专利技术的目的是提供一种基于lora算法的文本分析方法,解决现有技术存在的文本数据预处理过程复杂且耗时,难以保证信息的完整性,且对年报信息的解读能力有限,难以全面反映企业的实际情况,缺乏综合评估机制,导致最终分析结果的准确性和可靠性不足的问题。
2、为实现上述目的,本专利技术提供了一种基于lora算法的文本分析方法,包括以下步骤:
3、步骤1、获取年报文本数据;
4、步骤2、构建年报预处理模型,将年报文本数据中的非结构化数据转化为结构化信息并基于lora算法进行微调;
5、步骤3、构建分类和评分模型,对转化后的年报文本数据中的结构化信息进行数字化转型,并对数字化转型的结果进行分类和评分;
6、步骤4、构建医生诊断模型,对年报文本数据的数字化转型进行综合评估和分析。
7、优选的,步骤1中的年报文本数据从企业官方网站或证券市场获取公司年报文本数据,包括公司介绍、财务报表、管理层讨论与分析。
8、优选的,步骤2中构建年报预处理模型的过程如下:
9、s21、对获取的年报文本数据进行清洗,去除特殊字符的非文本信息;
10、s22、对经过s21清洗后的年报文本数据进行分块、去掉停用词、结构化处理;
11、s23、研究者对s22处理后的数据进行检查与修正;
12、s24、根据s23基于lora算法进行对年报预处理模型微调,进一步对年报文本数据进行特征提取。
13、优选的,s22的过程如下:
14、s221、根据年报的结构,将文本根据段落、章节或特定格式进行分块,使用文本处理工具python进行分块;
15、s222、结合需要的结构化格式(如csv、json、数据库表等),设计对应的数据模型,明确字段名称和数据类型,如“公司名称”、“交易金额”、“日期”等,将s221经过分块得到的文本按照预设的数据模型进行映射,将非结构化信息转化为结构化格式,例如,将识别出的公司名、金额和日期等属性填充到相应的字段中,形成结构化记录。
16、优选的,s24的过程如下:
17、s241、根据年报文本中的内容进行标注,形成标注好的数据集,将标注好的数据集分为训练集和验证集;
18、s242、基于bert预训练模型添加lora适配器,通过低秩矩阵分解来模拟原始权重参数的改变量,具体为在原有网络中引入一个旁路结构,旁路结构由一个低秩矩阵a和低秩矩阵b组成,将低秩矩阵a和低秩矩阵b的乘机的增量作为原始权重w更新的参照,在训练过程中更新低秩矩阵a和低秩矩阵b的同时也利用其乘机的增量动态地更新训练原始权重w,更新过程如下式:
19、
20、其中,wt为第t时间步的原始权重,at,bt分别是第t时间步的两个低秩矩阵,λ为权重矩阵w更新的比例,h表示卷积核的高度,若采用梯度下降的方式来更新w,则wt+1=wt-ηg(w),其中η为学习率,g(w)为矩阵的梯度,预训练矩阵的权重增量为δw=-ηg(w);
21、s243、通过反向传播算法更新lora适配器,对年报预处理模型进行微调,进一步对年报文本数据进行特征提取。
22、优选的,步骤3中构建分类和评分模型的过程如下:
23、s31、基于chatglm 3对经过预处理后的年报文本进行初步分类,并将对应的内容映射到不同的
;
24、s32、对分类的文本片段进行初步评分,根据其对应类别的描述深度和准确性,将评分划为5个等级;
25、s33、研究者对初步的分类和评分进行审查与反馈;
26、s34、根据s33的反馈,基于lora算法对分类和评分模型进行训练和微调。
27、优选的,
包括人工智能技术、大数据技术、云计算技术和区块链技术。
28、优选的,s32中基于bleu(bilingual evaluation understudy,双语评估辅助工具)对分类的文本片段进行初步评分,计算表达式如下:
29、
30、式中,pn表示n-gram的精确率,wn表示n-gram的权重,bp表示惩罚因子,lc表示机器译文的长度,lr表示最短的分类的文本片段的长度,c表示机器翻译的译文,i表示c里面的n-gram,hi(c)表示n_gram i在c里面出现的次数,hi(sj)表示n_gram i在第j个参考译文s中出现的次数。
31、优选的,评分的5个等级具体为:
32、第一等级:1分:极差,不相关或有重大错误;
33、第二等级:2分:差,相关性低,内容不完善;
34、第三等级:3分:中等,中等相关,信息部分完整;
35、第四等级:4分:好,内容完整,具相关性;
36、第五等级:5分:优秀,信息完整且高度相关。
37、优选的,步骤4中构建医生诊断模型的过本文档来自技高网...
【技术保护点】
1.一种基于LoRA算法的文本分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于LoRA算法的文本分析方法,其特征在于:步骤1中的年报文本数据从企业官方网站或证券市场获取公司年报文本数据,包括公司介绍、财务报表、管理层讨论与分析。
3.根据权利要求2所述的一种基于LoRA算法的文本分析方法,其特征在于,步骤2中构建年报预处理模型的过程如下:
4.根据权利要求3所述的一种基于LoRA算法的文本分析方法,其特征在于,S22的过程如下:
5.根据权利要求4所述的一种基于LoRA算法的文本分析方法,其特征在于,S24的过程如下:
6.根据权利要求5所述的一种基于LoRA算法的文本分析方法,其特征在于,步骤3中构建分类和评分模型的过程如下:
7.根据权利要求6所述的一种基于LoRA算法的文本分析方法,其特征在于:技术领域包括人工智能技术、大数据技术、云计算技术和区块链技术。
8.根据权利要求7所述的一种基于LoRA算法的文本分析方法,其特征在于,S32中基于BLEU对分类的文本片段进行初
9.根据权利要求8所述的一种基于LoRA算法的文本分析方法,其特征在于,评分的5个等级具体为:
10.根据权利要求9所述的一种基于LoRA算法的文本分析方法,其特征在于,步骤4中构建医生诊断模型的过程如下:
...【技术特征摘要】
1.一种基于lora算法的文本分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于lora算法的文本分析方法,其特征在于:步骤1中的年报文本数据从企业官方网站或证券市场获取公司年报文本数据,包括公司介绍、财务报表、管理层讨论与分析。
3.根据权利要求2所述的一种基于lora算法的文本分析方法,其特征在于,步骤2中构建年报预处理模型的过程如下:
4.根据权利要求3所述的一种基于lora算法的文本分析方法,其特征在于,s22的过程如下:
5.根据权利要求4所述的一种基于lora算法的文本分析方法,其特征在于,s24的过程如下:
6.根据权利要求5...
【专利技术属性】
技术研发人员:陈荣康,陈皓月,郑亦彭,赖锦梅,潘麒键,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。