【技术实现步骤摘要】
一种基于大规模语言模型的电力领域阅读理解方法和系统
[0001]本专利技术涉及电力知识阅读理解领域,尤其是一种基于大规模语言模型的电力领域阅读理解方法和系统
。
技术介绍
[0002]大规模语言模型凭借其良好的自然语言理解能力
、
似真人一般的回复生成能力以及小样本或零样本学习能力,迅速成为了研究的一个重要主题
。
但大规模语言模型在如医学
、
法律和电力等垂直领域的实际应用欠佳,因为其不具备垂直领域的专业知识以及其输出存在着一定的“幻觉”错误
。
同时,现今市面上实际部署应用的大规模语言模型,如
ChatGPT
,其参数规模已达到千亿级别
。
这种超大规模的模型部署困难,计算成本巨大
。
[0003]阅读理解任务的成果可以应用于实际,辅助人们阅读文献,提取关键信息等
。
传统的抽取式阅读理解模型大多基于注意力机制或预训练语言模型,如
BERT
,在只针对在给定上下文中有明确答案的问题会有较好的效果,对于涉及到知识概况总结和开放式问答,效果不佳
。
同时通用的阅读理解模型针对垂直领域的上下文理解效果一般
。
[0004]在电力知识领域,有着很多专有词汇,且十分容易混淆,这对人工智能模型的理解能力提出了巨大的挑战
。
电力知识领域的文献长度参差不齐,有存在长文本,这对传统的抽取式阅读理解模型是一个挑战
。
...
【技术保护点】
【技术特征摘要】
1.
一种基于大规模语言模型的电力领域阅读理解方法,其特征在于,包括如下步骤:
1)
获取电力领域相关文本数据,构建用于模型预训练的数据集
D1
和用于阅读理解任务的数据集
D2
;
2)
根据步骤
1)
得到的数据集
D1
和
D2
,分别训练一个抽取式阅读理解模型
M1
和一个电力领域大规模语言模型
M2
;
3)
将待进行阅读理解的电力领域长文本按自然段分段;
4)
将待进行阅读理解的电力领域长文本的相关问题
Q
和根据步骤
3)
得到的长文本分段结果为输入,通过训练得到的抽取式阅读理解模型
M1
,得到全部文本段的答案预测结果;
5)
判断步骤
4)
得到的全部文本段的答案预测结果中包含的预测答案个数
r
,若
r
=1,则直接输出对应的预测答案作为最终的答案,若
r>1
,则执行步骤
6)
,若
r
=0,则执行步骤
7)
;
6)
选取答案预测结果中包含预测答案的文本段组成一个新文本,并将新文本和问题
Q
组成大规模语言模型
M2
的输入,通过大规模语言模型
M2
生成最终的答案;
7)
基于问题
Q
匹配数据库中的文档,将匹配得到的文档和问题
Q
组成大规模语言模型
M2
的输入,通过大规模语言模型
M2
生成最终的答案
。2.
根据权利要求1所述的基于大规模语言模型的电力领域阅读理解方法,其特征在于,所述的用于模型预训练的数据集
D1
为电力领域的纯文本数据,用于对抽取式阅读理解模型和电力领域大规模语言模型分别进行掩码语言模型训练和因果语言模型训练;用于阅读理解任务的数据集
D2
中的每一个样本包含问题
Q、
上下文
T
和答案
A。3.
根据权利要求1所述的基于大规模语言模型的电力领域阅读理解方法,其特征在于,所述的抽取式阅读理解模型
M1
的训练过程包括:采用数据集
D1
,对基于
transformer
编码器架构的抽取式阅读理解模型进行掩码语言模型预训练,使得抽取式阅读理解模型融合电力领域的专业知识;采用数据集
D2
继续对预训练后的抽取式阅读理解模型进行训练,得到训练好的抽取式阅读理解模型
M1。4.
根据权利要求3所述的基于大规模语言模型的电力领域阅读理解方法和系统,其特征在于,所述的采用数据集
D1
,对基于
transformer
编码器架构的抽取式阅读理解模型进行掩码语言模型预训练,包括:对数据集
D1
进行预处理:将原始文本按自然段切分为若干段,通过分词器将文本转化为字词序列,将字词序列随机掩码,得到掩码文本段落;通过嵌入层获取掩码文本段落的嵌入表示,将掩码文本段落的嵌入表示输入
transformer
编码器,获得掩码文本段落的隐藏表示;以掩码文本段落的隐藏表示为输入,通过掩码语言模型预测头预测掩码位置的字词,以原始文本段落中对应位置的字词为标签,计算交叉熵损失;基于交叉熵损失,通过梯度回传更新抽取式阅读理解模型中的嵌入层
、transformer
编码器
、
掩码语言模型预测头的参数,完成抽取式阅读理解模型的预训练
。5.
根据权利要求3所述的基于大规模语言模型的电力领域阅读理解方法,其特征在于,所述的采用数据集
D2
继续对预训练后的抽取式阅读理解模型进行训练,得到训练好的抽取式阅读理解模型
M1
,包括:对数据集
D2
进行预处理:将数据集
D2
中的每一个样本的上下文
T
和问题
Q
通过分词器转
化为字词序列,通过语言模型的分句间隔符连接;通过预训练后的嵌入层获取样本预处理后的字词序列的嵌入表示,将其输入预训练后的
transformer
编码器,获得样本的隐藏表示;以样本的隐藏表示作为输入,通过抽取式阅读理解分类头预测答案的起始位置和结束位置,以样本的真实答案
A
中对应到上下文的起始位置和结束位置为标签,计算交叉熵损失;基于交叉熵损失,通过梯度回传更新抽取式阅读理解模型中的嵌入层
、transformer
编码器
、
抽取式阅读理解分类头的参数,完成抽取式阅读理解模型的训练,得到训练好的抽取式阅读理解模型
M1。6.
根据权利要求1所述的基于大规模语言模型的电力领域阅读理解方法,其特征在于,所述的电力领域大规模语言模型
M2
的训练过程包括:获取数据集
D1
对应的中文扩展词表,并将其和大规模语言模型原始词表融合得到新词表;采用数据集
D1
,对基于
transformer
解码器架构的大规模语言模型进行预训练,使得大规模语言模型融合电力领域的专业知识;采用数据集
D2
继续对预训练后的大规...
【专利技术属性】
技术研发人员:叶茂,赵洲,张伟,王海涛,孙翔,陆诚,韩嘉佳,杨涛,张彩,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。