当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于大规模语言模型的电力领域阅读理解方法和系统技术方案

技术编号:39595685 阅读:13 留言:0更新日期:2023-12-03 19:53
本发明专利技术公开了一种基于大规模语言模型的电力领域阅读理解方法和系统,属于电力知识阅读理解领域

【技术实现步骤摘要】
一种基于大规模语言模型的电力领域阅读理解方法和系统


[0001]本专利技术涉及电力知识阅读理解领域,尤其是一种基于大规模语言模型的电力领域阅读理解方法和系统


技术介绍

[0002]大规模语言模型凭借其良好的自然语言理解能力

似真人一般的回复生成能力以及小样本或零样本学习能力,迅速成为了研究的一个重要主题

但大规模语言模型在如医学

法律和电力等垂直领域的实际应用欠佳,因为其不具备垂直领域的专业知识以及其输出存在着一定的“幻觉”错误

同时,现今市面上实际部署应用的大规模语言模型,如
ChatGPT
,其参数规模已达到千亿级别

这种超大规模的模型部署困难,计算成本巨大

[0003]阅读理解任务的成果可以应用于实际,辅助人们阅读文献,提取关键信息等

传统的抽取式阅读理解模型大多基于注意力机制或预训练语言模型,如
BERT
,在只针对在给定上下文中有明确答案的问题会有较好的效果,对于涉及到知识概况总结和开放式问答,效果不佳

同时通用的阅读理解模型针对垂直领域的上下文理解效果一般

[0004]在电力知识领域,有着很多专有词汇,且十分容易混淆,这对人工智能模型的理解能力提出了巨大的挑战

电力知识领域的文献长度参差不齐,有存在长文本,这对传统的抽取式阅读理解模型是一个挑战

在实际应用中,出于安全方面的考虑,对电力知识的可靠性要求非常高


技术实现思路

[0005]本专利技术所要解决的技术问题是克服上述现有相关技术未能应用于电力知识的阅读理解领域,本专利技术提供一种基于大规模语言模型的电力领域阅读理解方法和系统,以突破现有大模型技术回答错误和传统抽取式阅读理解模型无法回答开放式问题的限制,构造一个可以在电力知识领域实际应用的阅读理解模型和系统

[0006]为此,本专利技术采用的技术方案如下:
[0007]第一方面,本专利技术提出一种基于大规模语言模型的电力领域阅读理解方法,包括如下步骤:
[0008]1)
获取电力领域相关文本数据,构建用于模型预训练的数据集
D1
和用于阅读理解任务的数据集
D2

[0009]2)
根据步骤
1)
得到的数据集
D1

D2
,分别训练一个抽取式阅读理解模型
M1
和一个电力领域大规模语言模型
M2

[0010]3)
将待进行阅读理解的电力领域长文本按自然段分段;
[0011]4)
将待进行阅读理解的电力领域长文本的相关问题
Q
和根据步骤
3)
得到的长文本分段结果为输入,通过训练得到的抽取式阅读理解模型
M1
,得到全部文本段的答案预测结果;
[0012]5)
判断步骤
4)
得到的全部文本段的答案预测结果中包含的预测答案个数
r
,若
r

1
,则直接输出对应的预测答案作为最终的答案,若
r>1
,则执行步骤
6)
,若
r
=0,则执行步骤
7)

[0013]6)
选取答案预测结果中包含预测答案的文本段组成一个新文本,并将新文本和问题
Q
组成大规模语言模型
M2
的输入,通过大规模语言模型
M2
生成最终的答案;
[0014]7)
基于问题
Q
匹配数据库中的文档,将匹配得到的文档和问题
Q
组成大规模语言模型
M2
的输入,通过大规模语言模型
M2
生成最终的答案

[0015]进一步地,所述的用于模型预训练的数据集
D1
为电力领域的纯文本数据,用于对抽取式阅读理解模型和电力领域大规模语言模型分别进行掩码语言模型训练和因果语言模型训练;用于阅读理解任务的数据集
D2
中的每一个样本包含问题
Q、
上下文
T
和答案
A。
[0016]进一步地,所述的抽取式阅读理解模型
M1
的训练过程包括:
[0017]采用数据集
D1
,对基于
transformer
编码器架构的抽取式阅读理解模型进行掩码语言模型预训练,使得抽取式阅读理解模型融合电力领域的专业知识;
[0018]采用数据集
D2
继续对预训练后的抽取式阅读理解模型进行训练,得到训练好的抽取式阅读理解模型
M1。
[0019]进一步地,所述的采用数据集
D1
,对基于
transformer
编码器架构的抽取式阅读理解模型进行掩码语言模型预训练,包括:
[0020]对数据集
D1
进行预处理:将原始文本按自然段切分为若干段,通过分词器将文本转化为字词序列,将字词序列随机掩码,得到掩码文本段落;
[0021]通过嵌入层获取掩码文本段落的嵌入表示,将掩码文本段落的嵌入表示输入
transformer
编码器,获得掩码文本段落的隐藏表示;
[0022]以掩码文本段落的隐藏表示为输入,通过掩码语言模型预测头预测掩码位置的字词,以原始文本段落中对应位置的字词为标签,计算交叉熵损失;
[0023]基于交叉熵损失,通过梯度回传更新抽取式阅读理解模型中的嵌入层
、transformer
编码器

掩码语言模型预测头的参数,完成抽取式阅读理解模型的预训练

[0024]进一步地,所述的采用数据集
D2
继续对预训练后的抽取式阅读理解模型进行训练,得到训练好的抽取式阅读理解模型
M1
,包括:
[0025]对数据集
D2
进行预处理:将数据集
D2
中的每一个样本的上下文
T
和问题
Q
通过分词器转化为字词序列,通过语言模型的分句间隔符连接;
[0026]通过预训练后的嵌入层获取样本预处理后的字词序列的嵌入表示,将其输入预训练后的
transformer
编码器,获得样本的隐藏表示;
[0027]以样本的隐藏表示作为输入,通过抽取式阅读理解分类头预测答案的起始位置和结束位置,以样本的真实答案
A
中对应到上下文的起始位置和结束位置为标签,计算交叉熵损失;
[0028本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于大规模语言模型的电力领域阅读理解方法,其特征在于,包括如下步骤:
1)
获取电力领域相关文本数据,构建用于模型预训练的数据集
D1
和用于阅读理解任务的数据集
D2

2)
根据步骤
1)
得到的数据集
D1

D2
,分别训练一个抽取式阅读理解模型
M1
和一个电力领域大规模语言模型
M2

3)
将待进行阅读理解的电力领域长文本按自然段分段;
4)
将待进行阅读理解的电力领域长文本的相关问题
Q
和根据步骤
3)
得到的长文本分段结果为输入,通过训练得到的抽取式阅读理解模型
M1
,得到全部文本段的答案预测结果;
5)
判断步骤
4)
得到的全部文本段的答案预测结果中包含的预测答案个数
r
,若
r
=1,则直接输出对应的预测答案作为最终的答案,若
r>1
,则执行步骤
6)
,若
r
=0,则执行步骤
7)

6)
选取答案预测结果中包含预测答案的文本段组成一个新文本,并将新文本和问题
Q
组成大规模语言模型
M2
的输入,通过大规模语言模型
M2
生成最终的答案;
7)
基于问题
Q
匹配数据库中的文档,将匹配得到的文档和问题
Q
组成大规模语言模型
M2
的输入,通过大规模语言模型
M2
生成最终的答案
。2.
根据权利要求1所述的基于大规模语言模型的电力领域阅读理解方法,其特征在于,所述的用于模型预训练的数据集
D1
为电力领域的纯文本数据,用于对抽取式阅读理解模型和电力领域大规模语言模型分别进行掩码语言模型训练和因果语言模型训练;用于阅读理解任务的数据集
D2
中的每一个样本包含问题
Q、
上下文
T
和答案
A。3.
根据权利要求1所述的基于大规模语言模型的电力领域阅读理解方法,其特征在于,所述的抽取式阅读理解模型
M1
的训练过程包括:采用数据集
D1
,对基于
transformer
编码器架构的抽取式阅读理解模型进行掩码语言模型预训练,使得抽取式阅读理解模型融合电力领域的专业知识;采用数据集
D2
继续对预训练后的抽取式阅读理解模型进行训练,得到训练好的抽取式阅读理解模型
M1。4.
根据权利要求3所述的基于大规模语言模型的电力领域阅读理解方法和系统,其特征在于,所述的采用数据集
D1
,对基于
transformer
编码器架构的抽取式阅读理解模型进行掩码语言模型预训练,包括:对数据集
D1
进行预处理:将原始文本按自然段切分为若干段,通过分词器将文本转化为字词序列,将字词序列随机掩码,得到掩码文本段落;通过嵌入层获取掩码文本段落的嵌入表示,将掩码文本段落的嵌入表示输入
transformer
编码器,获得掩码文本段落的隐藏表示;以掩码文本段落的隐藏表示为输入,通过掩码语言模型预测头预测掩码位置的字词,以原始文本段落中对应位置的字词为标签,计算交叉熵损失;基于交叉熵损失,通过梯度回传更新抽取式阅读理解模型中的嵌入层
、transformer
编码器

掩码语言模型预测头的参数,完成抽取式阅读理解模型的预训练
。5.
根据权利要求3所述的基于大规模语言模型的电力领域阅读理解方法,其特征在于,所述的采用数据集
D2
继续对预训练后的抽取式阅读理解模型进行训练,得到训练好的抽取式阅读理解模型
M1
,包括:对数据集
D2
进行预处理:将数据集
D2
中的每一个样本的上下文
T
和问题
Q
通过分词器转
化为字词序列,通过语言模型的分句间隔符连接;通过预训练后的嵌入层获取样本预处理后的字词序列的嵌入表示,将其输入预训练后的
transformer
编码器,获得样本的隐藏表示;以样本的隐藏表示作为输入,通过抽取式阅读理解分类头预测答案的起始位置和结束位置,以样本的真实答案
A
中对应到上下文的起始位置和结束位置为标签,计算交叉熵损失;基于交叉熵损失,通过梯度回传更新抽取式阅读理解模型中的嵌入层
、transformer
编码器

抽取式阅读理解分类头的参数,完成抽取式阅读理解模型的训练,得到训练好的抽取式阅读理解模型
M1。6.
根据权利要求1所述的基于大规模语言模型的电力领域阅读理解方法,其特征在于,所述的电力领域大规模语言模型
M2
的训练过程包括:获取数据集
D1
对应的中文扩展词表,并将其和大规模语言模型原始词表融合得到新词表;采用数据集
D1
,对基于
transformer
解码器架构的大规模语言模型进行预训练,使得大规模语言模型融合电力领域的专业知识;采用数据集
D2
继续对预训练后的大规...

【专利技术属性】
技术研发人员:叶茂赵洲张伟王海涛孙翔陆诚韩嘉佳杨涛张彩
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1