【技术实现步骤摘要】
一种基于推理提示的生成式大模型文档库问答方法
[0001]本专利技术涉及自然语言处理分析领域,具体涉及一种基于推理提示的生成式大模型文档库问答方法
。
技术介绍
[0002]本节中的陈述仅提供与本公开相关的背景信息,并且可能不构成现有技术
。
[0003]在自然语言的知识获取分析中,存在大量的非结构化文档数据,其结构多样
、
维度高
、
数据量大
、
语义结构复杂,段落之间也存在着较强的耦合关系
。
问答作为信息获取的重要方式,非结构化文档数据是其重要的信息获取来源,目前主要应用在信息检索
、
多文档的知识获取方面,但文档数据体量大
、
语义结构复杂,如何精确理解用户问题意图
、
快速获取问题所在候选文章集合
、
准确定位文章中答案位置变的愈发复杂困难
。
因此基于非结构化文档数据建立一种高效准确的文档库智能问答,实现大规模文档数据的关键信息获取具有重要的研究价值
。
[0004]目前基于文档库的问答主要为基于预训练模型的抽取式问答和信息检索方法
。
抽取式问答方法基于预训练模型提取文档特征,生成状态与动作的向量表示,利用激活函数可预测答案开始和结束的位置信息,从而获取答案
。
由于其是根据文章内容从中抽取答案,在推理型问题上具有很大的局限性,同时在跨段落的问答上也具有一定难度
。
在实际 ...
【技术保护点】
【技术特征摘要】
1.
一种基于推理提示的生成式大模型文档库问答方法,其特征在于,包括:步骤
S1
:基于生成式大模型进行数据处理及文章向量检索库构建;步骤
S2
:对用户问题内容进行信息增强;步骤
S3
:基于文章向量检索库,通过对增强后的用户问题进行向量检索获取候选文章集合;步骤
S4
:针对不同类型问题,构建对应的提示库;步骤
S5
:基于生成式大模型对文本类型的识别能力,对所述用户问题进行分类;步骤
S6
:基于提示库和候选文章集合,获取所述用户问题的模型输入
prompt
;步骤
S7
:将模型输入
prompt
,输入生成式大模型中,得到所述用户问题的答案
。2.
根据权利要求1所述的一种基于推理提示的生成式大模型文档库问答方法,其特征在于,所述步骤
S1
,包括:按照分段
、
分句的形式,基于
BGE
中文词嵌入模型对文档库数据进行向量化处理,构建文章向量检索库
。3.
根据权利要求2所述的一种基于推理提示的生成式大模型文档库问答方法,其特征在于,所述向量化处理,包括:步骤
S11
:对文档库数据中的非结构化文档按段落进行切分,同时对该段落进行按句切分;步骤
S12
:基于
BGE
中文词嵌入模型,对切分后的句子进行向量化处理,得到相应文章的句向量;步骤
S13
:对向量化处理后的句向量
、
句子
、
段落进行存储,完成文章向量检索库的构建
。4.
根据权利要求1所述的一种基于推理提示的生成式大模型文档库问答方法,其特征在于,所述步骤
S2
...
【专利技术属性】
技术研发人员:雋兆波,代翔,崔莹,李春豹,陈莹,刘鑫,何健军,
申请(专利权)人:中国电子科技集团公司第十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。