System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于建筑信息,尤其涉及在大语言模型辅助下的文档标签生产方法。
技术介绍
1、我国建筑行业规模庞大,截至2023年底,全国共有建筑业企业157939个,每年新增项目数量约3500个左右。随着bim应用的不断深入,承载着工程信息的图纸、模型、文档大量产生和流转。一个工程项目从规划设计到竣工交付将会产生10000多项各类文件,建筑行业每年有上万项目同时在建,每天都会产生数以百万记的工程数据。然而,由于缺少数据积淀工具平台,大多工程数据以散乱的文件形式存在,被遗忘在档案柜和硬盘中,真正的工程数据利用率不足0.4%
2、这些数据形式多样,包括数字、文本、图像等,但它们往往难以直接理解和使用。为了有效组织、存储、利用海量的工程大数据资源,就需要构建标签体系。标签作为一种将数据简化为易于理解的形式的方法,可用于标识、分类和描述事物,在数据处理和分析中发挥着重要作用。通过选择合适的标签、实现自动化的标签过程以及建立完善的标签管理体系,可以提高数据处理和分析的效率。
3、标签的优势:
4、①提高可读性:标签化使得数据更加易于理解,特别是对于非专业人士而言。通过使用简短的标签代替复杂的原始数据,可以更快速地传达信息。
5、②增强可用性:标签化有助于提高数据的可利用性。通过将数据组织成标签,可以在更大范围内进行比较和汇总,从而更好地了解数据的分布和趋势。
6、③降低复杂性:标签化可以降低数据的复杂性,使得数据分析过程更加简单和高效。通过将原始数据简化为标签,可以减少处理和分析的难度
7、利用机器学习算法、自然语言处理技术等人工智能技术,可以自动识别和提取数据的特征,并生成相应的标签,提高了数据处理和分析的效率。但是基于机器学习和自然语言处理的方法在实际效果上缺乏一定精度和准确性,大语言模型的理解和生成能力刚好可以解决以上问题,因此如何借助大语言模型自动生成高效、准确的文档标签成为值得研究的问题。
技术实现思路
1、有鉴于此,本专利技术提出了一种基于大语言模型的文档标签生成方法。本专利技术能解决的问题如下:
2、1.人工提取效率低下:由人工阅读文档编写标签是最原始也是最基本的方法,由具有一定专业知识的人员阅读文档内容,根据自身的认知习惯和规律对文档的标签进行定义。该方法仅适用于少量文件,固定领域知识的标签提取任务,当文档个数较多、内容涉及领域较泛时,人工提取的准确度和速度会受到限制。在如今海量工程文档管理面前,人工无法满足高质量、高效率的标签运维需求。
3、2.自动化提取缺乏准度:用机器学习、自然语言处理等智能化方法对文档进行处理时,需要进行大量的语义标注和长时间的模型训练,且适用范围有限;对于具有可复用性差、数量多、种类多、内容复杂特点的工程资料,自动化提取效果并不理想。
4、3.生成结果无法评估:依托大语言模型可以快速、高效的生成文档标签,但大语言模型也存在一定的不确定性,直接用大语言模型其生成结果无法估量。
5、本专利技术的具体技术方案包括三个步骤:
6、文档预处理:用于对建筑行业不同类型的海量文档进行处理,提取文档中的文本内容,获取全量文本;全量文本分词处理:用于对全量文本进行文本切分,同时为便于标签质量筛选,使用词嵌入模型将全量文本转化为全文向量;大语言模型调优生成:包括大语言模型标签生成和基于生成标签的综合筛选;其中,所述大语言模型标签生成,将分词处理后的m个段落组成的全文向量输入到大语言模型中,结合提示词模板、用户定义输入内容,每段生成k个标签,全文生成m×k个标签;所述基于生成标签的综合筛选,通过对标签在全文中出现的次数与标签出现的位置进行综合评估,实现标签的筛选。
7、进一步的,对于文本类型的文档,其预处理过程包括,直接获取文本信息,对全量文本进行清理,保证文本正确性,同时将全文本归拢为一大段文字;
8、对于非文本类型的文档,其预处理过程中,需要进行文档类型转换,具体如下,
9、①非文本文档类型转换为单页图片:逐页读取非文本文档,并将逐页内容转化为图片进行临时存储,对临时存储图片进行倾斜校正、二值化和去噪处理;
10、②获取单页图片的单页文本:对处理后的单页图片,利用深度学习的ocr技术进行字符提取,获得单页文本;
11、③全量文本获取:获取所有单页文本,即可获取非文本文档的全量文本。
12、进一步的,全量文本分词处理包括,
13、①段落划分:段落字数上限设置为n,最后形成n个字数左右,各段落字数相对接近的m个段落;
14、②段落向量提取:使用词嵌入模型对m个段落逐段进行特征提取,将段落文本转化为段落向量,用于标签向量匹配;以“文档名+段落号m+段落文本+段落向量”为依据进行临时存储,1≤m≤m;
15、所述词嵌入模型需要提前进行预训练。
16、进一步的,基于生成标签的综合筛选方法包括基于向量的标签匹配方法,以及标签综合评估方法;
17、所述的基于向量的标签匹配方法,用于保证标签与全量文本内容保持一致,具体如下,
18、①标签向量化:将所生成的kxm个标签去重,得到l标种签,并转化为标签向量x;
19、②标签向量匹配:逐个对l种标签的标签向量x在全量文本的向量y中进行暴力匹配,计算向量相似度,对于高于阈值的向量,则认为该向量所对应的标签是与文档相关的标签;
20、所述的标签综合评估方法具体如下,
21、①标签频率评估:通过构建标签频率评估函数,计算标签与文本的关联度,所述标签频率评估函数为每种标签出现的总次数与所有标签个数之比;
22、②标签位置评估:通过在欧式距离的基础上,构建标签位置评估函数,计算每种标签的位置分布与文本的关联度,公式如下:
23、
24、其中,dt表示第t种标签的位置评估值,其取值范围为[0,1),
25、tt表示第t种标签在全量文本中出现的总次数,0≤t≤l,
26、dis为欧式距离公式,
27、j为自然整数,用于表示单种标签出现次序,j∈[1,tt],
28、pt为第t种标签的位置码集合,标签的位置码p表示该标签每一次出现时在全量文本中的位置,表达式如下:
29、
30、其中,n为单段字符数,n为在第m段出现的字符序号;
31、③通过综合评估函数对所有标签进行打分,分数越高表示对应的标签越准确,从而完成标签优选。
32、进一步的,所述的综合评估函数由标签频率评估函数与标签位置评估函数加权得到。
33、有益效果
34、1.针对海量文档标签生成费时费力效果差问题,本专利技术提出一种基于大语言模型的自动化标签生成方法,可以对文档进行自动化、高质量标签生成,解决人工提取耗时耗力、自动提取精度效果差的问题。
35、2.针对大语言模型生成本文档来自技高网...
【技术保护点】
1.一种基于大语言模型的文档标签生成方法,其特征在于:包括,
2.根据权利要求1所述的一种基于大语言模型的文档标签生成方法,其特征在于:对于文本类型的文档,其预处理过程包括,直接获取文本信息,对全量文本进行清理,保证文本正确性,同时将全文本归拢为一大段文字;对于非文本类型的文档,其预处理过程中,需要进行文档类型转换,具体如下,
3.根据权利要求2所述的一种基于大语言模型的文档标签生成方法,其特征在于:全量文本分词处理包括,
4.根据权利要求1-3所述的任意一种基于大语言模型的文档标签生成方法,其特征在于:基于生成标签的综合筛选方法包括基于向量的标签匹配方法,以及标签综合评估方法;
5.根据权利要求4所述的任意一种基于大语言模型的文档标签生成方法,其特征在于:所述的综合评估函数由标签频率评估函数与标签位置评估函数加权得到。
【技术特征摘要】
1.一种基于大语言模型的文档标签生成方法,其特征在于:包括,
2.根据权利要求1所述的一种基于大语言模型的文档标签生成方法,其特征在于:对于文本类型的文档,其预处理过程包括,直接获取文本信息,对全量文本进行清理,保证文本正确性,同时将全文本归拢为一大段文字;对于非文本类型的文档,其预处理过程中,需要进行文档类型转换,具体如下,
3.根据权利要求2所述的一种基于大语...
【专利技术属性】
技术研发人员:运泽辉,李珂,刘辰,吴舒扬,聂垚,孙金桥,胡斌,刘彬,邱奎宁,贾树磊,冯锦飞,彭琳,徐俊英,郑海通,黄乾,
申请(专利权)人:中建工程产业技术研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。