System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 标书数据集的构建方法、装置、电子设备及存储介质制造方法及图纸_技高网

标书数据集的构建方法、装置、电子设备及存储介质制造方法及图纸

技术编号:44107242 阅读:0 留言:0更新日期:2025-01-24 22:33
本申请公开了一种标书数据集的构建方法、装置、电子设备及存储介质,涉及人工智能技术领域。其中,该方法包括:获取标书模板和历史标书数据集,其中,标书模板中至少包括N个级别的标题,历史标书数据集里至少包括M个历史标书文件,其中,N和M为大于1的整数,每个历史标书文件中至少包括多个级别的标题;计算标书模板中所有标题与历史标书文件中所有标题之间的语义相似度;根据语义相似度从历史标书数据集中筛选出符合标书模板的标题进行组装,得到目标参照文本,其中,目标参照文本中的标题按照标题级别顺序进行排列;根据目标参照文本确定目标标书数据集。本申请解决了现有技术中针对垂直领域的标书微调数据集构建的效果差的技术问题。

【技术实现步骤摘要】

本申请涉及人工智能,具体而言,涉及一种标书数据集的构建方法、装置、电子设备及存储介质


技术介绍

1、在当今人工智能快速发展的背景下,针对特定垂直领域的大模型微调成为了提升大模型应用效果的关键步骤,然而在现有技术中,针对垂直领域大模型的标书微调数据集构建存在若干挑战和限制。

2、首先,传统的标书生成方法,通常依赖人工标注和规则匹配,这种方法不仅费时费力,而且难以确保数据集的多样性和覆盖性,并且人工操作的一致性和准确性难以保证,这些都直接影响到后续模型训练的效果。其次,现有的相似度计算方法在处理复杂语义的标书生成任务时常常无法精确捕捉标题之间的语义相似性,这对于生成高质量、符合行业标准和实际需求的标书文本是至关重要的,在缺乏有效语义理解能力的情况下,生成的标书文本可能在准确性和相关性上大打折扣。此外,目前还缺乏一种标准化的流程来构建高效且高质量的微调数据集,这限制了生成式人工智能技术在快速生成标书等方面的应用潜力,导致模型在特定行业的应用效果差。

3、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请提供了一种标书数据集的构建方法、装置、电子设备及存储介质,以至少解决现有技术中针对垂直领域的标书微调数据集构建的效果差的技术问题。

2、根据本申请的一个方面,提供了一种标书数据集的构建方法,包括:获取标书模板和历史标书数据集,其中,标书模板中至少包括n个级别的标题,历史标书数据集里至少包括m个历史标书文件,其中,n和m为大于1的整数,每个历史标书文件中至少包括多个级别的标题;计算标书模板中所有标题与历史标书文件中所有标题之间的语义相似度;根据语义相似度从历史标书数据集中筛选出符合标书模板的标题进行组装,得到目标参照文本,其中,目标参照文本中的标题按照标题级别顺序进行排列;根据目标参照文本确定目标标书数据集。

3、可选地,计算标书模板中所有标题与历史标书文件中所有标题之间的语义相似度,包括:获取标书模板中的第i级别的标题和历史标书数据集中第j个历史标书文件中的第h级别的标题,其中,i、j以及h为大于或等于1的整数;计算标书模板中的第i级别的标题和历史标书数据集中第j个历史标书文件中的第h级别的标题之间的语义相似度。

4、可选地,根据语义相似度从历史标书数据集中筛选出符合标书模板的标题进行组装,得到目标参照文本,包括:在标书模板中的第i级别的标题和第j个历史标书文件中的第h级别的标题之间的语义相似度小于或等于预设阈值的情况下,确定第j个历史标书文件中的第h级别的标题不符合标书模板的结构;在标书模板中的第i级别的标题和第j个历史标书文件中的第h级别的标题之间的语义相似度大于预设阈值的情况下,确定第j个历史标书文件中的第h级别的标题符合标书模板的结构;根据第j个历史标书文件中所有符合标书模板的结构的标题确定目标参照文本。

5、可选地,根据第j个历史标书文件中所有符合标书模板的结构的标题确定目标参照文本,包括:获取第j个历史标书文件中所有符合标书模板的结构的标题对应的内容段落;将不同级别的标题和不同级别的标题对应的内容段落按照标书模板的结构进行组装,得到目标参照文本。

6、可选地,根据目标参照文本确定目标标书数据集,包括:在目标参照文本中包括s个级别的标题的情况下,按照标题级别从低至高的顺序,从目标参照文本中提取k个目标标题,其中,s为大于或等于1的整数,k为小于或等于s的整数;获取目标标题的所有上级标题和目标标题对应的内容段落;将目标标题和目标标题的所有上级标题作为指令名;将目标标题对应的内容段落作为指令值;根据指令名和指令值确定目标标书数据集。

7、可选地,在根据目标参照文本确定目标标书数据集之后,标书数据集的构建方法还包括:对目标标书数据集进行校对检查和扩充数据处理,其中,校对检查用于检查目标标书数据集的错误数据,扩充数据处理用于基于目标标书数据集中的数据构造出新的数据集。

8、可选地,在获取标书模板和历史标书数据集之后,标书数据集的构建方法还包括:对历史标书数据集进行数据清洗和预处理操作,其中,数据清洗用于删除历史标书数据集中的预设字符,预处理用于对历史标书数据集进行分词处理和词汇标准化处理,其中,词汇标准化处理用于将历史标书数据集中的词汇进行统一化和规范化。

9、根据本申请实施例的另一方面,还提供了一种标书数据集的构建装置,包括:获取标书模板和历史标书数据集,其中,标书模板中至少包括n个级别的标题,历史标书数据集里至少包括m个历史标书文件,其中,n和m为大于1的整数,每个历史标书文件中至少包括多个级别的标题;计算单元,计算标书模板中所有标题与历史标书文件中所有标题之间的语义相似度;处理单元,根据语义相似度从历史标书数据集中筛选出符合标书模板的标题进行组装,得到目标参照文本,其中,目标参照文本中的标题按照标题级别顺序进行排列;确定单元,根据目标参照文本确定目标标书数据集。

10、根据本申请的另一方面,还提供了一种计算机可读存储介质,其中,计算机可读存储介质中存储有计算机程序,其中,在计算机程序运行时,使得计算机可读存储介质所在设备执行上述的标书数据集的构建方法。

11、根据本申请的另一方面,还提供了一种电子设备,其中,电子设备包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述的标书数据集的构建方法。

12、由上述内容可知,在本申请中,首先获取特定垂直领域的标书模板和历史标书数据集,其中,标书模板中至少包括n个级别的标题,历史标书数据集里至少包括m个历史标书文件,其中,n和m为大于1的整数,每个历史标书文件中至少包括多个级别的标题,接着计算每个历史标书文件中所有标题和标书模板中所有标题之间的语义相似度,用于判断每个历史标书文件和标书模板中标题之间的匹配程度,然后根据计算得到的语义相似度从历史标书数据集中筛选出符合标书模板的标题进行组装,得到目标参照文本,确保了目标参照文本中的标题与标书模板的相关性,其中,目标参照文本中的标题按照标题级别顺序进行排列,最后根据得到的多个目标参照文本来确定该特定垂直领域的目标标书数据集,确保了生成的目标标书数据集的准确性和相关性。

13、相比于现有技术中通过人工标注、规则匹配、相似度计算等方式获取垂直领域的标书数据集,本申请通过一种标准化的流程来构建特定垂直领域的目标标书数据集,通过获取特定垂直领域的标书模板和历史标书数据集,计算每个历史标书文件中所有标题和标书模板中所有标题之间的语义相似度,最后根据语义相似度确定了该特定垂直领域的目标标书数据集的方式,达到了自动化、快速、准确构建特定垂直领域的目标标书数据集的目的,从而实现了提高垂直领域的标书微调数据集构建的效果的技术效果,进而解决了现有技术中针对垂直领域的标书微调数据集构建的效果差的技术问题。

本文档来自技高网...

【技术保护点】

1.一种标书数据集的构建方法,其特征在于,包括:

2.根据权利要求1所述的标书数据集的构建方法,其特征在于,计算所述标书模板中所有标题与所述历史标书文件中所有标题之间的语义相似度,包括:

3.根据权利要求2所述的标书数据集的构建方法,其特征在于,根据所述语义相似度从所述历史标书数据集中筛选出符合所述标书模板的标题进行组装,得到目标参照文本,包括:

4.根据权利要求3所述的标书数据集的构建方法,其特征在于,根据所述第j个历史标书文件中所有符合所述标书模板的结构的标题确定所述目标参照文本,包括:

5.根据权利要求1所述的标书数据集的构建方法,其特征在于,根据所述目标参照文本确定目标标书数据集,包括:

6.根据权利要求1所述的标书数据集的构建方法,其特征在于,在根据所述目标参照文本确定目标标书数据集之后,所述标书数据集的构建方法还包括:

7.根据权利要求1所述的标书数据集的构建方法,其特征在于,在获取标书模板和历史标书数据集之后,所述标书数据集的构建方法还包括:

8.一种标书数据集的构建装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,在所述计算机程序运行时,使得所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的标书数据集的构建方法。

10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1至7中任意一项所述的标书数据集的构建方法。

...

【技术特征摘要】

1.一种标书数据集的构建方法,其特征在于,包括:

2.根据权利要求1所述的标书数据集的构建方法,其特征在于,计算所述标书模板中所有标题与所述历史标书文件中所有标题之间的语义相似度,包括:

3.根据权利要求2所述的标书数据集的构建方法,其特征在于,根据所述语义相似度从所述历史标书数据集中筛选出符合所述标书模板的标题进行组装,得到目标参照文本,包括:

4.根据权利要求3所述的标书数据集的构建方法,其特征在于,根据所述第j个历史标书文件中所有符合所述标书模板的结构的标题确定所述目标参照文本,包括:

5.根据权利要求1所述的标书数据集的构建方法,其特征在于,根据所述目标参照文本确定目标标书数据集,包括:

6.根据权利要求1所述的标书数据集的构建方法,其特征在于,在根据所述...

【专利技术属性】
技术研发人员:王瑞平吴士泓吴勇涛朱艳琳
申请(专利权)人:远光软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1