System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种自然语言处理技术,具体为一种基于大语言模型的诗歌数据增强方法。
技术介绍
1、随着近些年来深度学习技术的不断进步,计算机视觉、自然语言处理等领域也快速发展。研究人员将深度学习技术应用在语音识别、机器翻译、文本分类、文本生成等多项任务中,并取得了许多突破性的进展。由计算机来完成文本生成能够做到省时省力,但是其内容质量还有待提升。人们也逐渐发现计算机生成的文本内容可以辅助人类完成一部分的工作,也有一些研究人员投入到了特定领域文本生成的研究中。而诗歌自动生成也逐渐成为了文本生成领域的研究热点之一。
2、诗歌是一种艺术表达形式,其最初起源于人们的日常生活。创作者能够通过诗歌简短的文字来描述其所见所感,并表达出情感和思绪。在中国悠久的文化历史中,诗歌占据了很大的比例。诗歌可以直抒胸臆、写景状物、寓理载道,涉及到人们生活的方方面面,由文采斐然的文学大家所创作出的诗歌能够被广为传颂,并对后世产生深刻的意义。因此诗歌在中国历史上具有深远的影响,也是中国传统文化的重要组成部分。但是优秀的诗歌作品要求文字简洁,对事物有生动形象的描述,并具有丰富的意境,还要严格符合格律形式。因此诗歌的创作并不简单,普通人不经过学习和知识的积累很难写出好的诗歌作品。随着文本生成领域的发展,研究人员们开始探索使用计算机来辅助人类进行诗歌创作。
3、诗歌自动生成是自然语言处理领域的应用之一,国内外针对该领域的研究工作已经长达十余年。诗歌自动生成的发展可分为三个阶段,分别是基于模板和规则的诗歌生成系统;基于统计机器学习的诗歌生成系统
4、从网上爬取的诗歌数据中往往会包含一些打油诗、韵律不标准诗、主题不明诗和低质量诗。打油诗对于格律、对偶、平仄没有严格要求,内容往往通俗易懂,但有部分打油诗的内容没有文学价值或丰富内涵,这些诗不利于模型生成高质量的诗歌。在诗歌中每个字的声调有平仄之分,可以粗略认为一二声是平,三四声是仄,对于格律诗有不同的平仄模式,两类声调交错以满足格律要求。押韵指将具有相同或者相似韵母的字放在诗句中相同位置上,一般是在诗句首尾处,这使得诗歌韵律回环和谐。不符合平仄和韵律要求的诗歌会干扰模型对格律信息的学习。还有一些诗歌其内容与标题关联程度不高,整体意境和诗歌内容不连贯和谐,这些主题不明和低质量的诗歌也会影响模型对诗句语义的学习。
5、近些年来随着大语言模型技术的突破,市面上出现了许多能生成高质量文本的模型,例如chatgpt,通义千问等。大语言模型通过海量的训练数据,庞大的参数量和基于人类反馈的强化学习技术具备了丰富的知识信息和强大的通用语言理解能力,同时可以生成符合语言逻辑的文本,在多个文本生成任务中表现出色。当前已有的诗歌数据集存在质量参差不齐的现象,低质量诗歌数据对诗歌模型的训练带来了极大的噪声干扰,人工筛选要求极高的文化水平与时间代价,因此研究人员可以利用性能优秀的大语言模型来对诗歌进行数据增强,进而得到高质量的数据来训练诗歌生成模型。
技术实现思路
1、针对现有技术中诗歌自动生成系统的训练数据质量参差不齐导致模型生成效果不佳且人工筛选代价高等问题,本专利技术要解决的技术问题是提供一种基于大语言模型的诗歌数据增强方法,使用大语言模型对诗歌数据质量打分,训练出诗歌质量评价模型,进而可以为诗歌数据集进行数据增强,得到高质量的训练数据,从而节省人工筛选数据所需要的人力物力,辅助提升诗歌生成模型的性能。
2、为解决上述技术问题,本专利技术采用的技术方案是:
3、本专利技术一种基于大语言模型的诗歌数据增强方法,包括以下步骤:
4、1)从互联网中收集海量的诗歌数据,文体格式限定为绝句与律诗;针对收集的诗歌数据进行数据清洗;
5、2)挑选格律准确的高质量诗歌作为内容和格律的标准,随机挑选步骤1)中清洗后诗歌数据的5%,使用大语言模型参照标准进行综合评分;
6、3)对步骤2)中得到的诗歌数据及诗歌质量综合评分数据进行训练得到诗歌质量评价模型;
7、4)使用步骤3)中的诗歌质量评价模型对步骤1)中的清洗后的全部诗歌数据进行评分,根据分数筛选出高质量诗歌数据,实现诗歌数据增强。
8、在步骤1)中,针对收集的诗歌数据进行数据清洗,具体方法为:
9、101)从互联网中收集海量的诗歌数据,使用规则方法进行筛选,保留格律与文体形式符合规范与工整要求的绝句与律诗;
10、102)针对步骤101)中收集诗歌数据进行去重,保证每首诗只保存一首;
11、103)针对步骤102)中保留的诗歌数据进行乱码清洗,清洗掉非中文字符、非常见汉字、html语句,同时对诗歌数据中的标点符号进行统一,只保留逗号、句号与问号三种标点符号。
12、使用规则方法进行筛选,具体为:
13、利用爬虫技术从互联网中收集大量的诗歌数据,根据绝句与律诗的定义,使用python语言,编写脚本,实现从诗歌数据中挑选一首诗满足:a)四句话,每句话固定包含5个汉字作为五言绝句诗;b)四句话,每句话固定包含7个汉字作为七言绝句诗;c)八句话,每句话固定包含5个汉字作为五言律诗;d)八句话,每句话固定包含7个汉字作为七言律诗;在诗歌中一个标点符号所分隔所有汉字称为一句话。
14、在步骤2)中,挑选格律准确的高质量诗歌作为内容和格律的标准,使用大语言模型参照标准对步骤1)中的部分诗歌数据进行综合评分,具体为:
15、201)挑选出视为内容完整、主题明确、格律规整的高质量诗歌,作为评判标准;
16、202)从步骤1)得到的清洗后的诗歌数据中随机挑选出5%的诗作为大语言模型待判定分数诗;
17、203)设计prompt,采用few-shot方式利用大语言模型对步骤202)中挑选的5%的诗歌数据在韵律标准度、主题含义度、内容丰富度、语言流畅度、用词优美度五个维度给出诗歌质量综合评分。
18、在步骤203)中,每次从格律准确的高质量诗歌中随机选择n首诗作为参考标准,即n-shot,n为大于等于3、小于等于10的整数,再选择步骤202)中的待判定分数诗中的一首进行质量评分,评分时从韵律标准度、主题含义度、本文档来自技高网...
【技术保护点】
1.一种基于大语言模型的诗歌数据增强方法,其特征在于包括以下步骤:
2.根据权利要求1所述的基于大语言模型的诗歌数据增强方法,其特征在于:在步骤1)中,针对收集的诗歌数据进行数据清洗,具体方法为:
3.根据权利要求2所述的基于大语言模型的诗歌数据增强方法,其特征在于:使用规则方法进行筛选,具体为:
4.根据权利要求1所述的基于大语言模型的诗歌数据增强方法,其特征在于:在步骤2)中,挑选格律准确的高质量诗歌作为内容和格律的标准,使用大语言模型参照标准对步骤1)中的部分诗歌数据进行综合评分,具体为:
5.根据权利要求3所述的基于大语言模型的诗歌数据增强方法,其特征在于:在步骤203)中,每次从格律准确的高质量诗歌中随机选择n首诗作为参考标准,即n-shot,n为大于等于3、小于等于10的整数,再选择步骤202)中的待判定分数诗中的一首进行质量评分,评分时从韵律标准度、主题含义度、内容丰富度、语言流畅度、用词优美度这五个维度综合考虑,分数范围设定为0-10分,其中0分为最差,10分为最佳;最终诗歌质量分数为五个维度分数的平均值。
< ...【技术特征摘要】
1.一种基于大语言模型的诗歌数据增强方法,其特征在于包括以下步骤:
2.根据权利要求1所述的基于大语言模型的诗歌数据增强方法,其特征在于:在步骤1)中,针对收集的诗歌数据进行数据清洗,具体方法为:
3.根据权利要求2所述的基于大语言模型的诗歌数据增强方法,其特征在于:使用规则方法进行筛选,具体为:
4.根据权利要求1所述的基于大语言模型的诗歌数据增强方法,其特征在于:在步骤2)中,挑选格律准确的高质量诗歌作为内容和格律的标准,使用大语言模型参照标准对步骤1)中的部分诗歌数据进行综合评分,具体为:
5.根据权利要求3所述的基于大语言模型的诗歌数据增强方法,其特征在于:在步骤203)中,每次从格律准确的高质量诗歌中随机选择n首诗作为参考标准,即n-shot,n为大于等于3、小于等于10的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。