一种文本抽样方法技术

技术编号:39646051 阅读:14 留言:0更新日期:2023-12-09 11:13
本发明专利技术实施例公开了一种文本抽样方法

【技术实现步骤摘要】
一种文本抽样方法、装置、设备和存储介质
[0001]技术邻域
[0002]本专利技术实施例涉及自然语言处理技术,尤其涉及一种文本抽样方法

装置

设备和存储介质


技术介绍

[0003]近几年,大规模预训练语言模型的兴起开启了自然语言处理迅猛发展的新时代

在对预训练语言模型训练时,需要对语料进行标注,人工标注数据的价格往往较为昂贵,我们希望能够将人工标注的效用最大化,即在相同的标注数量下,标注到更多的信息量,或者为了达成相同的标注效果,尽量降低标注数量

[0004]现有技术中,通常采用蒙特卡洛抽样即随机抽样的方式对文本数据进行抽样,其本质是按照数据的概率密度分布来进行随机抽样

[0005]在实现本专利技术的过程中,发现现有技术中至少存在以下技术问题:
[0006]基于蒙特卡洛抽样对文本数据进行抽样得到的样本聚集在高概率密度的头部区域,忽视了概率密度比较低的中长尾区域,导致样本信息量较低,标注效果降低,影响预训练语音模型的训练


技术实现思路

[0007]本专利技术提供一种文本抽样方法

装置

设备和存储介质,以实现对语料的自适应分层抽样,提升抽样所得样本的信息量

[0008]第一方面,本专利技术实施例提供了一种文本抽样方法,包括:
[0009]通过对待抽样语料进行向量化处理,确定所述待抽样语料对应的预设维度向量集;
>[0010]将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间,并基于高斯核密度估计确定各所述第一语义子空间内的抽样密度;
[0011]根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间,并确定各所述第二语义子空间内的邻域样本集;
[0012]对各所述邻域样本集进行抽样,根据各所述邻域样本集对应的抽样结果确定文本抽样结果

[0013]第二方面,本专利技术实施例还提供了一种文本抽样装置,包括:
[0014]编码模块,用于通过对待抽样语料进行向量化处理,确定所述待抽样语料对应的预设维度向量集;
[0015]第一划分模块,用于将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间,并基于高斯核密度估计确定各所述第一语义子空间内的抽样密度;
[0016]第二划分模块,用于根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间,并确定各所述第二语义子空间内的邻域样本集;
[0017]抽样模块,用于对各所述邻域样本集进行抽样,根据各所述邻域样本集对应的抽
样结果确定文本抽样结果

[0018]第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面中任一所述的文本抽样方法

[0019]第四方面,本专利技术实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面中任一所述的文本抽样方法

[0020]上述专利技术中的实施例具有如下优点或有益效果:
[0021]本专利技术实施例提供一种文本抽样方法,包括:通过对待抽样语料进行向量化处理,确定所述待抽样语料对应的预设维度向量集;将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间,并基于高斯核密度估计确定各所述第一语义子空间内的抽样密度;根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间,并确定各所述第二语义子空间内的邻域样本集;对各所述邻域样本集进行抽样,根据各所述邻域样本集对应的抽样结果确定文本抽样结果

上述技术方案,首先可以对待抽样语料进行向量化处理,以基于预设维度向量集表示待抽样语料,将预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间后,按照第一语义子空间的抽样密度将第一语义子空间划分为第二预设数量的第二语义子空间,在各第一语义子空间内的各第二语义子空间内确定邻域样本集,并对各邻域样本集进行抽样得到抽样结果,根据各第二语义子空间对应的邻域样本集中抽样得到的抽样结果确定文本抽样结果,实现对待抽样语料的分层抽样,提升抽样所得样本的信息量,进一步提升了文本抽样质量

附图说明
[0022]图1为本专利技术实施例提供的一种文本抽样方法的流程图;
[0023]图2为本专利技术实施例提供的另一种文本抽样方法的流程图;
[0024]图3为本专利技术实施例提供的另一种文本抽样方法中步骤
240
的流程图;
[0025]图4为本专利技术实施例提供的另一种文本抽样方法中划分三维语义空间的示意图;
[0026]图5为本专利技术实施例提供的另一种文本抽样方法中划分三维第一语义子空间的示意图;
[0027]图6为本专利技术实施例提供的一种文本抽样装置的结构示意图;
[0028]图7为本专利技术实施例提供的一种电子设备的结构示意图

具体实施方式
[0029]下面结合附图和实施例对本专利技术作进一步的详细说明

可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定

另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构

[0030]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法

虽然流程图将各项操作
(
或步骤
)
描述成顺序的处理,但是其中的许多操作可以被并行地

并发地或者同时实施

此外,各项操作的顺序可以被重新安排

当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤


述处理可以对应于方法

函数

规程

子例程

子程序等等

此外,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合

[0031]对预训练语言模型的监督式学习的性能要明显高于无监督学习,监督式学习尤其深度学习的最大问题是语料的人工标注成本很高

在实际应用中,大规模文本语料的分布具有比较明显的二八长尾特征,对于自然语言处理而言没有必要对头部区域语义很接近的语料进行重复标注,反而应该尽量标注长尾部区域的小众语料

[0032]根据待抽样语料所确定的文本抽样结果以及文本抽样结果对应的标注信息可以作为训练集对预训练语言模型进行模型训练,为了提升训练集的质量,对待抽样语料进行文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种文本抽样方法,其特征在于,包括:通过对待抽样语料进行向量化处理,确定所述待抽样语料对应的预设维度向量集;将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间,并基于高斯核密度估计确定各所述第一语义子空间内的抽样密度;根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间,并确定各所述第二语义子空间内的邻域样本集;对各所述邻域样本集进行抽样,根据各所述邻域样本集对应的抽样结果确定文本抽样结果
。2.
根据权利要求1所述的文本抽样方法,其特征在于,通过对待抽样语料进行向量化处理,确定所述待抽样语料对应的预设维度向量集,包括:对所述待抽样语料所包含的多条文本分别进行多维语义编码,得到多维稠密向量集;基于主成分分析法对所述多维稠密向量集进行自适应降维,得到所述预设维度向量集,其中,将所述多维稠密向量集降至所述预设维度向量集的信息损失量不超过预设阈值
。3.
根据权利要求1所述的文本抽样方法,其特征在于,在通过对待抽样语料进行向量化处理之前,还包括:从语料库中获取原始语料;基于预设规则对所述原始语料进行语料清洗,得到所述待抽样语料
。4.
根据权利要求1所述的文本抽样方法,其特征在于,将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间,包括:将所述预设维度向量集所构成的预设维度的所述语义空间的各轴均匀划分为
P
段,得到第一预设数量的所述第一语义子空间,其中,
P
由所述第一预设数量和所述预设维度向量集的预设维度所确定
。5.
根据权利要求1所述的文本抽样方法,其特征在于,在将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间时,还包括:确定各所述第一语义子空间的第一语义空间位置
。6.
根据权利要求5所述的文本抽样方法,其特征在于,基于高斯核密度估计确定各所述第一语义子空间内的抽样密度,包括:对所述语义空间进行高斯核密度估计建模,确定所述语义空间对应的高斯核密度模型;在所述高斯核密度模型中,根据抽样样本数和各所述第一语义子空间的所述第一语义空间位置,确定各所述第一语义子空间内的样本数量;将所述样本数量确定为所述抽样密度
。7.
根据权利要求6所述的文本抽样方法,其特征在于,根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间,并确定各所述第二语义子空间内的邻域样本集,包括:将各所述第一语义子空间的各轴均匀划分为
Q
段,得到所述第二预设数量的所述第二语义子空间,其中,
Q
由各所述第一语义子空间内的所...

【专利技术属性】
技术研发人员:张若兴
申请(专利权)人:北京沃东天骏信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1