样本数据处理方法、装置、设备及介质制造方法及图纸

技术编号:39062428 阅读:17 留言:0更新日期:2023-10-12 19:55
本发明专利技术涉及数据处理、医疗健康技术领域,公开了一种样本数据处理方法、装置、设备及介质,包括:获取待处理样本数据;对待处理样本数据进行分词处理,以得到第一词语集合,第一词语集合中包括有K个第一词语;获取K个第一词语分别在待处理样本数据所在的待处理样本数据集合中的权重值,以得到K个第一词语分别对应的第一权重值;根据K个第一词语分别对应的第一权重值从K个第一词语中确定出第一目标词语;根据待处理样本数据集合确定与第一目标词语对应的第二目标词语;将待处理样本数据中的第一目标词语替换为第二目标词语,以得到第一目标样本数据。提升了获取的扩容的样本数据的准确性。准确性。准确性。

【技术实现步骤摘要】
样本数据处理方法、装置、设备及介质


[0001]本专利技术涉及数据处理、医疗健康
,尤其涉及一种样本数据处理方法、装置、设备及介质。

技术介绍

[0002]随着深度学习的快速发展,大模型的时代已经到来。通过在大量语料上训练大规模的模型,并在特定领域上微调,通常能够获得良好的效果。然而,无论是预训练阶段还是微调阶段,都需要大量的训练数据。特别在医疗新闻文本等进行分析时,可训练出分析模型,通过分析模型进行分析,但此时在实际场景中,由于缺乏足够多的训练数据,导致采用分析模型进行数据处理时的准确性较低。
[0003]因此,则需要对医疗新闻文本的样本数据进行样本扩容,在进行扩容时,由于,医疗新闻文本是离散型数据,采用传统的替换、删除等方法进行扩容,容易破坏文本的上下文连贯性和表达的语义情境,从而使得获取的扩容的样本数据的准确性较低。

技术实现思路

[0004]本专利技术提供一种样本数据处理方法、装置、设备及介质,以解决获取的扩容的样本数据的准确性较低的技术问题。
[0005]第一方面,提供了一种基于样本数据处理方法,包括:
[0006]获取待处理样本数据;
[0007]对所述待处理样本数据进行分词处理,以得到第一词语集合,所述第一词语集合中包括有K个第一词语;
[0008]获取K个所述第一词语分别在所述待处理样本数据所在的待处理样本数据集合中的权重值,以得到K个所述第一词语分别对应的第一权重值;
[0009]根据K个所述第一词语分别对应的第一权重值从K个第一词语中确定出第一目标词语;
[0010]根据所述待处理样本数据集合确定与所述第一目标词语对应的第二目标词语;
[0011]将所述待处理样本数据中的第一目标词语替换为所述第二目标词语,以得到第一目标样本数据。
[0012]第二方面,提供了一种基于样本数据处理装置,包括:
[0013]获取模块,用于获取待处理样本数据;
[0014]处理模块,用于对待处理样本数据进行分词处理,以得到第一词语集合,第一词语集合中包括有K个第一词语;
[0015]获取模块,还用于获取K个所述第一词语分别在所述待处理样本数据所在的待处理样本数据集合中的权重值,以得到K个所述第一词语分别对应的第一权重值;
[0016]确定模块,用于根据K个所述第一词语分别对应的第一权重值从K个第一词语中确定出第一目标词语;
[0017]确定模块,还用于根据待处理样本数据集合确定与第一目标词语对应的第二目标词语;
[0018]替换模块,用于将待处理样本数据中的第一目标词语替换为第二目标词语,以得到第一目标样本数据。
[0019]第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述样本数据处理方法的步骤。
[0020]第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述样本数据处理方法的步骤。
[0021]上述样本数据处理方法、装置、设备及介质所实现的方案中,可以先获取待处理样本数据,对待处理样本数据进行分词处理,以得到第一词语集合,第一词语集合中包括有K个第一词语,其次获取K个第一词语分别在待处理样本数据所在的待处理样本数据集合中的权重值,以得到K个第一词语分别对应的第一权重值,然后根据K个第一词语分别对应的第一权重值从K个第一词语中确定出第一目标词语,根据待处理样本数据集合确定与第一目标词语对应的第二目标词语,最后将待处理样本数据中的第一目标词语替换为第二目标词语,以得到第一目标样本数据。可通过本方案对待处理样本数据中的词语进行处理,得到词语权重,根据词语权重确定替换词,并通过替换词替换权重较大的词语来扩充样本数据的语料。因此本方案不仅有效扩充了替换词,还保持了句子连贯性,进而使得原始样本数据语料的语义得以保持,提升了获取的样本数据的准确性。
附图说明
[0022]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本专利技术一实施例中样本数据处理方法的一应用环境示意图;
[0024]图2是本专利技术一实施例中样本数据处理方法的一流程示意图;
[0025]图3是本专利技术一实施例中预训练模型场景示意图;
[0026]图4是本专利技术一实施例中样本数据处理装置的一结构示意图;
[0027]图5是本专利技术一实施例中计算机设备的一结构示意图;
[0028]图6是本专利技术一实施例中计算机设备的另一结构示意图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]本专利技术实施例提供的基于样本数据处理方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。在医疗健康场景中,用户需要获取大量医疗新闻样
本时,由于医疗新闻样本数据本身的数据量限制等原因,以及提升模型训练时的准确性等,因此,需要对医疗新闻样本进行扩容处理,具体例如,医疗新闻样本可以是针对某一医疗学科的医疗新闻样本,并基于该样本进行分析模型训练,以得到对应的医疗新闻分析模型,此时对医疗新闻样本进行扩容时,可以服务器可以通过客户端获取待处理样本数据,服务器接收到待处理样本数据后,对待处理样本数据进行分词处理,以得到第一词语集合,第一词语集合中包括有K个第一词语,服务器获取K个第一词语分别在待处理样本数据所在的待处理样本数据集合中的权重值,以得到K个第一词语分别对应的第一权重值,服务器根据K个第一词语分别对应的第一权重值从K个第一词语中确定出第一目标词语,服务器根据待处理样本数据集合确定与第一目标词语对应的第二目标词语,服务器将待处理样本数据中的第一目标词语替换为第二目标词语,以得到第一目标样本数据,服务器将第一目标样本数据反馈回客户端。在申请明中,针对在自然语言处理领域,生成文本的对抗样例比较困难,且由于文本数据是离散型的,传统的替换、删除等方法,易造成破坏文本的上下文连贯性和表达的语义情境的问题。可通过本方案对待处理样本数据中的词语进行处理,得到词语权重,根据词语权重确定替换词,并通过替换词替换权重较大的词语来扩充样本数据的语料。因此本方案不仅有效扩充了替换词,还保持了句子连贯性,进而使得原始样本数据语料的语义得以保持,提升了获取的样本数据的准确性。
[0031]其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本数据处理方法,其特征在于,方法包括:获取待处理样本数据;对所述待处理样本数据进行分词处理,以得到第一词语集合,所述第一词语集合中包括有K个第一词语;获取K个所述第一词语分别在所述待处理样本数据所在的待处理样本数据集合中的权重值,以得到K个所述第一词语分别对应的第一权重值;根据K个所述第一词语分别对应的第一权重值从K个第一词语中确定出第一目标词语;根据所述待处理样本数据集合确定与所述第一目标词语对应的第二目标词语;将所述待处理样本数据中的第一目标词语替换为所述第二目标词语,以得到第一目标样本数据。2.根据权利要求1所述的样本数据处理方法,其特征在于,所述获取K个第一词语分别在待处理样本数据所在的待处理样本数据集合中的权重值,以得到K个第一词语分别对应的第一权重值,包括:获取待处理样本数据集合的第一样本主题信息,以及获取待处理样本数据的第二样本主题信息;确定第二样本主题信息与第一样本主题信息之间的第一相似度;获取K个第一词语分别对应的第一语义信息;获取K个第一词语分别对应的第一语义信息与第二样本主题信息之间的第二相似度,以得到第二相似度集合,第二相似度集合中的第二相似度与K个第一词语一一对应;根据第二相似度集合与第一相似度,确定出K个第一词语分别对应的第一权重值。3.根据权利要求2所述的样本数据处理方法,其特征在于,所述对所述待处理样本数据进行分词处理,以得到第一词语集合,包括:对待处理样本数据进行去符号处理,以得到第一参考待处理样本数据;对第一参考待处理样本数据进行分词处理,以得到M个第一参考词语;对M个所述第一参考词语进行去停顿词处理,以得到M个第二参考词语,M个第二参考词语与M个第一参考词语一一对应;对M个第二参考词语进行词内字符关系判别,以得到与M个第二参考词语分别对应的第一词内字符关系;确定第二词语集合,第二词语集合中的元素为M个第二参考词语中第一词内字符关系属于预设词内字符关系集合的第二参考词语,以及确定第三词语集合,第三词语集合中的元素为M个第二参考词语中第一词内字符关系不属于预设词内字符关系集合的第二参考词语;对第二词语集合内的第二参考词语根据对应的第一词内字符关系进行分词处理,以得到第四词语集合;将第四词语集合与第三词语集合的并集确定为第一词语集合。4.根据权利要求1

3任一项所述的样本数据处理方法,其特征在于,所述根据待处理样本数据集合确定与第一目标词语对应的第二目标词语,包括:获取与所述待处理样本数据集合对应的预设词语预测模型;通过所述预设词语预测模型对所述待处理样本数据集合进行词语预测,以得到与所述
第一目标词语对应的第二目标词语。5.根据权利要求4所述的样...

【专利技术属性】
技术研发人员:陈浩
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1