样本数据处理方法、装置、设备及介质制造方法及图纸

技术编号：39062428 阅读：21 留言：0更新日期：2023-10-12 19:55

本发明专利技术涉及数据处理、医疗健康技术领域，公开了一种样本数据处理方法、装置、设备及介质，包括：获取待处理样本数据；对待处理样本数据进行分词处理，以得到第一词语集合，第一词语集合中包括有K个第一词语；获取K个第一词语分别在待处理样本数据所在的待处理样本数据集合中的权重值，以得到K个第一词语分别对应的第一权重值；根据K个第一词语分别对应的第一权重值从K个第一词语中确定出第一目标词语；根据待处理样本数据集合确定与第一目标词语对应的第二目标词语；将待处理样本数据中的第一目标词语替换为第二目标词语，以得到第一目标样本数据。提升了获取的扩容的样本数据的准确性。准确性。准确性。

全部详细技术资料下载

【技术实现步骤摘要】
样本数据处理方法、装置、设备及介质

[0001]本专利技术涉及数据处理、医疗健康
，尤其涉及一种样本数据处理方法、装置、设备及介质。

技术介绍

[0002]随着深度学习的快速发展，大模型的时代已经到来。通过在大量语料上训练大规模的模型，并在特定领域上微调，通常能够获得良好的效果。然而，无论是预训练阶段还是微调阶段，都需要大量的训练数据。特别在医疗新闻文本等进行分析时，可训练出分析模型，通过分析模型进行分析，但此时在实际场景中，由于缺乏足够多的训练数据，导致采用分析模型进行数据处理时的准确性较低。
[0003]因此，则需要对医疗新闻文本的样本数据进行样本扩容，在进行扩容时，由于，医疗新闻文本是离散型数据，采用传统的替换、删除等方法进行扩容，容易破坏文本的上下文连贯性和表达的语义情境，从而使得获取的扩容的样本数据的准确性较低。

技术实现思路

[0004]本专利技术提供一种样本数据处理方法、装置、设备及介质，以解决获取的扩容的样本数据的准确性较低的技术问题。
[0005]第一方面，提供了一种基于样本数据处理方法，包括：
[0006]获取待处理样本数据；
[0007]对所述待处理样本数据进行分词处理，以得到第一词语集合，所述第一词语集合中包括有K个第一词语；
[0008]获取K个所述第一词语分别在所述待处理样本数据所在的待处理样本数据集合中的权重值，以得到K个所述第一词语分别对应的第一权重值；
[0009]根据K个所述第一词语分别对应的第一权重值从K个第一...

【技术保护点】

【技术特征摘要】
1.一种样本数据处理方法，其特征在于，方法包括：获取待处理样本数据；对所述待处理样本数据进行分词处理，以得到第一词语集合，所述第一词语集合中包括有K个第一词语；获取K个所述第一词语分别在所述待处理样本数据所在的待处理样本数据集合中的权重值，以得到K个所述第一词语分别对应的第一权重值；根据K个所述第一词语分别对应的第一权重值从K个第一词语中确定出第一目标词语；根据所述待处理样本数据集合确定与所述第一目标词语对应的第二目标词语；将所述待处理样本数据中的第一目标词语替换为所述第二目标词语，以得到第一目标样本数据。2.根据权利要求1所述的样本数据处理方法，其特征在于，所述获取K个第一词语分别在待处理样本数据所在的待处理样本数据集合中的权重值，以得到K个第一词语分别对应的第一权重值，包括：获取待处理样本数据集合的第一样本主题信息，以及获取待处理样本数据的第二样本主题信息；确定第二样本主题信息与第一样本主题信息之间的第一相似度；获取K个第一词语分别对应的第一语义信息；获取K个第一词语分别对应的第一语义信息与第二样本主题信息之间的第二相似度，以得到第二相似度集合，第二相似度集合中的第二相似度与K个第一词语一一对应；根据第二相似度集合与第一相似度，确定出K个第一词语分别对应的第一权重值。3.根据权利要求2所述的样本数据处理方法，其特征在于，所述对所述待处理样本数据进行分词处理，以得到第一词语集合，包括：对待处理样本数据进行去符号处理，以得到第一参考待处理样本数据；对第一参考待处理样本数据进行分词处理，以得到M个第一参考词语；对M个所述第一参考词语进行去停顿词处理，以得到M个第二参考词语，M个第二参考词语与M个第一参考词语一一对应；对M个第二参考词语进行词内字符关系判别，以得到与M个第二参考词语分别对应的第一词内字符关系；确定第二词语集合，第二词语集合中的元素为M个第二参考词语中第一词内字符关系属于预设词内字符关系集合的第二参考词语，以及确定第三词语集合，第三词语集合中的元素为M个第二参考词语中第一词内字符关系不属于预设词内字符关系集合的第二参考词语；对第二词语集合内的第二参考词语根据对应的第一词内字符关系进行分词处理，以得到第四词语集合；将第四词语集合与第三词语集合的并集确定为第一词语集合。4.根据权利要求1
‑
3任一项所述的样本数据处理方法，其特征在于，所述根据待处理样本数据集合确定与第一目标词语对应的第二目标词语，包括：获取与所述待处理样本数据集合对应的预设词语预测模型；通过所述预设词语预测模型对所述待处理样本数据集合进行词语预测，以得到与所述
第一目标词语对应的第二目标词语。5.根据权利要求4所述的样...

【专利技术属性】
技术研发人员：陈浩，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人