一种数据处理方法及装置制造方法及图纸

技术编号：32825956 阅读：55 留言：0更新日期：2022-03-26 20:28

本发明专利技术公开了一种数据处理方法及装置，涉及数据增强技术领域，在增强数据样本规模的同时也确保了质量，继而避免了对原数据集造成污染。本发明专利技术的主要技术方案为：获取第一文本数据，其中，所述第一文本数据中包括敏感词；对所述第一文本数据的非敏感词数据插入字符或者对所述第一文本数据的非敏感词数据进行同义词替换，得到第二文本数据；若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同，则将所述第二文本数据确定为所述第一文本数据的增强数据。本发明专利技术主要应用于对数量少的包含敏感词文本数据实现数据增强处理。处理。处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法及装置

[0001]本专利技术涉及数据增强
，尤其涉及一种数据处理方法及装置。

技术介绍

[0002]鉴于一些场景的情况，数据样本偏少或者极少，对于机器学习方法等一些非预训练语言模型，仅靠这些微薄的数据量是不能训练好一个语义模型的，那么可以考虑采用数据增强的方法扩充数据样本规模，以期望得到数据样本规模越大、质量越高越好，使得训练的模型能够有更好的泛化能力。
[0003]目前，在自然语言处理(Natural Language Processing，NLP)中文本的数据增强方法大致分为两种：一种是，对文本表示注入噪声来扩充数据量；另一种是，在文本表示前，通过同义词替换、随机插入、随机删除等方式改造原始文本以达到扩充数据量的目的。
[0004]但是，对于现有的这些数据增强方法，增强后数据样本语义是否被改变了，这是难以把握控制的，虽然增强后数据量会增大，但如果语义也被改变了，增强的数据样本质量是不高的，那么会对模型训练造成不可控的影响。

技术实现思路

[0005]有鉴于此，本专利技术提供一种数据处理方法及装置，主要目的在于利用增强处理得到更大规模的数据样本的同时，也最大限度地避免了增强数据的语义被改变，从而确保增强处理的质量，避免了对原数据集造成污染，这都是有助于对后续模型训练的带来良性影响的。
[0006]为了达到上述目的，本专利技术主要提供如下技术方案：
[0007]本申请第一方面提供了一种数据处理方法，该方法包括：
[0008]获取第一文本数...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：获取第一文本数据，其中，所述第一文本数据中包括敏感词；对所述第一文本数据的非敏感词数据插入字符或者对所述第一文本数据的非敏感词数据进行同义词替换，得到第二文本数据；若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同，则将所述第二文本数据确定为所述第一文本数据的增强数据。2.根据权利要求1所述的方法，其特征在于，所述对所述第一文本数据的非敏感词数据插入字符或者对所述第一文本数据的非敏感词数据进行同义词替换，得到第二文本数据，包括：若所述第一文本数据的文本长度为长文本，则对所述第一文本数据的非敏感词数据插入字符，得到所述第二文本数据；或者，若所述第一文本数据的文本长度为短文本，则对所述第一文本数据中的非敏感词数据进行同义词替换，得到所述第二文本数据。3.根据权利要求2所述的方法，其特征在于，所述对所述第一文本数据的非敏感词数据插入字符，得到所述第二文本数据，包括；获取所述第一文本数据中文本的平均长度；根据预设的第一映射关系，确定所述文本的平均长度对应的第一字符的数量；根据所述第一字符的数量，对所述第一文本数据的非敏感词数据插入字符得到所述第二文本数据。4.根据权利要求2所述的方法，其特征在于，所述对所述第一文本数据的非敏感词数据插入字符，得到所述第二文本数据，包括：获取所述第一文本数据中文本长度的中位数；根据预设的第二映射关系，确定所述文本长度的中位数对应的第二字符的数量；根据所述第二字符的数量，对所述第一文本数据的非敏感词数据插入字符，得到所述第二文本数据。5.根据权利要求2所述的方法，其特征在于，所述对所述第一文本数据的非敏感词数据进行同义词替换，得到第二...

【专利技术属性】
技术研发人员：李长林，蒋宁，王洪斌，吴海英，权佳成，曹磊，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人