本发明专利技术公开了一种数据处理方法及装置,涉及数据增强技术领域,在增强数据样本规模的同时也确保了质量,继而避免了对原数据集造成污染。本发明专利技术的主要技术方案为:获取第一文本数据,其中,所述第一文本数据中包括敏感词;对所述第一文本数据的非敏感词数据插入字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。本发明专利技术主要应用于对数量少的包含敏感词文本数据实现数据增强处理。处理。处理。
【技术实现步骤摘要】
一种数据处理方法及装置
[0001]本专利技术涉及数据增强
,尤其涉及一种数据处理方法及装置。
技术介绍
[0002]鉴于一些场景的情况,数据样本偏少或者极少,对于机器学习方法等一些非预训练语言模型,仅靠这些微薄的数据量是不能训练好一个语义模型的,那么可以考虑采用数据增强的方法扩充数据样本规模,以期望得到数据样本规模越大、质量越高越好,使得训练的模型能够有更好的泛化能力。
[0003]目前,在自然语言处理(Natural Language Processing,NLP)中文本的数据增强方法大致分为两种:一种是,对文本表示注入噪声来扩充数据量;另一种是,在文本表示前,通过同义词替换、随机插入、随机删除等方式改造原始文本以达到扩充数据量的目的。
[0004]但是,对于现有的这些数据增强方法,增强后数据样本语义是否被改变了,这是难以把握控制的,虽然增强后数据量会增大,但如果语义也被改变了,增强的数据样本质量是不高的,那么会对模型训练造成不可控的影响。
技术实现思路
[0005]有鉴于此,本专利技术提供一种数据处理方法及装置,主要目的在于利用增强处理得到更大规模的数据样本的同时,也最大限度地避免了增强数据的语义被改变,从而确保增强处理的质量,避免了对原数据集造成污染,这都是有助于对后续模型训练的带来良性影响的。
[0006]为了达到上述目的,本专利技术主要提供如下技术方案:
[0007]本申请第一方面提供了一种数据处理方法,该方法包括:
[0008]获取第一文本数据,其中,所述第一文本数据中包括敏感词;
[0009]对所述第一文本数据的非敏感词数据插入字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;
[0010]若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。
[0011]本申请第二方面提供了一种数据处理装置,该装置包括:
[0012]获取单元,用于获取第一文本数据,其中,所述第一文本数据中包括敏感词;
[0013]处理单元,用于对所述第一文本数据的非敏感词数据插入字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;
[0014]确定单元,用于若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。
[0015]本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理方法。
[0016]本申请第四方面提供了一种电子设备,包括:存储器、处理器及存储在所述存储器
上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的数据处理方法。
[0017]借由上述技术方案,本专利技术提供的技术方案至少具有下列优点:
[0018]本专利技术提供了一种数据处理方法及装置,本专利技术对于包括有敏感词的第一文本数据,以向第一文本数据的非敏感词数据插入字符或者进行同义词替换的方式,实现增强处理得到第二文本数据,以及再进一步的如果判断第二文本数据和第一文本数据的情感极性相同,那么就将第二文本数据确定为第一文本数据的增强数据。相较于现有技术,本专利技术考虑到保留敏感词和文本数据情感极性不变的这两个方面执行数据增强处理,从而最大限度地避免了增强后文本数据语义被改变,解决了现有技术因增强后数据样本语义难以把握控制导致增强的数据样本质量难以保证的问题,本专利技术在增强数据样本规模的同时也确保了质量,继而避免了对原数据集造成污染,这都是有助于对后续模型训练的实现良性影响的。
[0019]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0020]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0021]图1为本专利技术实施例提供的一种数据处理方法流程图;
[0022]图2为本专利技术实施例提供的另一种数据处理方法流程图;
[0023]图3为本专利技术实施例例举的数据增强处理的简易流程图;
[0024]图4为本专利技术实施例提供的一种数据处理装置的组成框图;
[0025]图5为本专利技术实施例提供的另一种数据处理装置的组成框图。
具体实施方式
[0026]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。
[0027]本专利技术实施例提供了一种数据处理方法,如图1所示,该方法是利用增强处理得到更大规模的数据样本的同时,也最大限度地避免了增强数据的语义被改变,对此本专利技术实施例提供以下具体步骤:
[0028]101、获取第一文本数据,其中,第一文本数据中包括敏感词。
[0029]在本专利技术实施例中,第一文本数据是指待执行增强处理的文本数据,文本数据可以包含一个或多个文本,每个文本至少包含一个句子。本专利技术实施例中的对数据进行增强处理也可以理解为对数据进行增广处理,即对数据进行扩展。但优选方式为,本专利技术实施例执行数据增强的处理对象为包含字符较少的文本数据,类似这样的文本数据表达一个主题或围绕一个中心语义,即不是携带多样或复杂语义的文本数据,以便后续利用语义未改变
这个因素实现对经数据增强处理后的文本数据进行筛选。
[0030]其中,敏感词是根据实际业务场景需求而预先定义的关键词,例如,对于一个客服应用场景,类似第一文本数据为:“先生,您已经逾期两个月了,请您尽快处理,否则这边会将您的资料发往户籍地”,词语“户籍地”为预先设定的敏感词。
[0031]需要说明的是,词语“第一”“第二”仅是用于区别指代不同的文本数据,即未经增强处理的文本数据,标识为第一文本数据,而经增强处理的文本数据,则标识为第二文本数据。
[0032]示例性的,例举第一文本数据,如果正负样本比例悬殊,即正样本数量远远大于负样本数量,会影响模型训练指标的,那么是需要对这样数据样本执行增强处理的,即:对于负样本,是有增强处理需求的。
[0033]例如,在客服应用场景中,文本数据“您好,请问您的户籍地是*****吗”,这样文本数据是正样本,不带有负向感情色彩,通常这样的文本数据是较多的,但是如文本数据“先生,您已经逾期两个月了,请您尽快处理,否则这边会将您的资料发往户籍地”,类似这样带有负向感情本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取第一文本数据,其中,所述第一文本数据中包括敏感词;对所述第一文本数据的非敏感词数据插入字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。2.根据权利要求1所述的方法,其特征在于,所述对所述第一文本数据的非敏感词数据插入字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据,包括:若所述第一文本数据的文本长度为长文本,则对所述第一文本数据的非敏感词数据插入字符,得到所述第二文本数据;或者,若所述第一文本数据的文本长度为短文本,则对所述第一文本数据中的非敏感词数据进行同义词替换,得到所述第二文本数据。3.根据权利要求2所述的方法,其特征在于,所述对所述第一文本数据的非敏感词数据插入字符,得到所述第二文本数据,包括;获取所述第一文本数据中文本的平均长度;根据预设的第一映射关系,确定所述文本的平均长度对应的第一字符的数量;根据所述第一字符的数量,对所述第一文本数据的非敏感词数据插入字符得到所述第二文本数据。4.根据权利要求2所述的方法,其特征在于,所述对所述第一文本数据的非敏感词数据插入字符,得到所述第二文本数据,包括:获取所述第一文本数据中文本长度的中位数;根据预设的第二映射关系,确定所述文本长度的中位数对应的第二字符的数量;根据所述第二字符的数量,对所述第一文本数据的非敏感词数据插入字符,得到所述第二文本数据。5.根据权利要求2所述的方法,其特征在于,所述对所述第一文本数据的非敏感词数据进行同义词替换,得到第二...
【专利技术属性】
技术研发人员:李长林,蒋宁,王洪斌,吴海英,权佳成,曹磊,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。