System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种信息处理方法、装置、设备和计算机存储介质制造方法及图纸_技高网

一种信息处理方法、装置、设备和计算机存储介质制造方法及图纸

技术编号:44579619 阅读:6 留言:0更新日期:2025-03-14 12:42
本申请实施例公开了一种信息处理方法,所述方法包括:基于目标信息对待处理语料数据进行筛选处理,得到筛选后的语料数据;其中,所述目标信息至少包括与用户的信息相关的信息和目标词语;采用目标质量分类模型对所述筛选后的语料数据进行处理,得到待优化高质量语料数据;基于语料数据的数据特征对所述待优化高质量语料数据进行优化处理,得到目标语料数据。本申请实施例还公开了一种信息处理装置、设备和计算机可读存储介质。

【技术实现步骤摘要】

本申请涉及计算机的信息处理技术,尤其涉及一种信息处理方法、装置、设备和计算机存储介质


技术介绍

1、目前,开源大模型(如llama)预训练语料成分中,主体语料多为英文,中文语料占比少;通用领域语料多来源于网络爬虫的互联网语料,质量参差不齐,存在语义不通顺的问题,包含很多重复的无效内容,如广告、免责声明、网站导航、目录等;垂直领域(如网络安全、通用计算机知识领域等)高质量语料极度缺乏。针对上述语料,没有关于中文语料的清洗方法,也没有针对高质量语料的获取方法;且,相关技术中一般是使用关键词、规则过滤等方法进行语料清洗的,但是无法有效解决语料质量较差的问题。


技术实现思路

1、为解决上述技术问题,本申请实施例期望提供一种信息处理方法、装置、设备和计算机存储介质,解决了相关技术中针对语料的清洗方案中存在无法有效解决语料质量较差的问题,极大的提高了语料的质量。

2、本申请的技术方案是这样实现的:

3、一种信息处理方法,所述方法包括:

4、基于目标信息对待处理语料数据进行筛选处理,得到筛选后的语料数据;其中,所述目标信息至少包括与用户的信息相关的信息和目标词语;

5、采用目标质量分类模型对所述筛选后的语料数据进行处理,得到待优化高质量语料数据;

6、基于语料数据的数据特征对所述待优化高质量语料数据进行优化处理,得到目标语料数据。

7、上述方案中,所述基于目标信息对待处理语料数据进行筛选处理,得到筛选后的语料数据,包括:</p>

8、基于目标数据样式对所述待处理语料数据进行处理,得到处理后的语料数据;

9、剔除所述处理后的语料数据中的所述目标信息,得到所述筛选后的语料数据。

10、上述方案中,所述基于目标数据样式对所述待处理语料数据进行处理,得到处理后的语料数据,包括:

11、基于所述目标数据样式,确定所述待处理语料数据的字符中的目标字符;

12、对所述待处理语料数据中的所述目标字符进行处理,得到所述处理后的语料数据;

13、相应的,所述剔除所述处理后的语料数据中的所述目标信息,得到所述筛选后的语料数据,包括:

14、采用目标筛除技术剔除所述处理后的语料数据中的所述目标信息,得到所述筛选后的语料数据。

15、上述方案中,所述方法还包括:

16、确定高质量样本语料数据和低质量样本语料数据;

17、基于所述高质量样本语料数据和所述低质量样本语料数据,对目标预训练的语言表征模型进行二分类的模型训练,得到所述目标质量分类模型;其中,所述目标质量分类模型能够将语料数据分为高质量语料数据和低质量语料数据;所述低质量语料数据至少包括无效内容、偏见内容和语义不通顺的类型的语料数据。

18、上述方案中,所述确定高质量样本语料数据和低质量样本语料数据,包括:

19、从目标高质量语料数据库中获取第一子高质量样本语料数据;

20、确定待分类样本语料数据;

21、对所述待分类样本语料数据进行筛选和处理,得到所述低质量样本语料数据和第二子高质量样本语料数据;

22、基于所述第一子高质量样本语料数据和所述第二子高质量样本语料数据,确定所述高质量样本语料数据。

23、上述方案中,所述基于语料数据的数据特征对所述待优化高质量语料数据进行优化处理,得到目标语料数据,包括:

24、基于所述数据特征对所述待优化高质量语料数据进行过滤,得到过滤后的语料数据;

25、对所述过滤后的语料数据进行去重处理,得到所述目标语料数据。

26、上述方案中,所述基于所述数据特征对所述待优化高质量语料数据进行过滤,得到过滤后的语料数据,包括:

27、基于所述数据特征确定目标过滤条件;

28、基于所述目标过滤条件对所述待优化高质量语料数据进行过滤,得到所述过滤后的语料数据。

29、上述方案中,所述对所述过滤后的语料数据进行去重处理,得到所述目标语料数据,包括:

30、基于目标子串对所述过滤后的语料数据进行去重处理,得到所述目标语料数据;

31、和/或,确定所述过滤后的语料数据之间的相似度,并基于所述相似度对所述过滤后的语料数据进行去重处理,得到所述目标语料数据;

32、和/或,删除所述过滤后的语料数据中语义相似度满足目标相似度的语句,得到所述目标语料数据。

33、一种信息处理装置,所述装置包括:

34、筛选单元,用于基于目标信息对待处理语料数据进行筛选处理,得到筛选后的语料数据;其中,所述目标信息至少包括与用户的隐私信息相关的信息和目标词语;

35、处理单元,用于采用目标质量分类模型对所述筛选后的语料数据进行处理,得到待优化高质量语料数据;

36、优化单元,用于基于语料数据的数据特征对所述待优化高质量语料数据进行优化处理,得到目标语料数据。

37、一种信息处理设备,所述设备包括:处理器、存储器和通信总线;

38、所述通信总线用于实现所述处理器和所述存储器之间的通信连接;

39、所述处理器用于执行所述存储器中的信息处理程序,以实现上述的信息处理方法的步骤。

40、一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的信息处理方法的步骤。

41、本申请的实施例所提供的信息处理方法、装置、设备和计算机存储介质,可以基于目标信息对待处理语料数据进行筛选处理,得到筛选后的语料数据,目标信息至少包括与用户的信息相关的信息和目标词语,采用目标质量分类模型对筛选后的语料数据进行处理得到待优化高质量语料数据,基于语料数据的数据特征对待优化高质量语料数据进行优化处理得到目标语料数据,这样,可以先基于目标信息对语料数据进行筛选,接着采用目标质量分类模型对筛选后的语料数据继续进行筛选,之后又根据语料数据的数据特征进行进一步的过滤,即可以通过目标信息、目标质量分类模型和语料数据的数据特征对语料数据进行多轮筛选处理,保证了得到的目标语料数据的质量,从而解决了相关技术中针对语料的清洗方案中存在无法有效解决语料质量较差的问题,极大的提高了语料的质量。

本文档来自技高网...

【技术保护点】

1.一种信息处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于目标信息对待处理语料数据进行筛选处理,得到筛选后的语料数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于目标数据样式对所述待处理语料数据进行处理,得到处理后的语料数据,包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述确定高质量样本语料数据和低质量样本语料数据,包括:

6.根据权利要求1所述的方法,其特征在于,所述基于语料数据的数据特征对所述待优化高质量语料数据进行优化处理,得到目标语料数据,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述数据特征对所述待优化高质量语料数据进行过滤,得到过滤后的语料数据,包括:

8.根据权利要求6所述的方法,其特征在于,所述对所述过滤后的语料数据进行去重处理,得到所述目标语料数据,包括:

9.一种信息处理装置,其特征在于,所述装置包括:

10.一种信息处理设备,其特征在于,所述设备包括:处理器、存储器和通信总线;

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~8中任一项所述的信息处理方法的步骤。

...

【技术特征摘要】

1.一种信息处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于目标信息对待处理语料数据进行筛选处理,得到筛选后的语料数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于目标数据样式对所述待处理语料数据进行处理,得到处理后的语料数据,包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述确定高质量样本语料数据和低质量样本语料数据,包括:

6.根据权利要求1所述的方法,其特征在于,所述基于语料数据的数据特征对所述待优化高质量语料数据进行优化处理,得到目标语料数据...

【专利技术属性】
技术研发人员:曹紫莹周旭
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1