System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种数据质量评估方法、设备、存储介质及装置。
技术介绍
1、随着人工智能的发展,对语言模型的模型性能要求越来越高,针对人工智能大模型研发领域,在模型训练过程中,通过训练数据对模型进行训练,从而达到提升模型性能的效果,但是现有的训练数据大多数是通过采集网页数据直接输入至模型中进行迭代训练,而网页数据中会存在许多错误文本以及敏感数据,进而导致训练数据在模型训练过程中存在干扰信息,影响模型训练效果。
2、上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本专利技术的主要目的在于提供一种数据质量评估方法、设备、存储介质及装置,旨在解决现有技术中通过直接使用网页数据,由于网页数据中存在多种干扰信息导致模型训练效果差的技术问题。
2、为实现上述目的,本专利技术提供一种数据质量评估方法,所述数据质量评估方法包括以下步骤:
3、基于预设知识图谱对待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据;
4、基于所述预设知识图谱对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据;
5、根据预设数据评估流程对所述第二目标网页数据进行质量评估,获得目标评估结果。
6、可选地,所述基于预设知识图谱对待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据的步骤,包括:
7、基于预设知识图谱中包含的敏感词表对所述待清洗的网页数据中的敏感词进行
8、根据所述匹配结果对所述待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据。
9、可选地,所述基于所述预设知识图谱对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据的步骤,包括:
10、基于所述预设知识图谱中包含的错误文本构建虚假信息数据库;
11、根据所述虚假信息数据库对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据。
12、可选地,所述根据所述虚假信息数据库对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据的步骤,包括:
13、根据所述虚假信息数据库中包含的虚假文本对所述第一目标网页数据中的虚假文本进行匹配,获得待处理的虚假文本;
14、基于所述待处理的虚假文本对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据。
15、可选地,所述根据所述虚假信息数据库中包含的虚假文本对所述第一目标网页数据中的虚假文本进行匹配,获得待处理的虚假文本的步骤,包括:
16、基于预设文本识别模型将所述虚假信息数据库中包含的虚假文本转换为第一特征向量;
17、基于所述预设文本识别模型将所述第一目标网页数据转换为第二特征向量;
18、将所述第一特征向量与所述第二特征向量进行匹配,获得特征向量匹配结果;
19、根据所述特征向量匹配结果确定待处理的虚假文本。
20、可选地,所述根据预设数据评估流程对所述第二目标网页数据进行质量评估,获得目标评估结果的步骤,包括:
21、根据预设数据评估流程中预设质量评估维度对所述第二目标网页数据进行质量评估,获得多维度评估结果;
22、根据所述多维度评估结果确定目标评估结果。
23、可选地,所述预设质量评估维度包括数据来源、数据多样性、数据时间、跨度时间,所述根据预设数据评估流程中预设质量评估维度对所述第二目标网页数据进行质量评估,获得多维度评估结果的步骤,包括:
24、根据所述预设数据评估流程中数据来源、数据多样性、数据时间、跨度时间对所述第二目标网页数据进行质量评估,获得来源评估结果、多样性评估结果、时间评估结果、跨度评估结果;
25、根据所述来源评估结果、所述多样性评估结果、所述时间评估结果、所述跨度评估结果确定多维度评估结果。
26、可选地,所述根据所述多维度评估结果确定目标评估结果的步骤,包括:
27、基于预设数据评估模型和预设级别对所述第二目标网页数据进行质量评估,获得模型评估结果;
28、根据所述多维度评估结果和所述模型评估结果确定目标评估结果。
29、可选地,所述基于预设数据评估模型和预设级别对所述第二目标网页数据进行质量评估,获得模型评估结果的步骤之前,还包括:
30、基于预设质量文本对初始参数模型进行训练,获得训练后的参数模型;
31、将所述训练后的参数模型输出作为预设数据评估模型。
32、可选地,所述基于预设数据评估模型和预设级别对所述第二目标网页数据进行质量评估,获得模型评估结果的步骤,包括:
33、基于预设数据评估模型和预设级别对所述第二目标网页数据进行质量评估,获得各级别对应的ppl值;
34、根据所述各级别对应的ppl值确定模型评估结果。
35、可选地,所述基于预设知识图谱对待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据的步骤之前,还包括:
36、采集敏感词相关图谱;
37、根据预设语义知识库以及所述敏感词相关图谱构建敏感词知识网络图;
38、基于所述敏感词知识网络图和错误文本知识网络图构建预设知识图谱。
39、此外,为实现上述目的,本专利技术还提出一种数据质量评估设备,所述数据质量评估设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据质量评估程序,所述数据质量评估程序配置为实现如上文所述的数据质量评估的步骤。
40、此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有数据质量评估程序,所述数据质量评估程序被处理器执行时实现如上文所述的数据质量评估方法的步骤。
41、此外,为实现上述目的,本专利技术还提出一种数据质量评估装置,所述数据质量评估装置包括:
42、敏感过滤模块,用于基于预设知识图谱对待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据;
43、虚假过滤模块,用于基于所述预设知识图谱对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据;
44、质量评估模块,用于根据预设数据评估流程对所述第二目标网页数据进行质量评估,获得目标评估结果。
45、可选地,所述敏感过滤模块,还用于基于预设知识图谱中包含的敏感词表对所述待清洗的网页数据中的敏感词进行匹配,获得匹配结果;
46、所述敏感过滤模块,还用于根据所述匹配结果对所述待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据。
47、可选地,所述虚假过滤模块,还用于基于所述预设知识图谱中包含的错误文本构建虚假信息数据库;
48、所述虚假过滤模块,还用于根据所述虚假信息数据库对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据。
49、可选地,所本文档来自技高网...
【技术保护点】
1.一种数据质量评估方法,其特征在于,所述数据质量评估方法包括以下步骤:
2.如权利要求1所述的数据质量评估方法,其特征在于,所述基于预设知识图谱对待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据的步骤,包括:
3.如权利要求2所述的数据质量评估方法,其特征在于,所述基于所述预设知识图谱对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据的步骤,包括:
4.如权利要求3所述的数据质量评估方法,其特征在于,所述根据所述虚假信息数据库对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据的步骤,包括:
5.如权利要求4所述的数据质量评估方法,其特征在于,所述根据所述虚假信息数据库中包含的虚假文本对所述第一目标网页数据中的虚假文本进行匹配,获得待处理的虚假文本的步骤,包括:
6.如权利要求1所述的数据质量评估方法,其特征在于,所述根据预设数据评估流程对所述第二目标网页数据进行质量评估,获得目标评估结果的步骤,包括:
7.如权利要求6所述的数据质量评估方法,其特征在于,所述预设质量评估维度包括数据
8.一种数据质量评估设备,其特征在于,所述数据质量评估设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据质量评估程序,所述数据质量评估程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据质量评估方法。
9.一种存储介质,其特征在于,所述存储介质上存储有数据质量评估程序,所述数据质量评估程序被处理器执行时实现如权利要求1至7中任一项所述的数据质量评估方法。
10.一种数据质量评估装置,其特征在于,所述数据质量评估装置包括:
...【技术特征摘要】
1.一种数据质量评估方法,其特征在于,所述数据质量评估方法包括以下步骤:
2.如权利要求1所述的数据质量评估方法,其特征在于,所述基于预设知识图谱对待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据的步骤,包括:
3.如权利要求2所述的数据质量评估方法,其特征在于,所述基于所述预设知识图谱对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据的步骤,包括:
4.如权利要求3所述的数据质量评估方法,其特征在于,所述根据所述虚假信息数据库对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据的步骤,包括:
5.如权利要求4所述的数据质量评估方法,其特征在于,所述根据所述虚假信息数据库中包含的虚假文本对所述第一目标网页数据中的虚假文本进行匹配,获得待处理的虚假文本的步骤,包括:
6.如权利要求1所述的数据质量评估方法,其特征在于,所述根据...
【专利技术属性】
技术研发人员:刘焕勇,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。