文本数据的判别方法、装置、设备及介质制造方法及图纸

技术编号:39296390 阅读:12 留言:0更新日期:2023-11-07 11:04
本申请公开了一种文本数据的判别方法、装置、设备及介质,获取待判别的目标文本数据,先使用文本分类模型对目标文本数据进行分类预测,得到表征目标文本数据是否属于目标业务域的第一分类结果;然后,通过实体关系抽取模型对目标文本数据进行实体识别和关系抽取,确定其中包含的目标实体以及目标实体之间的目标关系,根据目标实体是否属于目标业务域,以及目标关系是否符合预设的关系类型,对目标文本数据进行细致的再次筛选,从而确定出实际符合业务需求的目标文本数据为有效数据。本申请能够有效文本数据的判别准确度,方便高效地收集目标业务域内的信息。本申请的技术方案可广泛应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。各种场景。各种场景。

【技术实现步骤摘要】
文本数据的判别方法、装置、设备及介质


[0001]本申请涉及人工智能
,特别是涉及一种文本数据的判别方法、装置、设备及介质。

技术介绍

[0002]当前,随着信息技术的发展,业务数据的获取和传输在各类应用中的使用越来越广泛。例如,在地图导航应用中,需要经常从互联网各个渠道获取关于道路的状态信息,比如说道路是否可以通行、是否存在拥堵情况等,从而方便及时更新地图内的导航显示信息,为人们提供可靠、高效的出行指引功能。
[0003]相关技术中,在收集某个业务域内的信息时,一般需要对信息的有效性进行判别,即通过信息的文本数据判别信息是否符合实际的业务需求,从而剔除无关信息或者干扰信息,筛选出真正有用的信息。当前,一般采用机器学习/深度学习对文本数据的有效性进行判别。但是,在实际处理中发现,即使是属于某个业务域内的信息,其对应的文本数据也会存在有大量的无关内容,在使用机器学习/深度学习时,模型可能会错误关注到这些无关内容,导致判别结果出错,影响信息的正常获取和使用,提高了信息的处理成本。
[0004]综上,相关技术中存在的技术问题有待得到改善。

技术实现思路

[0005]本申请实施例提供了一种文本数据的判别方法、装置、设备及介质,能够有效文本数据的判别准确度,方便高效地收集目标业务域内的信息,有利于降低信息的处理成本。
[0006]本申请实施例的一方面提供了一种文本数据的判别方法,所述方法包括:获取待判别的目标文本数据;通过文本分类模型对所述目标文本数据进行分类预测,得到第一分类结果;其中,所述第一分类结果用于表征所述文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;若所述第一分类结果表征所述目标文本数据属于所述目标业务域,通过实体关系抽取模型对所述目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对所述目标文本数据进行关系抽取,得到所述目标实体之间的目标关系;若所述目标实体属于所述目标业务域,且所述目标关系符合预设的关系类型,确定所述目标文本数据为有效数据。
[0007]另一方面,本申请实施例提供了一种文本数据的判别装置,所述装置包括:获取单元,用于获取待判别的目标文本数据;分类单元,用于通过文本分类模型对所述目标文本数据进行分类预测,得到第一分类结果;其中,所述第一分类结果用于表征所述文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;识别单元,用于若所述第一分类结果表征所述目标文本数据属于所述目标业务
域,通过实体关系抽取模型对所述目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对所述目标文本数据进行关系抽取,得到所述目标实体之间的目标关系;处理单元,用于若所述目标实体属于所述目标业务域,且所述目标关系符合预设的关系类型,确定所述目标文本数据为有效数据。
[0008]可选地,所述装置还包括预处理单元,所述预处理单元具体用于:对所述目标文本数据进行去重处理;或者,检测所述目标文本数据中是否包含预设的关键词,若所述目标文本数据不包括所述关键词,确定所述目标文本数据为无效数据。
[0009]可选地,所述预处理单元具体用于:检测参考文本数据和所述目标文本数据之间的相似度;其中,所述参考文本数据为除所述目标文本数据以外的其他文本数据;若所述参考文本数据和所述目标文本数据之间的相似度大于或者等于预设的相似度阈值,检测所述参考文本数据是否为已判别过的文本数据;若所述参考文本数据为已判别过的文本数据,重新获取新的待判别的目标文本数据;或者,若所述参考文本数据为未判别过的文本数据,删除所述参考文本数据。
[0010]可选地,所述文本分类模型包括第一文本分类模型和第二文本分类模型;所述分类单元具体用于:将所述目标文本数据输入到所述第一文本分类模型和所述第二文本分类模型中;通过所述第一文本分类模型对所述目标文本数据进行分类预测,得到第二分类结果;所述第二分类结果用于表征所述第一文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;通过所述第二文本分类模型对所述目标文本数据进行分类预测,得到第三分类结果;所述第三分类结果用于表征所述第二文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;若所述第二分类结果表征所述目标文本数据属于目标业务域且所述第三分类结果表征所述目标文本数据属于目标业务域,将所述第一分类结果确定为表征所述目标文本数据属于目标业务域的预测结果;或者若所述第二分类结果表征所述目标文本数据不属于目标业务域,或者所述第三分类结果表征所述目标文本数据不属于目标业务域,将所述第一分类结果确定为表征所述目标文本数据不属于目标业务域的预测结果。
[0011]可选地,所述分类单元具体用于:从所述目标文本数据的起始位置开始截取第一长度的数据内容,得到第一文本数据;从所述目标文本数据的起始位置开始截取第二长度的数据内容,得到第二文本数据;将所述第一文本数据输入到所述第一文本分类模型中,以及将所述第二文本数据输入到所述第二文本分类模型中;其中,所述第一长度小于第三长度,所述第二长度大于所述第三长度;所述第三长度为所述目标文本数据的总长度的一半。
[0012]可选地,所述分类单元具体用于:
对所述目标文本数据进行分词处理,得到所述目标文本数据对应的第一词组,并确定所述第一词组中各个词对应的第一词特征数据;根据所述第一词组中各个词对应的第一词特征数据,通过所述第一文本分类模型进行分类预测,得到所述第二分类结果。
[0013]可选地,所述分类单元具体用于:根据所述第一词组中各个词对应的第一词特征数据,确定所述目标文本数据对应的文本特征数据;根据所述文本特征数据,通过所述第一文本分类模型进行分类预测,得到所述第二分类结果。
[0014]可选地,所述分类单元具体用于:通过所述第一文本分类模型进行分类预测,得到所述第一文本分类模型输出的概率值;所述概率值用于表征所述第一文本分类模型预测所述目标文本数据属于目标业务域的概率;若所述概率值大于或者等于预设的概率阈值,将所述第二分类结果确定为表征所述目标文本数据属于目标业务域的预测结果;或者,若所述概率值小于所述概率阈值,将所述第二分类结果确定为表征所述目标文本数据不属于目标业务域的预测结果。
[0015]可选地,所述识别单元具体用于:对所述目标文本数据进行语句分割处理,得到多个目标语句;对各个所述目标语句进行分词处理,得到所述目标语句对应的第二词组,并确定所述第二词组中各个词对应的第二词特征数据;根据所述第二词组中各个词对应的第二词特征数据,通过所述实体关系抽取模型对所述目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对所述目标文本数据进行关系抽取,得到所述目标实体之间的目标关系。
[0016]可选地,所述装置还包括训练单元,所述训练单元具体用于:获取训练数据集;所述训练数据集中包括批量的样本文本数据和各个所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据的判别方法,其特征在于,所述方法包括:获取待判别的目标文本数据;通过文本分类模型对所述目标文本数据进行分类预测,得到第一分类结果;其中,所述第一分类结果用于表征所述文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;若所述第一分类结果表征所述目标文本数据属于所述目标业务域,通过实体关系抽取模型对所述目标文本数据进行实体识别,得到目标实体,以及通过实体关系抽取模型对所述目标文本数据进行关系抽取,得到所述目标实体之间的目标关系;若所述目标实体属于所述目标业务域,且所述目标关系符合预设的关系类型,确定所述目标文本数据为有效数据。2.根据权利要求1所述的文本数据的判别方法,其特征在于,所述获取待判别的目标文本数据的步骤之后,所述方法还包括:对所述目标文本数据进行去重处理;或者,检测所述目标文本数据中是否包含预设的关键词,若所述目标文本数据不包括所述关键词,确定所述目标文本数据为无效数据。3.根据权利要求2所述的文本数据的判别方法,其特征在于,所述对所述目标文本数据进行去重处理,包括:检测参考文本数据和所述目标文本数据之间的相似度;其中,所述参考文本数据为除所述目标文本数据以外的其他文本数据;若所述参考文本数据和所述目标文本数据之间的相似度大于或者等于预设的相似度阈值,检测所述参考文本数据是否为已判别过的文本数据;若所述参考文本数据为已判别过的文本数据,重新获取新的待判别的目标文本数据;或者,若所述参考文本数据为未判别过的文本数据,删除所述参考文本数据。4.根据权利要求1所述的文本数据的判别方法,其特征在于,所述文本分类模型包括第一文本分类模型和第二文本分类模型;所述通过文本分类模型对所述目标文本数据进行分类预测,得到第一分类结果,包括:将所述目标文本数据输入到所述第一文本分类模型和所述第二文本分类模型中;通过所述第一文本分类模型对所述目标文本数据进行分类预测,得到第二分类结果;所述第二分类结果用于表征所述第一文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;通过所述第二文本分类模型对所述目标文本数据进行分类预测,得到第三分类结果;所述第三分类结果用于表征所述第二文本分类模型对所述目标文本数据属于目标业务域或者所述目标文本数据不属于目标业务域的预测结果;若所述第二分类结果表征所述目标文本数据属于目标业务域且所述第三分类结果表征所述目标文本数据属于目标业务域,将所述第一分类结果确定为表征所述目标文本数据属于目标业务域的预测结果;或者若所述第二分类结果表征所述目标文本数据不属于目标业务域,或者所述第三分类结果表征所述目标文本数据不属于目标业务域,将所述第一分类结果确定为表征所述目标文本数据不属于目标业务域的预测结果。5.根据权利要求4所述的文本数据的判别方法,其特征在于,所述将所述目标文本数据
输入到所述第一文本分类模型和所述第二文本分类模型中,包括:从所述目标文本数据的起始位置开始截取第一长度的数据内容,得到第一文本数据;从所述目标文本数据的起始位置开始截取第二长度的数据内容,得到第二文本数据;将所述第一文本数据输入到所述第一文本分类模型中,以及将所述第二文本数据输入到所述第二文本分类模型中;其中,所述第一长度小于第三长度,所述第二长度大于所述第三长度;所述第三长度为所述目标文本数据的总长度的一半。6.根据权利要求4所述的文本数据的判别方法,其特征在于,所述通过所述第一文本分类模型对所述目标文本数据进行分类预测,得到第二分类结果,包括:对所述目标文本数据进行分词处理,得到所述目标文本数据对应的第一词组,并确定所述第一词组中各个词对应的第一词特征数据;根据所述第一词组中各个词对应的第一词特征数据,通过所述第一文本分类模型进行分类预测,得到所述第二分类结果。7.根据权利要求6所述的文本数据的判别方法,其特征在于,所述根据所述第一词组中各个词对应的第一词特征数据,通过所述第一文本分类模型进行分类预测,得到第二分类结果,包括:根据所述第一词组中各个词对应的第一词特征数据,确...

【专利技术属性】
技术研发人员:单敏柱叶琰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1