文本分类方法、装置以及设备制造方法及图纸

技术编号:37327293 阅读:22 留言:0更新日期:2023-04-21 23:05
本公开提供了一种文本分类方法、装置以及设备,涉及人工智能技术领域,具体涉及自然语言处理、深度学习和人工智能生成等技术领域。该方法的一具体实施方式包括:获取目标文本;对目标文本进行理解,得到目标文本的理解结果;基于目标文本的理解结果和与目标文本关联的参考信息进行校验,得到校验结果;基于校验结果,确定目标文本的合理性类别。该实施方式提高了文本合理性判定的准确度。提高了文本合理性判定的准确度。提高了文本合理性判定的准确度。

【技术实现步骤摘要】
文本分类方法、装置以及设备


[0001]本公开涉及人工智能
,具体涉及自然语言处理、深度学习和人工智能生成等


技术介绍

[0002]文本合理性判定指的是判定一段文本是否是合理的,是否存在错误,是否存在不实的问题。目前,通过构建机器学习模型能够进行文本合理性判定。例如,构建二分类模型或多分类模型来判定文本是否合理。对于二分类模型,若预测结果是1,则判定文本合理;若预测结果是0,则判定文本不合理。

技术实现思路

[0003]本公开实施例提出了一种文本分类方法、装置、设备、存储介质以及程序产品。
[0004]第一方面,本公开实施例提出了一种文本分类方法,包括:获取目标文本;对目标文本进行理解,得到目标文本的理解结果;基于目标文本的理解结果和与目标文本关联的参考信息进行校验,得到校验结果;基于校验结果,确定目标文本的合理性类别。
[0005]第二方面,本公开实施例提出了一种文本分类装置,包括:获取模块,被配置成获取目标文本;理解模块,被配置成对目标文本进行理解,得到目标文本的理解结果;校验模块,被配置成基于目标文本的理解结果和与目标文本关联的参考信息进行校验,得到校验结果;第一分类模块,被配置成基于校验结果,确定目标文本的合理性类别。
[0006]第三方面,本公开实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。
[0007]第四方面,本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。
[0008]第五方面,本公开实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0009]本公开实施例提供的文本分类方法,通过对目标文本的理解结果和与目标文本关联的参考信息进行校验来判定目标文本的合理性,提高了文本合理性判定的准确度。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开的文本分类方法的第一个实施例的流程图;
[0013]图2是根据本公开的文本分类方法的第二个实施例的流程图;
[0014]图3是根据本公开的文本分类方法的第三个实施例的流程图;
[0015]图4是可以实现图2和图3所示的实施例的文本分类方法的场景图;
[0016]图5是根据本公开的文本分类方法的第四个实施例的流程图;
[0017]图6是根据本公开的文本分类方法的第五个实施例的流程图;
[0018]图7是根据本公开的文本分类装置的一个实施例的结构示意图;
[0019]图8是用来实现本公开实施例的文本分类方法的电子设备的框图。
具体实施方式
[0020]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0021]需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0022]图1示出了根据本公开的文本分类方法的第一个实施例的流程100。该文本分类方法包括以下步骤:
[0023]步骤101,获取目标文本。
[0024]在本实施例中,文本分类方法的执行主体可以获取目标文件。其中,目标文本可以是短文本,其长度通常小于64个统一码,以达到精准控制语义的目的。目标文本可以包括但不限于查询、标题、文案、对话、问答等等。
[0025]步骤102,对目标文本进行理解,得到目标文本的理解结果。
[0026]在本实施例中,上述执行主体可以对目标文本进行理解,得到目标文本的理解结果。其中,目标文本的理解结果可以包括但不限于目标文本的基础特征、主题类别、意图类别等。
[0027]步骤103,基于目标文本的理解结果和与目标文本关联的参考信息进行校验,得到校验结果。
[0028]在本实施例中,上述执行主体可以基于目标文本的理解结果和与目标文本关联的参考信息进行校验,得到校验结果。其中,参考信息与目标文本在字符串层面存在关联。例如,参考信息可以是基于目标文本的内容得到的。又例如,目标文本可以是基于参考信息的内容得到的。校验结果可以用于表征参考信息和目标文本在语义层面上是否相同。
[0029]在参考信息是基于目标文本的内容得到的情况下,基于目标文本的理解结果和与目标文本关联的参考信息可以进行SPO(Subject Predicate Object,主语谓语宾语)校验。通过引入知识图谱,解决SPO合理性校验的问题。其中SPO校验的具体步骤可以如下:
[0030]首先,基于目标文本的理解结果,识别目标文本的至少两种句子成分。
[0031]这里,目标文本的理解结果可以包括目标文本的基础特征。具体地,首先将目标文件切分成词序列;然后对词序列中的每个词标注基础特征;最后基于词序列中的每个词的基础特征,可以识别出至少两种句子成分。其中,至少两种句子成分可以包括主语、谓语、宾
语中的至少两种。
[0032]然后,获取至少两种句子成分中的一种句子成分对应的知识,以及基于一种句子成分的知识对其他句子成分进行校验,得到句子成分校验结果。
[0033]对于至少两种句子成分中的一种句子成分,可以从知识图谱中获取该句子成分对应的知识。然后基于该句子成分对应的知识对其他句子成分进行校验,得到句子成分校验结果。其中,知识图谱可以是收录各种知识的知识库。该句子成分对应的知识就是基于目标文本的内容得到的参考信息。
[0034]需要说明的是,SPO校验可以分为P校验和O校验。其中,P校验在图2所示的实施例中进行介绍。O校验在图3所示的实施例中进行介绍。
[0035]在目标文本是基于参考信息的内容得到的情况下,基于目标文本的理解结果和与目标文本关联的参考信息可以进行一致性校验。通过对比文本对的核心特征,能够实现文本对的一致性校验。基于一致性校验结果,可以确定基于参考信息生成的目标文本的合理性。其中,一致性校验的具体步骤可以如下:
[0036]首先,获取参考信息,确定与参考信息关联的目标文本。
[0037]其中,目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,包括:获取目标文本;对所述目标文本进行理解,得到所述目标文本的理解结果;基于所述目标文本的理解结果和与所述目标文本关联的参考信息进行校验,得到校验结果;基于所述校验结果,确定所述目标文本的合理性类别。2.根据权利要求1所述的方法,其中,所述基于所述目标文本的理解结果和与所述目标文本关联的参考信息进行校验,得到校验结果,包括:基于所述目标文本的理解结果,识别所述目标文本的至少两种句子成分;获取所述至少两种句子成分中的一种句子成分对应的知识,以及基于所述一种句子成分的知识对其他句子成分进行校验,得到句子成分校验结果。3.根据权利要求2所述的方法,其中,所述获取所述至少两种句子成分中的一种句子成分对应的知识,以及基于所述一种句子成分的知识对其他句子成分进行校验,得到句子成分校验结果,包括:若所述至少两种句子成分包括主语和谓语,利用链指技术将所述主语链指到所述主语对应的知识,以及检测所述主语对应的知识中是否包含与所述谓语相关的信息,得到谓语校验结果;若所述至少两种句子成分包括主语和宾语,利用链指技术将所述主语链指到所述主语对应的知识,以及检测所述主语对应的知识中是否包含与所述宾语相关的信息,得到宾语校验结果。4.根据权利要求2所述的方法,其中,所述对所述目标文本进行理解,得到所述目标文本的理解结果,包括:将所述目标文本输入至知识标注模型,得到所述目标文本的特征标注序列。5.根据权利要求4所述的方法,其中,所述对所述目标文本进行理解,得到所述目标文本的理解结果,还包括:将所述目标文本输入至主题分类模型,得到所述目标文本的主题;和/或将所述目标文本输入至意图分类模型,得到所述目标文本的意图。6.根据权利要求1所述的方法,其中,所述获取目标文本,包括:获取参考信息,确定与所述参考信息关联的目标文本;以及所述基于所述目标文本的理解结果和与所述目标文本关联的参考信息进行校验,得到校验结果,包括:对所述参考信息进行理解,得到所述参考信息的理解结果;对所述参考信息的理解结果和所述目标文本的理解结果进行一致性校验,得到一致性校验结果。7.根据权利要求6所述的方法,其中,所述获取参考信息,确定与所述参考信息关联的目标文本,包括:获取用户查询信息,以及确定与所述用户查询信息对应的推送信息,作为所述目标文本;和/或获取输入文本,以及将所述输入文本输入至人工智能生成模型,得到输出文本,作为所
述目标文本。8.根据权利要求7所述的方法,其中,所述对所述目标文本进行理解,得到所述目标文本的理解结果,包括:将所述目标文本输入至知识标注模型,得到所述目标文本的特征标注序列;和/或将所述目标文本输入至主题分类模型,得到所述目标文本的主题;和/或将所述目标文本输入至意图分类模型,得到所述目标文本的意图。9.根据权利要求1

8中任一项所述的方法,其中,所述方法还包括:将所述目标文本输入至风险分类模型,得到所述目标文本的风险类别结果;基于所述风险类别结果,确定所述目标文本的合理性类别。10.一种文本分类装置,包括:获取模块,被配置成获取目标文本;理解模块,被配置成对所述目标文本进行理解,得到所述目标文本的理解结果;校验模块,被配置成基于所述目标文本的理解结果和与所述目标文本关联的参考信息进行校验,得到校验结果;第一分类模块,被配置...

【专利技术属性】
技术研发人员:林泽南赵岷傅瑜张国鑫秦华鹏蒋烨
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1