文本处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:28979815 阅读:18 留言:0更新日期:2021-06-23 09:26
本申请实施例提供了一种文本处理方法、装置、设备及计算机可读存储介质,包括:获取至少两个待处理文本;确定各待处理文本之间的相似度;根据各待处理文本之间的相似度和预设的相似度阈值,确定至少两个第一文本;对至少两个第一文本进行识别,确定至少两个第一文本分别对应的类别,以及从至少两个第一文本确定出每一类别对应的第二文本;根据预设的实体词,从各第二文本中确定得到用于提取三元组的第二文本。该方法通过上述处理,从待处理文本中筛除了无三元组的样本和包括重复的三元组的样本,从而可以向人工样本标注提供有效的样本,提升了人工智能的知识图谱领域中的人工样本标注的效率。

【技术实现步骤摘要】
文本处理方法、装置、设备及计算机可读存储介质
本申请涉及计算机
,具体而言,本申请涉及一种文本处理方法、装置、设备及计算机可读存储介质。
技术介绍
自然语言处理技术早已深入了我们的日常生活。很多人都没有意识到,我们每天都在享受自然语言处理技术提供的便利,例如,拼音输入法。不仅如此,自然语言处理通过深度学习的方式影响了各个方向,极大推动了自然语言处理的发展,深度学习的诸多局限性也慢慢得到广泛认知。对于自然语言处理而言,要做到精细深度的语义理解,单纯依靠数据标注与算力投入无法解决本质问题。例如,“冬天,能穿多少穿多少”与“夏天,能穿多少穿多少”,在计算机看来语义上并没有巨大差异,而实际上两句中的“穿多少”意思正好相反。因此,融入知识来进行知识指导的自然语言处理,是通向精细而深度的语言理解的必由之路。现有技术中,知识获取通过人工样本标注来提取三元组,即三元组关系,随着三元组的不断扩充,由于出现越来越多的无效样本,从而导致人工样本标注的效率降低。
技术实现思路
本申请针对现有的方式的缺点,提出一种文本处理方法、装置、设备及计算机可读存储介质,用以解决如何提升样本标注的效率的问题。第一方面,本申请提供了一种文本处理方法,包括:获取至少两个待处理文本;确定各待处理文本之间的相似度;根据各待处理文本之间的相似度和预设的相似度阈值,确定至少两个第一文本;对至少两个第一文本进行识别,确定至少两个第一文本分别对应的类别,以及从至少两个第一文本确定出每一类别对应的第二文本;根据预设的实体词,从各第二文本中确定得到用于提取三元组的第二文本。在一个实施例中,在获取至少两个待处理文本之前,还包括:获取原始样本;基于预设的字符长度、预设的标识中至少一项,将原始样本拆分成至少两个待处理文本。在一个实施例中,确定各待处理文本之间的相似度,包括:确定各待处理文本的词向量;根据各待处理文本的词向量之间的夹角,确定各待处理文本之间的相似度。在一个实施例中,根据各待处理文本之间的相似度和预设的相似度阈值,确定至少两个第一文本,包括:针对一个待处理文本,当一个待处理文本与除一个待处理文本之外的任一待处理文本之间的相似度大于相似度阈值,则将一个待处理文本确定为第一文本。在一个实施例中,对至少两个第一文本进行识别,确定至少两个第一文本分别对应的类别,以及从至少两个第一文本确定出每一类别对应的第二文本,包括:将至少两个第一文本的词向量进行聚类识别,确定至少两个第一文本分别对应的类别,以及每一类别对应的聚类中心点;针对每一聚类中心点,将与每一聚类中心点距离最近的词向量对应的第一文本确定为第二文本。在一个实施例中,根据预设的实体词,从各第二文本中确定得到用于提取三元组的第二文本,包括:当确定第二文本中包括实体词,则将第二文本确定为用于提取三元组的样本,三元组包括的实体对应实体词。在一个实施例中,在根据预设的实体词,从各第二文本中确定得到用于提取三元组的第二文本之后,还包括:从用于提取三元组的样本中提取到至少一个三元组;当至少一个三元组中的一个三元组包括的第一实体、第二实体、第一实体与第二实体之间的关系中的至少一项与预设的知识图谱中的各实体、各实体之间的关系中的任一项不同,则将一个三元组加入至知识图谱中,并将一个三元组对应的用于提取三元组的样本确定为待标注样本。在一个实施例中,获取原始样本,包括:根据实体词,通过预设的脚本,从超文本标记语言页面中获取原始样本。第二方面,本申请提供了一种文本处理装置,包括:第一处理模块,用于获取至少两个待处理文本;第二处理模块,用于确定各待处理文本之间的相似度;第三处理模块,用于根据各待处理文本之间的相似度和预设的相似度阈值,确定至少两个第一文本;第四处理模块,用于对至少两个第一文本进行识别,确定至少两个第一文本分别对应的类别,以及从至少两个第一文本确定出每一类别对应的第二文本;第五处理模块,用于根据预设的实体词,从各第二文本中确定得到用于提取三元组的第二文本。第三方面,本申请提供了一种电子设备,包括:处理器、存储器和总线;总线,用于连接处理器和存储器;存储器,用于存储操作指令;处理器,用于通过调用操作指令,执行本申请第一方面的文本处理方法。第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被用于执行本申请第一方面的文本处理方法。本申请实施例提供的技术方案,至少具有如下有益效果:获取至少两个待处理文本;确定各待处理文本之间的相似度;根据各待处理文本之间的相似度和预设的相似度阈值,确定至少两个第一文本;对至少两个第一文本进行识别,确定至少两个第一文本分别对应的类别,以及从至少两个第一文本确定出每一类别对应的第二文本;根据预设的实体词,从各第二文本中确定得到用于提取三元组的第二文本;如此通过上述处理,从待处理文本中筛除了无三元组的样本和包括重复的三元组的样本,从而可以向人工样本标注提供有效的样本,提升了知识图谱领域中的人工样本标注的效率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。图1为本申请实施例提供的系统架构的示意图;图2为本申请实施例提供的一种文本处理方法的流程示意图;图3为本申请实施例提供的另一种文本处理方法的流程示意图;图4为本申请实施例提供的文本处理的示意图;图5为本申请实施例提供的一种文本处理装置的结构示意图;图6为本申请实施例提供的一种电子设备的结构示意图。具体实施方式为使得本申请的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。下面详细描述本申请的实施例,该实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无本文档来自技高网
...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取至少两个待处理文本;/n确定各待处理文本之间的相似度;/n根据所述各待处理文本之间的相似度和预设的相似度阈值,确定至少两个第一文本;/n对所述至少两个第一文本进行识别,确定所述至少两个第一文本分别对应的类别,以及从所述至少两个第一文本确定出每一类别对应的第二文本;/n根据预设的实体词,从各第二文本中确定得到用于提取三元组的第二文本。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
获取至少两个待处理文本;
确定各待处理文本之间的相似度;
根据所述各待处理文本之间的相似度和预设的相似度阈值,确定至少两个第一文本;
对所述至少两个第一文本进行识别,确定所述至少两个第一文本分别对应的类别,以及从所述至少两个第一文本确定出每一类别对应的第二文本;
根据预设的实体词,从各第二文本中确定得到用于提取三元组的第二文本。


2.根据权利要求1所述的方法,其特征在于,在所述获取至少两个待处理文本之前,还包括:
获取原始样本;
基于预设的字符长度、预设的标识中至少一项,将所述原始样本拆分成所述至少两个待处理文本。


3.根据权利要求1所述的方法,其特征在于,所述确定各待处理文本之间的相似度,包括:
确定所述各待处理文本的词向量;
根据所述各待处理文本的词向量之间的夹角,确定所述各待处理文本之间的相似度。


4.根据权利要求1所述的方法,其特征在于,所述根据所述各待处理文本之间的相似度和预设的相似度阈值,确定至少两个第一文本,包括:
针对一个待处理文本,当所述一个待处理文本与除所述一个待处理文本之外的任一待处理文本之间的相似度大于所述相似度阈值,则将所述一个待处理文本确定为第一文本。


5.根据权利要求1所述的方法,其特征在于,所述对所述至少两个第一文本进行识别,确定所述至少两个第一文本分别对应的类别,以及从所述至少两个第一文本确定出每一类别对应的第二文本,包括:
将所述至少两个第一文本的词向量进行聚类识别,确定所述至少两个第一文本分别对应的类别,以及所述每一类别对应的聚类中心点;
针对每一聚类中心点,将与所述每一聚类中心点距离最近的词向量对应的第一文本确定为第二文本。


6.根据权利要求1所述的方法,其特征在于,所述根据预设的实体词,从各第二文本中确定得到用于...

【专利技术属性】
技术研发人员:冯杨阳
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1