本申请公开了一种处理方法以及装置,其中,所述方法包括:获取待处理文件;对所述待处理文件包含的词汇进行处理,得到所述待处理文件包含的词汇的属性信息;基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇;其中,所述实体词汇包括实体类型的词汇;得到所述实体词汇之间的关联结构信息。所述实体词汇之间的关联结构信息。所述实体词汇之间的关联结构信息。
A processing method and device
【技术实现步骤摘要】
一种处理方法以及装置
[0001]本申请涉及数据处理
,尤其涉及一种处理方法以及装置。
技术介绍
[0002]在实际应用中,在构建文件中包含的词汇之间的关联结构信息比如知识图谱时,通常需要依赖与文件对应的词汇结构配置文件才能实现。这样的关联结构信息构建方式对文件格式以及词汇结构配置文件的要求严格,因此无法得到广泛的应用。
技术实现思路
[0003]基于以上问题,本申请实施例提供了一种处理方法以及装置。
[0004]本申请实施例首先提供了一种处理方法,所述方法包括:
[0005]获取待处理文件;
[0006]对所述待处理文件包含的词汇进行处理,得到所述待处理文件包含的词汇的属性信息;
[0007]基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇;其中,所述实体词汇包括实体类型的词汇;
[0008]得到所述实体词汇之间的关联结构信息。
[0009]在一些实施例中,所述属性信息至少包括所述待处理文件包含的词汇的格式属性信息;所述基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇,包括:
[0010]对所述格式属性信息中的格式属性参数进行分析,得到分析结果;其中,所述格式属性参数包括字号、字体、以及颜色中的至少一种;
[0011]基于所述分析结果对所述格式属性信息进行划分,得到至少一种类型的格式属性信息;
[0012]从所述至少一种类型的格式属性信息中确定第一格式信息;
[0013]基于所述第一格式信息,从所述待处理文件包含的词汇中确定所述实体词汇。
[0014]在一些实施例中,所述方法还包括:
[0015]从所述至少一种类型的格式属性信息中确定第二格式信息;
[0016]基于所述第二格式信息,从所述待处理文件包含的词汇中确定实体信息词汇;其中,所述实体信息词汇包括用于承载所述实体词汇的含义信息的词汇。
[0017]在一些实施例中,所述得到所述实体词汇之间的关联结构信息,包括:
[0018]确定所述实体词汇与所述实体信息词汇之间的关联关系信息;
[0019]基于所述关联关系信息,得到所述关联结构信息。
[0020]在一些实施例中,所述确定所述实体词汇与所述实体信息词汇之间的关联关系信息,包括:
[0021]对所述实体词汇以及所述实体信息词汇进行分析,得到第一坐标信息以及第二坐标信息;其中,所述第一坐标信息包括所述实体词汇的坐标信息;所述第二坐标信息包括所
述实体信息词汇的坐标信息;
[0022]基于所述第一坐标信息以及所述第二坐标信息,关联所述实体词汇以及所述实体信息词汇,确定所述关联关系信息。
[0023]在一些实施例中,所述基于所述第一坐标信息以及所述第二坐标信息,关联所述实体词汇以及所述实体信息词汇,确定所述关联关系信息,包括:
[0024]从所述第一坐标信息中获取目标实体词汇的坐标信息;
[0025]基于所述目标实体词汇的坐标信息以及所述第二坐标信息,确定目标实体信息词汇;
[0026]关联所述目标实体词汇以及所述目标实体信息词汇,确定所述关联关系信息。
[0027]在一些实施例中,所述基于所述关联关系信息,得到所述关联结构信息,包括:
[0028]确定第一关联信息与第二关联信息之间的匹配信息;其中,所述第一关联信息以及所述第二关联信息为所述关联关系信息中的任一关联关系信息;
[0029]基于所述匹配信息,得到所述关联结构信息。
[0030]在一些实施例中,所述基于所述匹配信息,得到所述关联结构信息,包括:
[0031]若满足指定条件,关联所述第二关联信息中的实体信息词汇与所述第一关联信息中的实体词汇,得到所述关联结构信息;其中,所述指定条件,包括所述匹配信息表示所述第二关联信息中的实体信息词汇与所述第一关联信息中的实体词汇匹配。
[0032]在一些实施例中,所述属性信息至少包括所述待处理文件包含的词汇的文本类型信息;所述基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇,包括:
[0033]若第一词汇的所述文本类型信息为第一文本类型,确定所述第一词汇为所述实体词汇;其中,所述第一词汇为所述待处理文件包含的词汇中的任一词汇;
[0034]若第二词汇的所述文本类型信息为第二文本类型,确定所述第二词汇为实体信息词汇;其中,所述第二词汇为所述待处理文件包含的词汇中的任一词汇。
[0035]本申请实施例还提供了一种处理装置,包括:
[0036]获取模块,用于获取待处理文件;
[0037]处理模块,用于对所述待处理文件包含的词汇进行处理,得到所述待处理文件包含的词汇的属性信息;基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇;其中,所述实体词汇包括实体类型的词汇;得到所述实体词汇之间的关联结构信息。
[0038]本申请实施例还提供了一种电子设备,包括处理器和存储器,其中,存储器中存储有计算机程序,该计算机程序被电子设备的处理器执行时,能够实现如前任一所述的处理方法。
[0039]本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被电子设备的处理器执行时,能够实现如前任一所述的处理方法。
[0040]本申请实施例提供的处理方法,在不需要专业技术人员的手动操作、且不依赖与待处理文件对应的配置文件的情况下,能够通过从待处理文件中得到的词汇的属性信息,得到实体词汇之间的关联结构信息,从而提高了得到待处理文件中实体词汇之间的关联结构信息的效率,也改善了得到关联结构信息的灵活性,降低了对待处理文件的格式以及数据结构的要求。在实体词汇之间的关联结构信息为知识图谱的情况下,本申请实施例提供
的处理方法,能够自动且灵活高效的得到任一待处理文件对应的知识图谱。
附图说明
[0041]图1为本申请实施例提供的处理方法的流程示意图;
[0042]图2为本申请实施例提供的确定实体词汇的流程示意图;
[0043]图3为本申请实施例提供的确定实体信息词汇的流程示意图;
[0044]图4为本申请实施例提供的确定实体词汇的另一流程示意图;
[0045]图5为本申请实施例提供的得到关联结构信息的流程示意图;
[0046]图6为本申请实施例提供的确定关联关系信息的流程示意图;
[0047]图7为本公开实施例提供的关联结构信息的结构示意图;
[0048]图8为本公开实施例提供的关联结构信息的另一结构示意图;
[0049]图9为本申请实施例提供的构建知识图谱的流程示意图;
[0050]图10为本申请实施例提供的处理装置的结构示意图。
具体实施方式
[0051]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0052]应当理解,此处所描述的具体实施本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种处理方法,其中,所述方法包括:获取待处理文件;对所述待处理文件包含的词汇进行处理,得到所述待处理文件包含的词汇的属性信息;基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇;其中,所述实体词汇包括实体类型的词汇;得到所述实体词汇之间的关联结构信息。2.根据权利要求1所述的方法,其中,所述属性信息至少包括所述待处理文件包含的词汇的格式属性信息;所述基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇,包括:对所述格式属性信息中的格式属性参数进行分析,得到分析结果;其中,所述格式属性参数包括字号、字体、以及颜色中的至少一种;基于所述分析结果对所述格式属性信息进行划分,得到至少一种类型的格式属性信息;从所述至少一种类型的格式属性信息中确定第一格式信息;基于所述第一格式信息,从所述待处理文件包含的词汇中确定所述实体词汇。3.根据权利要求2所述的方法,其中,所述方法还包括:从所述至少一种类型的格式属性信息中确定第二格式信息;基于所述第二格式信息,从所述待处理文件包含的词汇中确定实体信息词汇;其中,所述实体信息词汇包括用于承载所述实体词汇的含义信息的词汇。4.根据权利要求3所述的方法,其中,所述得到所述实体词汇之间的关联结构信息,包括:确定所述实体词汇与所述实体信息词汇之间的关联关系信息;基于所述关联关系信息,得到所述关联结构信息。5.根据权利要求4所述的方法,其中,所述确定所述实体词汇与所述实体信息词汇之间的关联关系信息,包括:对所述实体词汇以及所述实体信息词汇进行分析,得到第一坐标信息以及第二坐标信息;其中,所述第一坐标信息包括所述实体词汇的坐标信息;所述第二坐标信息包括所述实体信息词汇的坐标信息;基于所述第一坐标信息以及所述第二坐标信息,关联所述实体词汇以及所述实体信息词汇,确定所述关联关系信息。6.根据权利要求5所述的方法,其中,所述基于所述第...
【专利技术属性】
技术研发人员:敬毅民,崔恒,赵国光,
申请(专利权)人:联想北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。