数据聚类方法和系统、数据存储方法和系统以及存储介质技术方案

技术编号:33538068 阅读:19 留言:0更新日期:2022-05-21 09:38
本申请涉及数据聚类方法和系统、数据存储方法和系统以及存储介质,所述数据聚类方法包括如下步骤:解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者;根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系;从所述聚类原子池查找所述聚类原子以构成备选聚类原子,所述查找基于目标聚类数据的目标聚类属性、所述聚类原子关联的聚类属性和所述聚类原子的性质;以及引用所述备选聚类原子形成所述目标聚类数据。本申请的数据聚类方法可以提高聚类数据的效率。方法可以提高聚类数据的效率。方法可以提高聚类数据的效率。

【技术实现步骤摘要】
数据聚类方法和系统、数据存储方法和系统以及存储介质


[0001]本申请涉及数据加工领域,具体而言,涉及数据聚类方法和系统、数据存储方法和系统以及存储介质。

技术介绍

[0002]基于诸如语料数据的文本在很多时候都可以采纳历史文本中的内容,若每次制作新的文本时都重新编写并组织语料则效率十分低下。此外,现成的语料数据一般都经过较长时间的检验,其稳定性、准确性较高,若重新编写文本恐难避免语义上的疏漏。
[0003]通常历史文本中的语料数据是按照规则排列或者组织的,且这些语料数据之间也存在语义属性上的关联,将这些语料数据作为材料并按照新的文本的要求来制作新的文本是可以考虑的方向。

技术实现思路

[0004]本申请的实施例提供了一种数据聚类方法和系统、数据存储方法和系统以及存储介质,数据存储方法和系统用于将历史聚类数据打散成聚类原子并存储,数据聚类方法和系统可以进一步根据聚类原子制作符合要求的新聚类数据,从而提高聚类数据的效率、降低聚类数据时的错误概率。
[0005]根据本申请的一方面,提供一种数据聚类方法,包括:解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者;根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系;从所述聚类原子池查找所述聚类原子以构成备选聚类原子,所述查找基于目标聚类数据的目标聚类属性、所述聚类原子关联的聚类属性和所述聚类原子的性质;以及引用所述备选聚类原子形成所述目标聚类数据。
[0006]在本申请的一些实施例中,可选地,所述历史聚类数据为历史语料聚类数据,所述聚类原子为语料聚类原子。
[0007]在本申请的一些实施例中,可选地,所述查找还基于语料匹配。
[0008]在本申请的一些实施例中,可选地,所述聚类原子以图数据库形式组织并存储在聚类原子池中。
[0009]在本申请的一些实施例中,可选地,所述查找基于图搜索方法。
[0010]在本申请的一些实施例中,可选地,所述聚类原子存在层级关系,其中:将上级聚类原子作为所述备选聚类原子的同时也将其下级聚类原子作为所述备选聚类原子;以及通过作为所述备选聚类原子的下级聚类原子能够上溯其上级聚类原子,并将所述上级聚类原子作为所述备选聚类原子。
[0011]在本申请的一些实施例中,可选地,所述聚类属性包括:对象、种类、地区、性别、年龄、期间。
[0012]在本申请的一些实施例中,可选地,若所引用的备选聚类原子之间不兼容,则产生
提示信息。
[0013]根据本申请的一方面,提供一种数据存储方法,包括:解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者;以及根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系。
[0014]在本申请的一些实施例中,可选地,所述历史聚类数据为历史语料聚类数据,所述聚类原子为语料聚类原子。
[0015]在本申请的一些实施例中,可选地,所述聚类原子以图数据库形式组织并存储在聚类原子池中。
[0016]在本申请的一些实施例中,可选地,所述聚类属性包括:对象、种类、地区、性别、年龄、期间。
[0017]根据本申请的另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令由处理器执行时,使得所述处理器执行如上文所述的任意一种方法。
[0018]根据本申请的另一方面,提供一种数据聚类系统,包括:解析单元,其配置成解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者;池化单元,其配置成根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系;查找单元,其配置成从所述池化单元中查找所述聚类原子以构成备选聚类原子,所述查找基于目标聚类数据的目标聚类属性、所述聚类原子关联的聚类属性和所述聚类原子的性质;以及组装单元,其配置成引用所述备选聚类原子形成所述目标聚类数据。
[0019]根据本申请的另一方面,提供一种数据存储系统,包括:解析单元,其配置成根解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者;以及存储单元,其配置成根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系。
附图说明
[0020]从结合附图的以下详细说明中,将会使本申请的上述和其他目的及优点更加完整清楚,其中,相同或相似的要素采用相同的标号表示。
[0021]图1示出了根据本申请的一个实施例的数据聚类原理的示意图。
[0022]图2示出了根据本申请的一个实施例的数据聚类方法。
[0023]图3示出了根据本申请的一个实施例的数据存储方法。
[0024]图4示出了根据本申请的一个实施例的数据聚类系统。
[0025]图5示出了根据本申请的一个实施例的数据存储系统。
具体实施方式
[0026]出于简洁和说明性目的,本文主要参考其示范实施例来描述本申请的原理。但是,本领域技术人员将容易地认识到相同的原理可等效地应用于所有类型的数据聚类方法和系统、数据存储方法和系统以及存储介质,并且可以在其中实施这些相同或相似的原理,任
何此类变化不背离本申请的真实精神和范围。
[0027]根据本申请的一方面,提供一种数据聚类方法。如图2所示,数据聚类方法20包括了如下步骤。在步骤S201中解析历史聚类数据并据其各部分的性质将其分解成聚类原子,其中,聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者。在步骤S202中根据聚类原子的性质形成聚类原子池,聚类原子池中包括聚类原子的非结构化关系。在步骤S203中从聚类原子池查找聚类原子以构成备选聚类原子,查找基于目标聚类数据的目标聚类属性、聚类原子关联的聚类属性和聚类原子的性质。在步骤S204中引用备选聚类原子形成目标聚类数据。
[0028]本申请中的历史聚类数据、目标聚类数据属于同一种应用的数据,例如二者都是广告宣传文本、法律文本、协议文本等具有可以重新组织的聚类原子的应用数据,也可以是程序代码等具有可以重新组织的聚类原子的应用数据,还可以是用于构建诸如保险理财合同的原始产品(可以根据产品形成最终的合同)。
[0029]本申请中的历史聚类数据、目标聚类数据都包括聚类原子,在上下文中,聚类原子可以是历史聚类数据、目标聚类数据中不可再分的最小构成单位,再分将无聚类上的意义;也可以是若干个最小构成单位的集合。聚类原子各有其性质,这些各具性质的聚类原子构成了历史聚类数据。例如,协议文本可以包括条款、标的、责任等,“条款”部分、“标的”部分、“责任”部分可以作为聚类原子,并且这些聚类原子的性质可以是条款、标的、责任。再如,对于程序代码而言,聚类原子可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据聚类方法,包括:解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者;根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系;从所述聚类原子池查找所述聚类原子以构成备选聚类原子,所述查找基于目标聚类数据的目标聚类属性、所述聚类原子关联的聚类属性和所述聚类原子的性质;以及引用所述备选聚类原子形成所述目标聚类数据。2.根据权利要求1所述的方法,所述历史聚类数据为历史语料聚类数据,所述聚类原子为语料聚类原子。3.根据权利要求2所述的方法,所述查找还基于语料匹配。4.根据权利要求1所述的方法,所述聚类原子以图数据库形式组织并存储在聚类原子池中。5.根据权利要求4所述的方法,所述查找基于图搜索方法。6. 根据权利要求4所述的方法,所述聚类原子存在层级关系,其中:将上级聚类原子作为所述备选聚类原子的同时也将其下级聚类原子作为所述备选聚类原子;以及通过作为所述备选聚类原子的下级聚类原子能够上溯其上级聚类原子,并将所述上级聚类原子作为所述备选聚类原子。7.根据权利要求1所述的方法,所述聚类属性包括:对象、种类、地区、性别、年龄、期间。8.根据权利要求1所述的方法,若所引用的备选聚类原子之间不兼容,则产生提示信息。9. 一种数据存储方法,包括:解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者;以及根据所述聚类原子的性...

【专利技术属性】
技术研发人员:莫元武K
申请(专利权)人:易保网络技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1