合并文本的方法、系统、装置、电子设备及介质制造方法及图纸

技术编号:31627248 阅读:13 留言:0更新日期:2021-12-29 19:04
本申请公开了一种合并文本的方法、系统、装置、电子设备及介质。通过应用本申请的技术方案,可以通过待筛选文本的关键字段所生成的文本摘要与已发布文本进行比对,从而确定是否对该文本进行合并。本申请可以通过文本识别模型并采用机器学习模型为主导来自动识别文本,并随着网络模型算法的不断优化与数据模型的不断完善,逐步降低人工干预的比例,导致文本合并的准确率更高。合并的准确率更高。合并的准确率更高。

【技术实现步骤摘要】
合并文本的方法、系统、装置、电子设备及介质


[0001]本申请中涉及数据处理技术,尤其是一种合并文本的方法、系统、装置、电子设备及介质。

技术介绍

[0002]文本作为人类之间传递信息的桥梁,特别是在互联网迅速发展的今天,将文本信息通过通信形式进行传播随处可见。
[0003]然而,相关技术中,往往存在着用户上传的文本内容信息参差不齐,但内容大同小异的情况。对此,平台往往需要将内容相同的文本进行合并,从而减轻数据库的压力。可以理解的,若单单靠人眼从海量的文本中筛选出重合文本,工作量大且效率低。

技术实现思路

[0004]本申请实施例提供一种合并文本的方法、系统、装置、电子设备及介质。本申请用以解决相关技术中存在的,仅能依靠人工从海量文本中筛选出重合文本所导致的效率低下的问题。
[0005]其中,根据本申请实施例的一个方面,提供的一种合并文本的方法,其特征在于,包括:
[0006]通过行业分类模型识别待筛选文本中的文字内容,确定所述待筛选文本对应的行业类别;
[0007]利用摘要生成模型识别所述待筛选文本,得到所述待筛选文本对应的待筛选文本摘要;
[0008]从预设的文本数据库中,选取与所述行业类别相匹配的已发布文本,并计算各个已发布文本与所述待筛选文本摘要之间的关联度值;
[0009]基于所述关联度值,将已发布文本与待筛选文本进行文本合并。
[0010]可选地,在基于本申请上述方法的另一个实施例中,所述利用摘要生成模型识别所述待筛选文本,得到所述待筛选文本对应的待筛选文本摘要,包括:
[0011]利用文本识别模型,提取待筛选文本中的各个关键字段;
[0012]将各个关键字段输入CopyNetWork模型,得到对关键字段分词后的候选词组;
[0013]根据Seq2Seq概率图模型,对所述候选词组进行词性预测,得到各个候选词组对应的词性分类;
[0014]基于各个候选词组对应的词性分类,得到所述待筛选文本对应的待筛选文本摘要。
[0015]可选地,在基于本申请上述方法的另一个实施例中,所述基于各个候选词组对应的词性分类,得到所述待筛选文本对应的待筛选文本摘要,包括:
[0016]确定各个候选词组对应的词性分类,并基于所述词性分类,对各个候选词组按照预设顺序进行排序;
[0017]将所述排序后的各个候选词组进行拼接,得到所述待筛选文本摘要。
[0018]可选地,在基于本申请上述方法的另一个实施例中,基于以下公式对所述候选词组进行词性预测,得到各个候选词组对应的词性分类:
[0019]P(s,p,o)=P(s)P(o|s)P(p|s,o);
[0020]其中P(s,p,o)为概率值,s对应于动词词性,o对应于名词词性,p对应于形容词词性。
[0021]可选地,在基于本申请上述方法的另一个实施例中,所述计算各个已发布文本与所述待筛选文本摘要之间的关联度值,包括:
[0022]提取各个已发布文本的第一关键字段,以及提取所述待筛选文本摘要的第二关键字段;
[0023]计算所述第一关键字段与所述第二关键字段的余弦相似度值;
[0024]基于所述第一关键字段与所述第二关键字段的余弦相似度值,确定已发布文本与所述待筛选文本摘要之间的关联度值。
[0025]可选地,在基于本申请上述方法的另一个实施例中,基于以下公式计算计算所述第一关键字段与所述第二关键字段的余弦相似度值:
[0026][0027]其中,θ表示第一关键字段与第二关键字段之间的向量夹角,x
1k
表示第一关键字段n维空间中对应的向量的特征值,x
2k
表示第二关键字段n维空间中对应的向量的特征值,n表示向量空间的维度。
[0028]可选地,在基于本申请上述方法的另一个实施例中,所述通过行业分类模型识别待筛选文本中的文字内容之前,还包括:
[0029]对所述待筛选文本进行停用词消除;
[0030]利用聚类运算对所述消除停用词后的待筛选文本进行噪音词去除。
[0031]其中,根据本申请实施例的又一个方面,提供的一种合并文本的装置,其特征在于,包括:
[0032]获取模块,被配置为通过行业分类模型识别待筛选文本中的文字内容,确定所述待筛选文本对应的行业类别;
[0033]识别模块,被配置为利用摘要生成模型识别所述待筛选文本,得到所述待筛选文本对应的待筛选文本摘要;
[0034]选取模块,被配置为从预设的文本数据库中,选取与所述行业类别相匹配的已发布文本,并计算各个已发布文本与所述待筛选文本摘要之间的关联度值;
[0035]合并模块,被配置为基于所述关联度值,将已发布文本与待筛选文本进行文本合并。
[0036]根据本申请实施例的又一个方面,提供的一种电子设备,包括:
[0037]存储器,用于存储可执行指令;以及
[0038]显示器,用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述合并文本的方法的操作。
[0039]根据本申请实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述合并文本的方法的操作。
[0040]本申请中,可以通过行业分类模型识别待筛选文本中的文字内容,确定待筛选文本对应的行业类别;利用摘要生成模型识别待筛选文本,得到待筛选文本对应的待筛选文本摘要;从预设的文本数据库中,选取与行业类别相匹配的已发布文本,并计算各个已发布文本与待筛选文本摘要之间的关联度值;基于关联度值,将已发布文本与待筛选文本进行文本合并。通过应用本申请的技术方案,可以通过待筛选文本的关键字段所生成的文本摘要与已发布文本进行比对,从而确定是否对该文本进行合并。本申请以检测系统的设计采用机器学习模型为主导,并随着算法的不断优化与数据模型的不断完善,逐步降低人工干预的比例,导致文本合并的准确率更高。
[0041]下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
附图说明
[0042]构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
[0043]参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
[0044]图1为本申请提出的一种合并文本的的系统示意图;
[0045]图2为本申请提出的一种合并文本的的方法示意图;
[0046]图3为本申请提出的合并文本的电子装置的结构示意图;
[0047]图4为本申请提出的合并文本的电子设备的结构示意图。
具体实施方式
[0048]现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
[0049]同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种合并文本的方法,其特征在于,包括:通过行业分类模型识别待筛选文本中的文字内容,确定所述待筛选文本对应的行业类别;利用摘要生成模型识别所述待筛选文本,得到所述待筛选文本对应的待筛选文本摘要;从预设的文本数据库中,选取与所述行业类别相匹配的已发布文本,并计算各个已发布文本与所述待筛选文本摘要之间的关联度值;基于所述关联度值,将已发布文本与待筛选文本进行文本合并。2.如权利要求1所述的方法,其特征在于,所述利用摘要生成模型识别所述待筛选文本,得到所述待筛选文本对应的待筛选文本摘要,包括:利用文本识别模型,提取待筛选文本中的各个关键字段;将各个关键字段输入CopyNetWork模型,得到对关键字段分词后的候选词组;根据Seq2Seq概率图模型,对所述候选词组进行词性预测,得到各个候选词组对应的词性分类;基于各个候选词组对应的词性分类,得到所述待筛选文本对应的待筛选文本摘要。3.如权利要求1所述的方法,其特征在于,所述基于各个候选词组对应的词性分类,得到所述待筛选文本对应的待筛选文本摘要,包括:确定各个候选词组对应的词性分类,并基于所述词性分类,对各个候选词组按照预设顺序进行排序;将所述排序后的各个候选词组进行拼接,得到所述待筛选文本摘要。4.如权利要求1所述的方法,其特征在于,基于以下公式对所述候选词组进行词性预测,得到各个候选词组对应的词性分类:P(s,p,o)=P(s)P(o|s)P(p|s,o);其中P(s,p,o)为概率值,s对应于动词词性,o对应于名词词性,p对应于形容词词性。5.如权利要求1所述的方法,其特征在于,所述计算各个已发布文本与所述待筛选文本摘要之间的关联度值,包括:提取各个已发布文本的第一关键字段,以及提取所述待筛选文本摘要的第二关键字段;计算所述第一关键字...

【专利技术属性】
技术研发人员:杨婉琪
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1