合并文本的方法、系统、装置、电子设备及介质制造方法及图纸

技术编号：31627248 阅读：13 留言：0更新日期：2021-12-29 19:04

本申请公开了一种合并文本的方法、系统、装置、电子设备及介质。通过应用本申请的技术方案，可以通过待筛选文本的关键字段所生成的文本摘要与已发布文本进行比对，从而确定是否对该文本进行合并。本申请可以通过文本识别模型并采用机器学习模型为主导来自动识别文本，并随着网络模型算法的不断优化与数据模型的不断完善，逐步降低人工干预的比例，导致文本合并的准确率更高。合并的准确率更高。合并的准确率更高。

全部详细技术资料下载

【技术实现步骤摘要】
合并文本的方法、系统、装置、电子设备及介质

[0001]本申请中涉及数据处理技术，尤其是一种合并文本的方法、系统、装置、电子设备及介质。

技术介绍

[0002]文本作为人类之间传递信息的桥梁，特别是在互联网迅速发展的今天，将文本信息通过通信形式进行传播随处可见。
[0003]然而，相关技术中，往往存在着用户上传的文本内容信息参差不齐，但内容大同小异的情况。对此，平台往往需要将内容相同的文本进行合并，从而减轻数据库的压力。可以理解的，若单单靠人眼从海量的文本中筛选出重合文本，工作量大且效率低。

技术实现思路

[0004]本申请实施例提供一种合并文本的方法、系统、装置、电子设备及介质。本申请用以解决相关技术中存在的，仅能依靠人工从海量文本中筛选出重合文本所导致的效率低下的问题。
[0005]其中，根据本申请实施例的一个方面，提供的一种合并文本的方法，其特征在于，包括：
[0006]通过行业分类模型识别待筛选文本中的文字内容，确定所述待筛选文本对应的行业类别；
[0007]利用摘要生成模型识别所述待筛选文本，得到所述待筛选文本对应的待筛选文本摘要；
[0008]从预设的文本数据库中，选取与所述行业类别相匹配的已发布文本，并计算各个已发布文本与所述待筛选文本摘要之间的关联度值；
[0009]基于所述关联度值，将已发布文本与待筛选文本进行文本合并。
[0010]可选地，在基于本申请上述方法的另一个实施例中，所述利用摘要生成模型识别所述待筛选文本，得到所述待...

【技术保护点】

【技术特征摘要】
1.一种合并文本的方法，其特征在于，包括：通过行业分类模型识别待筛选文本中的文字内容，确定所述待筛选文本对应的行业类别；利用摘要生成模型识别所述待筛选文本，得到所述待筛选文本对应的待筛选文本摘要；从预设的文本数据库中，选取与所述行业类别相匹配的已发布文本，并计算各个已发布文本与所述待筛选文本摘要之间的关联度值；基于所述关联度值，将已发布文本与待筛选文本进行文本合并。2.如权利要求1所述的方法，其特征在于，所述利用摘要生成模型识别所述待筛选文本，得到所述待筛选文本对应的待筛选文本摘要，包括：利用文本识别模型，提取待筛选文本中的各个关键字段；将各个关键字段输入CopyNetWork模型，得到对关键字段分词后的候选词组；根据Seq2Seq概率图模型，对所述候选词组进行词性预测，得到各个候选词组对应的词性分类；基于各个候选词组对应的词性分类，得到所述待筛选文本对应的待筛选文本摘要。3.如权利要求1所述的方法，其特征在于，所述基于各个候选词组对应的词性分类，得到所述待筛选文本对应的待筛选文本摘要，包括：确定各个候选词组对应的词性分类，并基于所述词性分类，对各个候选词组按照预设顺序进行排序；将所述排序后的各个候选词组进行拼接，得到所述待筛选文本摘要。4.如权利要求1所述的方法，其特征在于，基于以下公式对所述候选词组进行词性预测，得到各个候选词组对应的词性分类：P(s,p,o)＝P(s)P(o|s)P(p|s,o)；其中P(s,p,o)为概率值，s对应于动词词性，o对应于名词词性，p对应于形容词词性。5.如权利要求1所述的方法，其特征在于，所述计算各个已发布文本与所述待筛选文本摘要之间的关联度值，包括：提取各个已发布文本的第一关键字段，以及提取所述待筛选文本摘要的第二关键字段；计算所述第一关键字...

【专利技术属性】
技术研发人员：杨婉琪，
申请(专利权)人：平安国际智慧城市科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人