【技术实现步骤摘要】
文本处理方法及装置
[0001]本说明书实施例涉及计算机
,特别涉及文本处理方法。
技术介绍
[0002]随着计算机技术的不断发展,用户可以通过计算机进行文本数据对应的相关数据的查询;为了提升查询结果的准确性,通常需要从文本自身所表达的含义对文本数据进行转换,得到对应的文本表示信息,使得文本表示信息之间存在较大的区分,便于对文本数据进行定位。
[0003]然而,采用上述方法仅考虑了文本数据的自身信息,并未考虑文本数据在文档中的文本结构信息,导致文本表示信息不够准确,进而影响在文档中对目标文本的相关数据进行定位的准确性。
[0004]因此,如何在考虑文本的文本结构信息的基础上,完成对目标文本在文档中的准确定位,成为本领域技术人员亟待解决的技术问题。
技术实现思路
[0005]有鉴于此,本说明书实施例提供了文本处理方法。本说明书一个或者多个实施例同时涉及文本处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0006]根据本说明书实施例的第一方面,提供了一种文本处理方法,包括:
[0007]获取文档集合和待处理文本,其中,所述文档集合中的至少一个文档均包含初始文档标题和初始知识片段;
[0008]基于至少一个文档的初始文档标题和初始知识片段,生成至少一个文档对应的待处理文档标题信息和待处理知识片段信息,其中,所述待处理文档标题信息包含所述初始知识片段,所述待处理知识片段信息包含所述初始文档标题;
[00 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,包括:获取文档集合和待处理文本,其中,所述文档集合中的至少一个文档包含初始文档标题和初始知识片段;基于至少一个文档的初始文档标题和初始知识片段,生成至少一个文档对应的待处理文档标题信息和待处理知识片段信息,其中,所述待处理文档标题信息包含所述初始知识片段,所述待处理知识片段信息包含所述初始文档标题;根据至少一个文档对应的待处理文档标题信息和所述待处理文本,确定至少一个文档对应的文档相似度;根据至少一个文档对应的待处理知识片段信息和所述待处理文本,确定至少一个初始知识片段对应的知识片段相似度;基于至少一个文档对应的文档相似度和至少一个初始知识片段对应的知识片段相似度确定所述待处理文本对应的目标知识片段。2.如权利要求1所述的方法,基于至少一个文档的初始文档标题和初始知识片段,生成至少一个文档对应的待处理文档标题信息和待处理知识片段信息,包括:将至少一个文档的初始知识片段和初始文档标题输入至知识片段筛选模型的信息生成模块;获取所述信息生成模块输出的待处理文档标题信息和待处理知识片段信息。3.如权利要求2所述的方法,所述信息生成模块基于如下步骤生成待处理文档标题信息和待处理知识片段信息,包括:确定待处理文档的初始文档标题和初始知识片段;基于所述初始知识片段生成所述初始文档标题对应的待处理文档标题信息;基于所述初始文档标题生成所述初始知识片段对应的待处理知识片段信息。4.如权利要求2所述的方法,基于所述初始知识片段生成所述初始文档标题对应的待处理文档标题信息,包括:确定所述待处理文档的初始文档子标题和向上权重;基于所述向上权重、所述初始知识片段和所述初始文档子标题生成待处理文档子标题信息;根据所述向上权重、所述初始文档标题和所述待处理文档子标题信息生成待处理文档标题信息。5.如权利要求2所述的方法,基于所述初始文档标题生成所述初始知识片段对应的待处理知识片段信息,包括:确定所述待处理文档的初始文档子标题和向下权重;基于所述向下权重、所述初始文档标题和所述初始文档子标题生成待处理文档子标题信息;根据所述向下权重、所述待处理文档子标题信息和所述初始知识片段生成待处理知识片段信息。6.如权利要求2所述的方法,所述信息生成模块基于如下步骤训练获得:获取第一正样本文档和第二正样本文档,其中,所述第一正样本文档中包含第一文档标题和第一知识片段,所述第二正文档中包含第二文档标题和第二知识片段;
将所述第一正样本文档中的第一知识片段替换为第二知识片段,获得第一负样本文档;将所述第二正样本文档中的第二知识片段替换为第一知识片段,获得第二负样本文档;基于所述第一正样本文档、第二正样本文档、第一负样本文档和第二负样本文档对信息生成模块进行训练。7.如权利要求1所述的方法,根据至少一个文档对应的待处理文档标题信息和所述待处理文本,确定至少一个文档对应的文档相似度,包括:确定所述待处理文本对应的语义向量;计算至少一个文档对应的待处理文档标题信息和所述语义向量之间的文档相似度。8....
【专利技术属性】
技术研发人员:张业勤,傅浩敏,余海洋,黄非,李永彬,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。