文本处理方法及装置制造方法及图纸

技术编号:38005310 阅读:13 留言:0更新日期:2023-06-30 10:20
本说明书实施例提供文本处理方法及装置,其中所述文本处理方法包括:获取文档集合和待处理文本;基于至少一个文档的初始文档标题和初始知识片段,生成至少一个文档对应的待处理文档标题信息和待处理知识片段信息,其中,待处理文档标题信息包含初始知识片段,待处理知识片段信息包含初始文档标题;根据至少一个文档对应的待处理文档标题信息和待处理文本,确定至少一个文档对应的文档相似度;根据至少一个文档对应的待处理知识片段信息和待处理文本,确定至少一个初始知识片段对应的知识片段相似度;基于至少一个文档对应的文档相似度和至少一个初始知识片段对应的知识片段相似度确定待处理文本对应的目标知识片段。确定待处理文本对应的目标知识片段。确定待处理文本对应的目标知识片段。

【技术实现步骤摘要】
文本处理方法及装置


[0001]本说明书实施例涉及计算机
,特别涉及文本处理方法。

技术介绍

[0002]随着计算机技术的不断发展,用户可以通过计算机进行文本数据对应的相关数据的查询;为了提升查询结果的准确性,通常需要从文本自身所表达的含义对文本数据进行转换,得到对应的文本表示信息,使得文本表示信息之间存在较大的区分,便于对文本数据进行定位。
[0003]然而,采用上述方法仅考虑了文本数据的自身信息,并未考虑文本数据在文档中的文本结构信息,导致文本表示信息不够准确,进而影响在文档中对目标文本的相关数据进行定位的准确性。
[0004]因此,如何在考虑文本的文本结构信息的基础上,完成对目标文本在文档中的准确定位,成为本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]有鉴于此,本说明书实施例提供了文本处理方法。本说明书一个或者多个实施例同时涉及文本处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0006]根据本说明书实施例的第一方面,提供了一种文本处理方法,包括:
[0007]获取文档集合和待处理文本,其中,所述文档集合中的至少一个文档均包含初始文档标题和初始知识片段;
[0008]基于至少一个文档的初始文档标题和初始知识片段,生成至少一个文档对应的待处理文档标题信息和待处理知识片段信息,其中,所述待处理文档标题信息包含所述初始知识片段,所述待处理知识片段信息包含所述初始文档标题;
[0009]根据至少一个文档对应的待处理文档标题信息和所述待处理文本,确定至少一个文档对应的文档相似度;
[0010]根据至少一个文档对应的待处理知识片段信息和所述待处理文本,确定至少一个初始知识片段对应的知识片段相似度;
[0011]基于至少一个文档对应的文档相似度和至少一个初始知识片段对应的知识片段相似度确定所述待处理文本对应的目标知识片段。
[0012]根据本说明书实施例的第二方面,提供了一种文本处理装置,包括:
[0013]获取模块,被配置为获取文档集合和待处理文本,其中,所述文档集合中的至少一个文档均包含初始文档标题和初始知识片段;
[0014]生成模块,被配置为基于至少一个文档的初始文档标题和初始知识片段,生成至少一个文档对应的待处理文档标题信息和待处理知识片段信息,其中,所述待处理文档标题信息包含所述初始知识片段,所述待处理知识片段信息包含所述初始文档标题;
[0015]第一确定模块,被配置为根据至少一个文档对应的待处理文档标题信息和所述待处理文本,确定至少一个文档对应的文档相似度;
[0016]第二确定模块,被配置为根据至少一个文档对应的待处理知识片段信息和所述待处理文本,确定至少一个初始知识片段对应的知识片段相似度
[0017]第三确定模块,被配置为基于至少一个文档对应的文档相似度和至少一个初始知识片段对应的知识片段相似度确定所述待处理文本对应的目标知识片段。
[0018]根据本说明书实施例的第三方面,提供了一种问句答案的确定方法,包括:
[0019]获取文档集合和待处理问句,其中,所述文档集合中的至少一个文档均包含初始文档标题和初始知识片段;
[0020]基于至少一个文档的初始文档标题和初始知识片段,生成至少一个文档对应的待处理文档标题信息和待处理知识片段信息,其中所述待处理文档标题信息包含所述初始知识片段,所述待处理知识片段信息包含所述初始文档标题;
[0021]根据至少一个文档对应的待处理文档标题信息和所述待处理问句,生成至少一个文档对应的文档相似度;
[0022]根据至少一个文档对应待处理知识片段信息和所述待处理文本,确定至少一个初始知识片段对应的知识片段相似度;
[0023]基于至少一个文档对应的文档相似度和至少一个初始知识片段对应的知识片段相似度确定所述待处理问句对应的答案知识片段。
[0024]根据本说明书实施例的第四方面,提供了一种问句答案的确定装置,包括:
[0025]获取模块,被配置为获取文档集合和待处理问句,其中,所述文档集合中的至少一个文档均包含初始文档标题和初始知识片段;
[0026]生成模块,被配置为基于至少一个文档的初始文档标题和初始知识片段,生成至少一个文档对应的待处理文档标题信息和待处理知识片段信息,其中所述待处理文档标题信息包含所述初始知识片段,所述待处理知识片段信息包含所述初始文档标题;
[0027]第一确定模块,被配置为根据至少一个文档对应的待处理文档标题信息和所述待处理问句,生成至少一个文档对应的文档相似度;
[0028]第二确定模块,被配置为根据至少一个文档对应待处理知识片段信息和所述待处理文本,确定至少一个初始知识片段对应的知识片段相似度
[0029]第三确定模块,被配置为基于至少一个文档对应的文档相似度和至少一个初始知识片段对应的知识片段相似度确定所述待处理问句对应的答案知识片段。
[0030]根据本说明书实施例的第五方面,提供了一种计算设备,包括:
[0031]存储器和处理器;
[0032]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法的步骤。
[0033]根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述文本处理方法的步骤。
[0034]根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述文本处理方法的步骤。
[0035]本说明书一个实施例实现了,获取文档集合和待处理文本,其中,所述文档集合中
的至少一个文档均包含初始文档标题和初始知识片段;基于至少一个文档的初始文档标题和初始知识片段,生成至少一个文档对应的待处理文档标题信息和待处理知识片段信息,其中,所述待处理文档标题信息包含所述初始知识片段,所述待处理知识片段信息包含所述初始文档标题;根据至少一个文档对应的待处理文档标题信息和所述待处理文本,确定至少一个文档对应的文档相似度;根据至少一个文档对应的待处理知识片段信息和所述待处理文本,确定至少一个初始知识片段对应的知识片段相似度;基于至少一个文档对应的文档相似度和至少一个初始知识片段对应的知识片段相似度确定所述待处理文本对应的目标知识片段。
[0036]本说明书的文本处理方法,计算至少一个文档与待处理文本的文档相似度,从而确定至少一个文档与待处理文本之间的关联程度;进而计算至少一个文档的知识片段与待处理文本的知识片段相似度,从而确定知识片段与待处理文本之间的关联程度;由于至少一个文档对应的待处理文档标题信息中包含初始知识片段的内容,在至少一个文档对应的待处理知识片段中包含初始文档标题的内容,故实现了基于文档结构进行目标知识片段的筛选,提升了筛选准确性。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:获取文档集合和待处理文本,其中,所述文档集合中的至少一个文档包含初始文档标题和初始知识片段;基于至少一个文档的初始文档标题和初始知识片段,生成至少一个文档对应的待处理文档标题信息和待处理知识片段信息,其中,所述待处理文档标题信息包含所述初始知识片段,所述待处理知识片段信息包含所述初始文档标题;根据至少一个文档对应的待处理文档标题信息和所述待处理文本,确定至少一个文档对应的文档相似度;根据至少一个文档对应的待处理知识片段信息和所述待处理文本,确定至少一个初始知识片段对应的知识片段相似度;基于至少一个文档对应的文档相似度和至少一个初始知识片段对应的知识片段相似度确定所述待处理文本对应的目标知识片段。2.如权利要求1所述的方法,基于至少一个文档的初始文档标题和初始知识片段,生成至少一个文档对应的待处理文档标题信息和待处理知识片段信息,包括:将至少一个文档的初始知识片段和初始文档标题输入至知识片段筛选模型的信息生成模块;获取所述信息生成模块输出的待处理文档标题信息和待处理知识片段信息。3.如权利要求2所述的方法,所述信息生成模块基于如下步骤生成待处理文档标题信息和待处理知识片段信息,包括:确定待处理文档的初始文档标题和初始知识片段;基于所述初始知识片段生成所述初始文档标题对应的待处理文档标题信息;基于所述初始文档标题生成所述初始知识片段对应的待处理知识片段信息。4.如权利要求2所述的方法,基于所述初始知识片段生成所述初始文档标题对应的待处理文档标题信息,包括:确定所述待处理文档的初始文档子标题和向上权重;基于所述向上权重、所述初始知识片段和所述初始文档子标题生成待处理文档子标题信息;根据所述向上权重、所述初始文档标题和所述待处理文档子标题信息生成待处理文档标题信息。5.如权利要求2所述的方法,基于所述初始文档标题生成所述初始知识片段对应的待处理知识片段信息,包括:确定所述待处理文档的初始文档子标题和向下权重;基于所述向下权重、所述初始文档标题和所述初始文档子标题生成待处理文档子标题信息;根据所述向下权重、所述待处理文档子标题信息和所述初始知识片段生成待处理知识片段信息。6.如权利要求2所述的方法,所述信息生成模块基于如下步骤训练获得:获取第一正样本文档和第二正样本文档,其中,所述第一正样本文档中包含第一文档标题和第一知识片段,所述第二正文档中包含第二文档标题和第二知识片段;
将所述第一正样本文档中的第一知识片段替换为第二知识片段,获得第一负样本文档;将所述第二正样本文档中的第二知识片段替换为第一知识片段,获得第二负样本文档;基于所述第一正样本文档、第二正样本文档、第一负样本文档和第二负样本文档对信息生成模块进行训练。7.如权利要求1所述的方法,根据至少一个文档对应的待处理文档标题信息和所述待处理文本,确定至少一个文档对应的文档相似度,包括:确定所述待处理文本对应的语义向量;计算至少一个文档对应的待处理文档标题信息和所述语义向量之间的文档相似度。8....

【专利技术属性】
技术研发人员:张业勤傅浩敏余海洋黄非李永彬
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1