文本处理方法、装置、计算机程序产品、设备及存储介质制造方法及图纸

技术编号:37632029 阅读:13 留言:0更新日期:2023-05-20 08:52
本申请实施例公开了一种文本处理方法、装置、计算机程序产品、设备及存储介质,其中文本处理方法包括:获取在历史提供文本响应服务的过程中,所产生的文本输入日志;并从文本输入日志中获取M个候选输入文本,M为大于1的整数;对M个候选输入文本进行聚类处理,得到一个或多个聚类文本组;并分别在每个聚类文本组中选取一个或多个候选输入文本作为目标输入文本;获取响应文本集,并在响应文本集中为每个目标输入文本选取一个或多个响应文本;分别采用各个目标输入文本和相应的响应文本进行文本对的构建,得到多个文本对,以基于多个文本对提供文本响应服务。本申请实施例可选取具有代表性且覆盖率较高的目标输入文本以构建多个文本对。本对。本对。

【技术实现步骤摘要】
文本处理方法、装置、计算机程序产品、设备及存储介质


[0001]本申请涉及互联网
,具体涉及计算机
,尤其涉及一种文本处理方法、装置、计算机程序产品、设备及存储介质。

技术介绍

[0002]目前,随着互联网技术的持续发展,人机交互(Human

Computer Interaction,HCI)已被广泛应用,所谓的人机交互是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。在人机交互过程中,用户可将输入文本输入至计算机设备,那么计算机设备可以检测到用户输入的输入文本,从而在数据库包含的所有文本对中查询并输出用于响应该输入文本的响应文本。基于此,如何构建存入数据库中的文本对成为了研究热点。

技术实现思路

[0003]本专利技术实施例提供了一种文本处理方法、装置、计算机程序产品、设备及存储介质,可以选取具有代表性且覆盖率较高的目标输入文本以构建多个文本对,从而基于构建的多个文本对提供文本响应服务。
[0004]一方面,本申请实施例提供了一种文本处理方法,所述方法包括:
[0005]获取在历史提供文本响应服务的过程中,所产生的文本输入日志;并从所述文本输入日志中获取M个候选输入文本,M为大于1的整数;
[0006]对所述M个候选输入文本进行聚类处理,得到一个或多个聚类文本组;并分别在每个聚类文本组中选取一个或多个候选输入文本作为目标输入文本;
[0007]获取响应文本集,并在所述响应文本集中为每个目标输入文本选取一个或多个响应文本;
[0008]分别采用各个目标输入文本和相应的响应文本进行文本对的构建,得到多个文本对,以基于所述多个文本对提供所述文本响应服务。
[0009]另一方面,本申请实施例提供了一种文本处理装置,所述装置包括:
[0010]获取单元,用于获取在历史提供文本响应服务的过程中,所产生的文本输入日志;并从所述文本输入日志中获取M个候选输入文本,M为大于1的整数;
[0011]聚类单元,用于对所述M个候选输入文本进行聚类处理,得到一个或多个聚类文本组;并分别在每个聚类文本组中选取一个或多个候选输入文本作为目标输入文本;
[0012]所述获取单元,还用于获取响应文本集,并在所述响应文本集中为每个目标输入文本选取一个或多个响应文本;
[0013]构建单元,用于分别采用各个目标输入文本和相应的响应文本进行文本对的构建,得到多个文本对,以基于所述多个文本对提供所述文本响应服务。
[0014]再一方面,本申请实施例提供了一种计算机程序产品,所述计算机程序被处理器执行时实现如下步骤:
[0015]获取在历史提供文本响应服务的过程中,所产生的文本输入日志;并从所述文本输入日志中获取M个候选输入文本,M为大于1的整数;
[0016]对所述M个候选输入文本进行聚类处理,得到一个或多个聚类文本组;并分别在每个聚类文本组中选取一个或多个候选输入文本作为目标输入文本;
[0017]获取响应文本集,并在所述响应文本集中为每个目标输入文本选取一个或多个响应文本;
[0018]分别采用各个目标输入文本和相应的响应文本进行文本对的构建,得到多个文本对,以基于所述多个文本对提供所述文本响应服务。
[0019]再一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如下步骤:
[0020]获取在历史提供文本响应服务的过程中,所产生的文本输入日志;并从所述文本输入日志中获取M个候选输入文本,M为大于1的整数;
[0021]对所述M个候选输入文本进行聚类处理,得到一个或多个聚类文本组;并分别在每个聚类文本组中选取一个或多个候选输入文本作为目标输入文本;
[0022]获取响应文本集,并在所述响应文本集中为每个目标输入文本选取一个或多个响应文本;
[0023]分别采用各个目标输入文本和相应的响应文本进行文本对的构建,得到多个文本对,以基于所述多个文本对提供所述文本响应服务。
[0024]再一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如下步骤:
[0025]获取在历史提供文本响应服务的过程中,所产生的文本输入日志;并从所述文本输入日志中获取M个候选输入文本,M为大于1的整数;
[0026]对所述M个候选输入文本进行聚类处理,得到一个或多个聚类文本组;并分别在每个聚类文本组中选取一个或多个候选输入文本作为目标输入文本;
[0027]获取响应文本集,并在所述响应文本集中为每个目标输入文本选取一个或多个响应文本;
[0028]分别采用各个目标输入文本和相应的响应文本进行文本对的构建,得到多个文本对,以基于所述多个文本对提供所述文本响应服务。
[0029]本申请实施例可从文本输入日志中获取M个候选输入文本,并对M个候选输入文本进行聚类处理,从而分别在聚类得到的每个聚类文本组中选取一个或多个候选输入文本作为目标输入文本,每个目标输入文本用于代表相应聚类文本组所对应的类别下的各个候选输入文本。然后,可在响应文本集中为每个目标输入文本选取一个或多个响应文本,从而采用各个目标输入文本和相应的响应文本进行文本对的构建,得到多个文本对。可见,本申请实施例在文本对的构建过程中,可通过聚类处理和文本选取操作实现对输入文本的选取优化。通过选取具有代表性的目标输入文本来进行文本对的构建,可使得构建得到的文本对适用于目标输入文本所属类别下的各个输入文本,在一定程度上提升文本对的覆盖率;并且,这样可无需对同一类别下的各个输入文本均执行文本对的构建操作,可有效节省处理资源。进一步的,由于文本输入日志是历史提供文本响应服务的过程中所产生的,因此文本
输入日志可覆盖大量的真实输入文本,那么基于文本输入日志所得到的目标输入文本不仅是真实的,还可具有较高的覆盖率,从而可提升基于目标输入文本所构建的文本对的覆盖率,进而使得在将多个文本对添加至数据库后,提高数据库的覆盖度。
附图说明
[0030]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]图1a是本申请实施例提供的一种文本处理方案的流程示意图;
[0032]图1b是本申请实施例提供的一种文本响应服务的示意图;
[0033]图2是本申请实施例提供的一种文本处理方法的流程示意图;
[0034]图3是本申请实施例提供的另一种文本处理方法的流程示意图;
[0035]图4是本申请实施例提供的一种语义成分分析过程的示意图;
[0036]图5是本申请实施例提供的一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取在历史提供文本响应服务的过程中,所产生的文本输入日志;并从所述文本输入日志中获取M个候选输入文本,M为大于1的整数;对所述M个候选输入文本进行聚类处理,得到一个或多个聚类文本组;并分别在每个聚类文本组中选取一个或多个候选输入文本作为目标输入文本;获取响应文本集,并在所述响应文本集中为每个目标输入文本选取一个或多个响应文本;分别采用各个目标输入文本和相应的响应文本进行文本对的构建,得到多个文本对,以基于所述多个文本对提供所述文本响应服务。2.根据权利要求1所述的方法,其特征在于,所述对所述M个候选输入文本进行聚类处理,得到一个或多个聚类文本组,包括:对所述M个候选输入文本中的每个候选输入文本进行语义成分分析,得到所述每个候选输入文本的语义成分;任一候选输入文本的语义成分包括以下至少一项:意图类型和实体信息;按照语义成分相匹配的候选输入文本被划分至一个文本组的原则,根据所述每个候选输入文本的语义成分对所述M个候选输入文本进行分组处理,得到一个或多个聚类文本组。3.根据权利要求1所述的方法,其特征在于,所述在所述响应文本集中为每个目标输入文本选取一个或多个响应文本,包括:遍历各个目标输入文本,并将当前遍历的目标输入文本作为当前目标输入文本;对所述当前目标输入文本进行语义分析,得到所述当前目标输入文本的语义向量;并对所述响应文本集中的各个响应文本进行语义分析,得到所述各个响应文本的语义向量;基于所述当前目标输入文本的语义向量和所述各个响应文本的语义向量,计算所述当前目标输入文本和所述各个响应文本之间的匹配度;从所述响应文本集中召回匹配度大于匹配度阈值的响应文本,作为所述当前目标输入文本对应的响应文本。4.根据权利要求1所述的方法,其特征在于,所述分别采用各个目标输入文本和相应的响应文本进行文本对的构建,得到多个文本对,包括:针对任一目标输入文本,扫描所述任一目标输入文本对应的各个响应文本,并确定当前扫描的当前响应文本;对所述当前响应文本进行阅读理解,以从所述当前响应文本中提取出用于响应所述任一目标输入文本的文本片段;在扫描完所述任一目标输入文本对应的各个响应文本后,得到H个文本片段,H的取值等于所述任一目标输入文本对应的响应文本的数量;采用所述H个文本片段和所述任一目标输入文本,构建至少一个文本对;一个文本对中包括一个文本片段和所述任一目标输入文本。5.根据权利要求4所述的方法,其特征在于,所述H个文本片段中的任一文本片段均具有一个置信度;所述采用所述H个文本片段和所述任一目标输入文本,构建至少一个文本对,包括:从所述H个文本片段中,选取置信度大于置信度阈值的P个文本片段,P∈[1,H];
分别采用所述P个文本片段中的每个文本片段和所述任一目标输入文本,构建一个文本对,...

【专利技术属性】
技术研发人员:邵纪春赵创钿
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1