文本处理方法、装置、计算机程序产品、设备及存储介质制造方法及图纸

技术编号：37632029 阅读：13 留言：0更新日期：2023-05-20 08:52

本申请实施例公开了一种文本处理方法、装置、计算机程序产品、设备及存储介质，其中文本处理方法包括：获取在历史提供文本响应服务的过程中，所产生的文本输入日志；并从文本输入日志中获取M个候选输入文本，M为大于1的整数；对M个候选输入文本进行聚类处理，得到一个或多个聚类文本组；并分别在每个聚类文本组中选取一个或多个候选输入文本作为目标输入文本；获取响应文本集，并在响应文本集中为每个目标输入文本选取一个或多个响应文本；分别采用各个目标输入文本和相应的响应文本进行文本对的构建，得到多个文本对，以基于多个文本对提供文本响应服务。本申请实施例可选取具有代表性且覆盖率较高的目标输入文本以构建多个文本对。本对。本对。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、计算机程序产品、设备及存储介质

[0001]本申请涉及互联网
，具体涉及计算机
，尤其涉及一种文本处理方法、装置、计算机程序产品、设备及存储介质。

技术介绍

[0002]目前，随着互联网技术的持续发展，人机交互(Human
‑
Computer Interaction，HCI)已被广泛应用，所谓的人机交互是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换过程。在人机交互过程中，用户可将输入文本输入至计算机设备，那么计算机设备可以检测到用户输入的输入文本，从而在数据库包含的所有文本对中查询并输出用于响应该输入文本的响应文本。基于此，如何构建存入数据库中的文本对成为了研究热点。

技术实现思路

[0003]本专利技术实施例提供了一种文本处理方法、装置、计算机程序产品、设备及存储介质，可以选取具有代表性且覆盖率较高的目标输入文本以构建多个文本对，从而基于构建的多个文本对提供文本响应服务。
[0004]一方面，本申请实施例提供了一种文本处理方法，所述方法包括：
[0005]获取在历史提供文本响应服务的过程中，所产生的文本输入日志；并从所述文本输入日志中获取M个候选输入文本，M为大于1的整数；
[0006]对所述M个候选输入文本进行聚类处理，得到一个或多个聚类文本组；并分别在每个聚类文本组中选取一个或多个候选输入文本作为目标输入文本；
[0007]获取响应文本集，并在所述响应文本集中为每个目...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：获取在历史提供文本响应服务的过程中，所产生的文本输入日志；并从所述文本输入日志中获取M个候选输入文本，M为大于1的整数；对所述M个候选输入文本进行聚类处理，得到一个或多个聚类文本组；并分别在每个聚类文本组中选取一个或多个候选输入文本作为目标输入文本；获取响应文本集，并在所述响应文本集中为每个目标输入文本选取一个或多个响应文本；分别采用各个目标输入文本和相应的响应文本进行文本对的构建，得到多个文本对，以基于所述多个文本对提供所述文本响应服务。2.根据权利要求1所述的方法，其特征在于，所述对所述M个候选输入文本进行聚类处理，得到一个或多个聚类文本组，包括：对所述M个候选输入文本中的每个候选输入文本进行语义成分分析，得到所述每个候选输入文本的语义成分；任一候选输入文本的语义成分包括以下至少一项：意图类型和实体信息；按照语义成分相匹配的候选输入文本被划分至一个文本组的原则，根据所述每个候选输入文本的语义成分对所述M个候选输入文本进行分组处理，得到一个或多个聚类文本组。3.根据权利要求1所述的方法，其特征在于，所述在所述响应文本集中为每个目标输入文本选取一个或多个响应文本，包括：遍历各个目标输入文本，并将当前遍历的目标输入文本作为当前目标输入文本；对所述当前目标输入文本进行语义分析，得到所述当前目标输入文本的语义向量；并对所述响应文本集中的各个响应文本进行语义分析，得到所述各个响应文本的语义向量；基于所述当前目标输入文本的语义向量和所述各个响应文本的语义向量，计算所述当前目标输入文本和所述各个响应文本之间的匹配度；从所述响应文本集中召回匹配度大于匹配度阈值的响应文本，作为所述当前目标输入文本对应的响应文本。4.根据权利要求1所述的方法，其特征在于，所述分别采用各个目标输入文本和相应的响应文本进行文本对的构建，得到多个文本对，包括：针对任一目标输入文本，扫描所述任一目标输入文本对应的各个响应文本，并确定当前扫描的当前响应文本；对所述当前响应文本进行阅读理解，以从所述当前响应文本中提取出用于响应所述任一目标输入文本的文本片段；在扫描完所述任一目标输入文本对应的各个响应文本后，得到H个文本片段，H的取值等于所述任一目标输入文本对应的响应文本的数量；采用所述H个文本片段和所述任一目标输入文本，构建至少一个文本对；一个文本对中包括一个文本片段和所述任一目标输入文本。5.根据权利要求4所述的方法，其特征在于，所述H个文本片段中的任一文本片段均具有一个置信度；所述采用所述H个文本片段和所述任一目标输入文本，构建至少一个文本对，包括：从所述H个文本片段中，选取置信度大于置信度阈值的P个文本片段，P∈[1，H]；
分别采用所述P个文本片段中的每个文本片段和所述任一目标输入文本，构建一个文本对，...

【专利技术属性】
技术研发人员：邵纪春，赵创钿，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人