文本处理方法、设备和存储介质技术

技术编号：39434131 阅读：12 留言：0更新日期：2023-11-19 16:17

本发明专利技术实施例提供一种文本处理方法、设备和存储介质，该方法包括：处理设备获取目标场景下的待处理文本，并利用同样适用于该目标场景文本分析模型对待处理文本进行分析，即得到待处理文本包含的三元组。三元组包括待处理文本中的主体词、该主体的修饰词以及此修饰词的情感类型。其中，适用于目标场景的文本分析模型可以利用原始场景对应的第一训练文本、第一训练文本的标签、以及目标场景对应的第二训练文本、第二训练文本对应的伪标签训练得到。上述方法中，可以利用原始场景对应的、经过人工标注的第一训练文本以及目标场景对应的、无需人工标注的第二训练样本扩展文本分析模型的使用场景，即扩展文本分析的使用场景。即扩展文本分析的使用场景。即扩展文本分析的使用场景。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、设备和存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种文本处理方法、设备和存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing,简称NLP)是计算机科学领域与人工智能领域中的一个重要方向，其已经有了广泛应用，比如可以使用基于NLP的文本分析模型对文本进行分析。当不同用户对同一目标对象产生评价文本时，使用文本分析模型对此评价文本进行分析能够得到不同用户对此目标对象的好恶倾向。并且在不同场景中目标对象可以不同，目标对象比如可以是出行场景中的某一酒店、某一景点、也可以是外卖场景中的某一餐馆、餐馆中的某一美食等等，也可以是新闻场景中的某一热点事件等等。
[0003]然而在实际中，文本分析模型的适用场景往往有限，因此，如何扩展模型的适用场景就成为一个亟待解决的问题。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供一种文本处理方法、设备和存储介质，用以扩展模型的适用场景。
[0005]第一方面，本专利技术实施例提供一种文本处理方法，包括：
[0006]获取目标场景对应的待处理文本；
[0007]将所述待处理文本输入适用于所述目标场景的文本分析模型，以由所述文本分析模型输出所述待处理文本包含的三元组，所述三元组包括所述待处理文本中的主体词、所述主体词的修饰词以及所述修饰词的情感极性；
[0008]其中，适用于所述目标场景的文本分析模型利用原始场景对应的第一训练文本、所述第一训练文本的标...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：获取目标场景对应的待处理文本；将所述待处理文本输入适用于所述目标场景的文本分析模型，以由所述文本分析模型输出所述待处理文本包含的三元组，所述三元组包括所述待处理文本中的主体词、所述主体词的修饰词以及所述修饰词的情感极性；其中，适用于所述目标场景的文本分析模型利用原始场景对应的第一训练文本、所述第一训练文本的标签、所述目标场景对应的第二训练文本以及所述第二训练文本的伪标签对适用于所述原始场景的文本分析模型进行训练后得到，所述标签和所述伪标签为三元组形式。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：将所述第一训练文本作为训练数据，将所述第一训练文本的标签作为监督信息进行训练，以得到适用于所述原始场景的文本分析模型。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述第二训练文本的伪标签，所述伪标签由适用于所述原始场景的文本分析模型输出；将所述第一训练文本以及所述第二训练文本作为训练数据，将所述第一训练文本的标签以及所述第二训练文本的伪标签作为监督信息，训练所述原始场景的文本分析模型，以得到适用于所述目标场景的文本分析模型。4.根据权利要求1所述的方法，其特征在于，文本分析模型包括生成模型；所述方法还包括：将所述第二训练文本输入适用于所述原始场景的文本分析模型，以由适用于所述原始场景的文本分析模型输出伪标签集合，所述伪标签集合中的各伪标签包括适用于所述原始场景的文本分析模型在不同时间步上分别生成的多个词语的组合结果，在任一时间步上生成的多个词语对应于不同置信度；在所述伪标签集合中，确定所述第二训练文本的伪标签。5.根据权利要求1所述的方法，其特征在于，文本分析模型包括生成模型；所述方法还包括：将所述第二训练文本输入适用于所述原始场景的文本分析模型，以由适用于所述原始场景的文本分析模型输出伪标签集合，所述伪标签集合中的各伪标签包括适用于所述原始场景的文本分析模型在不同时间步上分别生成的目标词语的组合结果，在任一时间步上生成的目标词语根据在所述任一时间步上生成不同词语各自对应的置信度确定得到；在所述伪标签集合中，确定所述第二训练文本的伪标签。6.根据权利要求4或5所述的方法，其特征在于，所述在所述伪标签集合中，确定所述第二训练文本的伪标签，包括：按照所述伪标签集合中各伪标签的出现频率，对所述伪标签集合中的伪标签进行筛选；将筛选出的伪标签作为所述第二训练文本的伪标签。7.根据权利要求1所述的方法，其特征在于，所述方法还包括：利用预设转换函数，将所述待处理文本包含的三元组进行格式转换，转换后的三元组
包括所述主体词、所述修饰词各自在所述待处理文本中的位置，以及所述修饰词的情感极性。8.一种文本处理方法，其特征在于，包括：获取用户输入的目标场景对应的待处理文本；将所述待处理文本输入适用于所述目标场景的文本分析模型，以由所述文本分...

【专利技术属性】
技术研发人员：谢耀赓，陈桂臻，邴立东，玛哈妮，赛赞亚波利亚，陈晖，韩炜，
申请(专利权)人：新加坡科技设计大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人