文本信息处理方法及介质、设备、系统技术方案

技术编号:29526547 阅读:20 留言:0更新日期:2021-08-03 15:12
本发明专利技术实施例提供了文本信息处理方法及介质、设备、系统。所述方法包括建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;基于所述丰富度模型对所述目标文本进行分析,得到丰富度衡量后的文本;根据所述丰富度衡量后的文本确定选定的文本集合。上述技术方案可以提升文本信息处理的效率。

【技术实现步骤摘要】
文本信息处理方法及介质、设备、系统
本专利技术涉及信息处理领域,具体地,涉及文本信息处理方法及介质、设备、系统。
技术介绍
随着数据化时代的到来,越来越多的信息以文本信息的形式呈现。如何从文本信息中高效的挖掘符合预期目标的信息成为亟待解决的问题。该问题呈现在各种领域中。例如,在旅游服务领域,如何挖掘得到符合预期目标的优质文本,已成为该领域中信息服务提供方研究的热点。以旅游服务领域为例,随着互联网技术的发展,在线旅行社(OnlineTravelAgency,OTA)应运而生。OTA指"旅游消费者通过网络向旅游服务提供商预定旅游产品或服务,并通过网上支付或者线下付费,即各旅游主体可以通过网络进行产品营销或产品销售"。OTA的出现将原来传统的旅行社销售模式放到网络平台上,更广泛的传递了线路信息,互动式的交流更方便了客人的咨询和订购。大型的OTA平台积累了大量的用户文本(评论,问答,攻略分享等等)信息。这些信息包含了用户的真实的评价,如何合理运用这些宝贵的信息是众多OTA平台亟待解决的问题。一方面面对上亿级别的数据,传统的人工挑选的方法来挑选产品的优质文本内容,已经不适合现在的技术发展;另一方面技术的快速发展,尤其是自然语言处理(NLP,NaturalLanguageProcessing)方面的机器学习,深度学习等方法,也是的如何处理海量信息成为可能。如何利用机器学习,深度学习并结合传统方法来发现有价值,高品质的文本内容成为OTA亟待解决的技术难题。
技术实现思路
针对现有技术中的问题,本专利技术实施例提供票务信息交互方法,包括:建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;基于所述丰富度模型对所述目标文本进行分析,得到丰富度衡量后的文本;根据所述丰富度衡量后的文本确定选定的文本集合。可选的,对所述目标文本的信息量进行评价包括:利用信息熵、词性以及依存句法中至少一种确定所述目标文本对应的语句信息量。可选的,所述文本信息处理方法还包括:获取指定产品的信息;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价还包括:评价所述目标文本与所述指定产品的内容关联关系。可选的,所述目标文本与所述指定产品的内容关联关系基于实体识别技术以及知识图谱确定。可选的,所述文本信息处理方法还包括:获取所述目标文本对应的应用场景;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价包括:基于所述应用场景对所述目标文本进行评价。可选的,基于所述应用场景对所述目标文本进行评价包括:建立对应不同应用场景的评价维度及评价维度分类模型;基于所述评价维度及评价维度分类模型对所述目标文本进行评价。可选的,在所述建立内容丰富度模型之前还包括:对所述用户的历史文本进行预处理,筛选情感为正向的文本作为所述目标文本。可选的,所述的文本信息处理方法还包括:获取用户的个性化要求;基于所述个性化要求,建立个性化匹配模型;根据所述个性化匹配模型对所述目标文本或所述丰富度衡量后的文本进行匹配,以得到个性化匹配后的结果;所述根据所述丰富度衡量后的文本确定选定的文本集合包括:结合所述个性化匹配后的结果以及所述丰富度衡量后的文本确定选定的文本集合。可选的,所述建立个性化匹配模型包括:采用相同的神经网络结构,分别对所述已标注的训练集和所述个性化要求的个性化表征语句进行向量特征抽取及变换;采用余弦形似度衡量两者之间的相关性得分;利用反向传播方法对模型进行训练,最终满足衡量个性化要求和语句的相关性的模型。可选的,根据所述丰富度衡量后的文本确定选定的文本集合包括:优化所述丰富度衡量后的文本,所述优化包括以下至少一种:进行相似度去重、进行语义匹配以及进行文本优美度判断。可选的,所述根据所述丰富度衡量后的文本确定选定的文本集合包括:对所述丰富度衡量后的文本确进行排序,基于所述排序确定所述选定的文本集合。可选的,所述文本信息处理方法还包括:确定目标应用场景;基于所述文本集合,生成符合所述目标应用场景的文本,或者生成符合所述目标应用场景的文本以及标题。本申请实施例还提供一种文本信息处理系统,用于实现所述的文本信息处理方法,包括:模型建立单元,用于建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;丰富度衡量单元,用于基于所述丰富度模型对所述目标文本进行筛选,得到丰富度衡量后的文本;文本集合确立单元,用于根据所述丰富度衡量后的文本确定选定的文本集合。本申请实施例还提供一种文本信息处理设备,包括:处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的文本信息处理方法的步骤。本申请实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的文本信息处理方法的步骤。本专利技术实施例中的文本信息处理方法通过建立内容丰富度模型,基于内容丰富度模型进行筛选,可以根据丰富度衡量后的文本确定符合需求的文本集合,进而能够大大提升文本筛选的效率,达到节省系统资源的效果。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显。图1是本专利技术实施例中一种文本信息处理方法的流程图;图2是本专利技术实施例中另一种文本信息处理方法的流程图;图3是本专利技术实施例中一种基于应用场景进行评价的流程图;图4是本专利技术实施例中一种建立匹配模型的方法的流程图;图5是是本专利技术实施例中另一种文本信息处理方法的流程图;图6是本专利技术实施例中一种的文本信息处理设备的结构示意图;图7是本专利技术实施例中一文本信息处理系统的结构示意图;以及图8是本专利技术实施例中一种计算机可读存储介质的结构示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本专利技术将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。图1是是本专利技术实施例中的一种文本信息处理方法的流程图。结合参考图1,文本信息处理方法可以包括如下步骤:步骤S11,建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;步骤S12,基于所述丰富度模型对所述目标文本进行分析,得到丰富度衡量后的文本;步骤S13,根据所本文档来自技高网...

【技术保护点】
1.一种文本信息处理方法,其特征在于,包括:/n建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;/n基于所述丰富度模型对所述目标文本进行分析,得到丰富度衡量后的文本;/n根据所述丰富度衡量后的文本确定选定的文本集合。/n

【技术特征摘要】
1.一种文本信息处理方法,其特征在于,包括:
建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;
基于所述丰富度模型对所述目标文本进行分析,得到丰富度衡量后的文本;
根据所述丰富度衡量后的文本确定选定的文本集合。


2.根据权利要求1所述的文本信息处理方法,其特征在于,对所述目标文本的信息量进行评价包括:利用信息熵、词性以及依存句法中至少一种确定所述目标文本对应的语句信息量。


3.根据权利要求1所述的文本信息处理方法,其特征在于,所述文本信息处理方法还包括:获取指定产品的信息;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价还包括:评价所述目标文本与所述指定产品的内容关联关系。


4.根据权利要求3所述的文本信息处理方法,其特征在于,所述目标文本与所述指定产品的内容关联关系基于实体识别技术以及知识图谱确定。


5.根据权利要求1所述的文本信息处理方法,其特征在于,所述文本信息处理方法还包括:获取所述目标文本对应的应用场景;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价包括:基于所述应用场景对所述目标文本进行评价。


6.根据权利要求5所述的文本信息处理方法,其特征在于,基于所述应用场景对所述目标文本进行评价包括:
建立对应不同应用场景的评价维度及评价维度分类模型;
基于所述评价维度及评价维度分类模型对所述目标文本进行评价。


7.根据权利要求1所述的文本信息处理方法,其特征在于,在所述建立内容丰富度模型之前还包括:对所述用户的历史文本进行预处理,筛选情感为正向的文本作为所述目标文本。


8.根据权利要求1所述的文本信息处理方法,其特征在于,还包括:
获取用户的个性化要求;
基于所述个性化要求,建立个性化匹配模型;
根据所述个性化匹配模型对所述目标文本或所述丰富度衡量后的文本进行匹配,以得到个性化匹配后的结果;
所述根据所述丰富度衡量后的文本确定选定的文本集合包括:结合所述个性化匹配后的结果以及所述...

【专利技术属性】
技术研发人员:朱登龙邹宇何蜀波孙玉霞刘新刘洋余迁
申请(专利权)人:携程旅游信息技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1