System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本观点识别方法、装置、存储介质及电子设备制造方法及图纸_技高网

文本观点识别方法、装置、存储介质及电子设备制造方法及图纸

技术编号:43110081 阅读:3 留言:0更新日期:2024-10-26 09:50
本公开提供了一种文本观点识别方法、装置、存储介质及电子设备,涉及计算机技术领域。该方法包括:获取待识别文本包含的目标短句;将目标短句输入至属性分类模型,获得目标短句的语义向量和属性分类信息;从文本观点标签库中提取出与目标短句的属性分类信息相同的可选文本短句,该文本观点标签库为利用属性分类模型构建的标签库;计算目标短句与可选文本短句的相似度,根据计算的相似度识别目标短句的观点标签,根据目标短句的观点标签确定待识别文本的观点标签。该方法能够区分不同属性分类的短句,实现细粒度观点的识别,还能够减少人工成本,降低开发和维护难度。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种文本观点识别的方法、文本观点识别的装置、计算机可读存储介质及电子设备。


技术介绍

1、用户发声文本是一类重要的用户反馈数据,其中蕴含了用户对产品和服务的观点信息,通过挖掘和分析用户观点信息,可以帮助平台改善产品和服务的质量。

2、相关技术中,利用通用模型对高频的短句编码和聚类,人工对聚类得到的簇归纳标签,获得用户观点数据库;然后,借助用户观点数据库构建标签分类模型,利用标签分类模型预测用户发声文本的用户观点。

3、然而,直接利用通用模型进行编码和聚类,会导致聚类得到的簇粒度比较粗,难以识别观点细微的差别,也无法区不同属性分类的短句,另外需要由人工归纳标签,对标注人员专业度要求更高;采用标签分类模型来预测观点,需要额外标注训练数据和维护模型,开发和维护难度大。

4、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本公开的目的在于提供一种文本观点识别的方法、文本观点识别的装置、计算机可读存储介质及电子设备,能够区分不同属性分类的短句,实现细粒度观点的识别,还能够减少人工成本,降低开发和维护难度。

2、本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

3、根据本公开的一个方面,提供一种文本观点识别的方法,包括:获取待识别文本,将所述待识别文本切分为一个或多个目标短句;将所述目标短句输入至预先训练的属性分类模型,获得所述目标短句的语义向量和所述目标短句的属性分类信息;根据所述目标短句的属性分类信息,从预先构建的文本观点标签库中提取出可选文本短句;其中,所述文本观点标签库为利用所述属性分类模型构建的标签库,所述可选文本短句的属性分类信息与所述目标短句的属性分类信息相同;根据所述目标语句的语义向量,计算所述目标短句与所述可选文本短句的相似度,根据计算的相似度识别所述目标短句的观点标签;根据所述目标短句的观点标签,确定所述待识别文本的观点标签。

4、在本公开可选实施例中,所述方法还包括按照如下方法预先训练生成所述属性分类模型:获取样本文本和所述样本文本的属性分类标签;将所述样本文本依次输入至第一编码器和分类器,获得所述样本文本的第一语义向量、所述样本文本的第二语义向量、所述样本文本在不同属性分类下的概率和所述样本文本的属性分类信息;根据所述样本文本的第一语义向量、所述样本文本的第二语义向量、所述样本文本在不同属性分类下的概率、所述样本文本的属性分类信息和所述样本文本的属性分类标签,计算模型损失值;根据所述模型损失值调整模型参数,直至计算得到的模型损失值小于预设值,生成所述属性分类模型。

5、在本公开可选实施例中,所述根据所述样本文本的第一语义向量、所述样本文本的第二语义向量、所述样本文本在不同属性分类下的概率、所述样本文本的属性分类信息和所述样本文本的属性分类标签,计算模型损失值,包括:根据所述样本文本的属性分类标签、所述样本文本在不同属性分类下的概率和所述样本文本的属性分类信息,计算交叉熵损失值;根据所述样本文本的第一语义向量、所述样本文本的第二语义向量和历史向量,计算自对比学习损失值;其中,所述历史向量为从向量队列中提取的向量,所述向量队列用于存储通过第二编码器输出的语义向量,所述第二编码器为根据所述第一编码器的参数更新参数的编码器;根据所述交叉熵损失值和所述自对比学习损失值,计算所述模型损失值。

6、在本公开可选实施例中,所述根据所述模型损失值调整模型参数,直至计算得到的模型损失值小于预设值,生成所述属性分类模型,包括:根据所述模型损失值调整所述第一编码器的参数、所述分类器的参数和所述第二编码器的参数,直至计算得到的模型损失值小于预设值,得到训练完成的第一编码器、训练完成的分类器和训练完成的第二编码器;根据所述训练完成的第一编码器、所述训练完成的分类器和所述训练完成的第二编码器,生成所述属性分类模型。

7、在本公开可选实施例中,所述将所述样本文本依次输入至第一编码器和分类器,获得所述样本文本的第一语义向量、所述样本文本的第二语义向量、所述样本文本在不同属性分类下的概率和所述样本文本的属性分类信息,包括:将所述样本文本输入至所述第一编码器,通过所述第一编码器的中间层输出所述样本文本的第一语义向量,通过所述第一编码器的最后一层输出所述样本文本的第二语义向量;将所述样本文本的第一语义向量输入至所述分类器,获得所述样本文本在不同属性分类下的第一概率和所述样本文本的第一属性分类信息;将所述样本文本的第二语义向量输入至所述分类器,获得所述样本文本在不同属性分类下的第二概率和所述样本文本的第二属性分类信息。

8、在本公开可选实施例中,所述根据所述样本文本的属性分类标签、所述样本文本在不同属性分类下的概率和所述样本文本的属性分类信息,计算交叉熵损失值,包括:根据所述样本文本的属性分类标签、所述样本文本在不同属性分类下的第一概率和所述样本文本的第一属性分类信息,计算第一损失值;根据所述样本文本的属性分类标签、所述样本文本在不同属性分类下的第二概率和所述样本文本的第二属性分类信息,计算第二损失值;根据所述第一损失值和所述第二损失值,计算所述交叉熵损失值。

9、在本公开可选实施例中,所述根据所述样本文本的第一语义向量、所述样本文本的第二语义向量和历史向量,计算自对比学习损失值,包括:确定所述样本文本的第二语义向量为查询向量;确定所述样本文本的第一语义向量和所述样本文本的第三语义向量为正样本向量;其中,所述样本文本的第三语义向量为将所述样本文本多次输入至所述第一编码器输出的向量;获取所述样本文本的第一负样本文本和第二负样本文本;其中,所述第一负样本文本与所述样本文本属于同一样本批次,所述第二负样本文本与所述样本文本具有相同的属性分类标签;确定所述第一负样本的第一语义向量、所述第一负样本的第二语义向量和所述第二负样本的历史向量为负样本向量;根据所述查询向量、所述正样本向量和所述负样本向量,计算所述自对比学习损失值。

10、在本公开可选实施例中,所述根据所述查询向量、所述正样本向量和所述负样本向量,计算所述自对比学习损失值,包括:设置温度参数、所述第一负样本中各个产品类型的权重和所述第二负样本的权重;根据所述温度参数、所述第一负样本中各个产品类型的权重、所述第二负样本的权重、所述查询向量、所述正样本向量和所述负样本向量,计算所述自对比学习损失值。

11、在本公开可选实施例中,所述方法还包括按照如下方法预先构建所述文本观点标签库:将短句文本库中的短句文本输入至所述属性分类模型,获得所述短句文本的语义向量和所述短句文本的属性分类信息;根据所述短句文本的属性分类信息对所述短句文本进行聚类,获得不同属性分类下的一个或多个短句文本簇;生成所述一个或多个短句文本簇中各个短句文本簇的文本观点标签;根据所述各个短句文本簇的文本观点标签、所本文档来自技高网...

【技术保护点】

1.一种文本观点识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括按照如下方法预先训练生成所述属性分类模型:

3.根据权利要求2所述的方法,其特征在于,所述根据所述样本文本的第一语义向量、所述样本文本的第二语义向量、所述样本文本在不同属性分类下的概率、所述样本文本的属性分类信息和所述样本文本的属性分类标签,计算模型损失值,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述模型损失值调整模型参数,直至计算得到的模型损失值小于预设值,生成所述属性分类模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述将所述样本文本依次输入至第一编码器和分类器,获得所述样本文本的第一语义向量、所述样本文本的第二语义向量、所述样本文本在不同属性分类下的概率和所述样本文本的属性分类信息,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述样本文本的属性分类标签、所述样本文本在不同属性分类下的概率和所述样本文本的属性分类信息,计算交叉熵损失值,包括:

7.根据权利要求5所述的方法,其特征在于,所述根据所述样本文本的第一语义向量、所述样本文本的第二语义向量和历史向量,计算自对比学习损失值,包括:

8.根据权利要求7所述的方法,其特征在于,所述根据所述查询向量、所述正样本向量和所述负样本向量,计算所述自对比学习损失值,包括:

9.根据权利要求1所述的方法,其特征在于,所述方法还包括按照如下方法预先构建所述文本观点标签库:

10.根据权利要求9所述的方法,其特征在于,在生成所述各个短句文本簇的文本观点标签之前,所述方法还包括:

11.一种文本观点识别装置,其特征在于,包括:

12.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的文本观点识别方法。

13.一种电子设备,其特征在于,包括:

...

【技术特征摘要】

1.一种文本观点识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括按照如下方法预先训练生成所述属性分类模型:

3.根据权利要求2所述的方法,其特征在于,所述根据所述样本文本的第一语义向量、所述样本文本的第二语义向量、所述样本文本在不同属性分类下的概率、所述样本文本的属性分类信息和所述样本文本的属性分类标签,计算模型损失值,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述模型损失值调整模型参数,直至计算得到的模型损失值小于预设值,生成所述属性分类模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述将所述样本文本依次输入至第一编码器和分类器,获得所述样本文本的第一语义向量、所述样本文本的第二语义向量、所述样本文本在不同属性分类下的概率和所述样本文本的属性分类信息,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述样本文本的属性分类标签、所...

【专利技术属性】
技术研发人员:刘志远陈超凡高天昊胡慧春张晓辉刘超刘朋樟包勇军
申请(专利权)人:北京沃东天骏信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1