一种文本标注方法及装置制造方法及图纸

技术编号:28623297 阅读:38 留言:0更新日期:2021-05-28 16:19
本发明专利技术实施例提供了一种文本标注方法及装置,上述方法包括:确定待标注文本中各个文本片段所描述内容的类型,作为内容类型;根据每一文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象的类型,作为对象类型,其中,所述预设的对应关系为:各个内容类型与各个对象类型之间的对应关系;针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注所述待标注对象的情感。应用本实施例提供的方案进行文本标注时,能够提高对文本进行情感标注的精确度。

【技术实现步骤摘要】
一种文本标注方法及装置
本专利技术涉及文本分析
,特别是涉及一种文本标注方法及装置。
技术介绍
在对文本中对象的情感进行分析时,通常基于对象情感分析模型获得对象情感分析结果。上述对象情感分析模型一般是预先训练得到的,训练上述对象情感分析模型时,需要对样本文本整体所表达的情感进行标注,得到标注结果,然后以上述标注结果作为训练基准进行模型训练,得到上述对象情感分析模型。其中,标注结果越接近样本文本所表达的真实情感,使用训练得到的对象情感分析模型对对象的情感进行分析的结果越准确。文本整体所表达的情感反映了文本在情感方面的整体基调,例如,悲伤的基调、热闹的基调、激动的基调等等,这样来看文本整体所表达的情感是单一情感。然而,站在文本细节角度而言,如从每句话或者每段话来看,其实际所表达的情感是非常丰富的,例如:文本中可以包括多个对象,上述对象可以为文本中所出现的人、物等,文本所表达的每一对象的情感是不相同的,例如,有的对象的情感是开心,而有的对象的情况则恰恰相反是悲伤。因此,应用上述方式对文本进行情感标注易导致所标注情感的精确度较低。
技术实现思路
本专利技术实施例的目的在于提供一种文本标注方法及装置,以提高所标注情感的精确度。具体技术方案如下:第一方面,本专利技术实施例提供了一种文本标注方法,所述方法包括:确定待标注文本中各个文本片段所描述内容的类型,作为内容类型;根据每一文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象的类型,作为对象类型,其中,所述预设的对应关系为:各个内容类型与各个对象类型之间的对应关系;针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注所述待标注对象的情感。本专利技术的一个实施例中,上述确定待标注文本中各个文本片段所描述内容的类型,包括:按照以下方式确定待标注文本中每一文本片段所描述内容的内容类型:当文本片段中包含表征对白内容片段开始的开始字符时,判断所述文本片段中的第一文本子片段的长度是否大于第二文本子片段的长度,所述第一文本子片段为:文本片段中位于所述开始字符前的文本子片段,所述第二文本子片段为:文本片段中位于所述开始字符后的文本子片段;若为是,将所述文本片段对应的内容类型确定为描述对象行为的内容类型;若为否,当所述第一文本子片段中包含表征文本内容类型的字符时,将所述文本片段对应的内容类型确定为描述文本场景的内容类型;当所述第一文本子片段中不包含表征文本内容类型的字符时,将所述文本片段对应的内容类型确定为描述对象对白的内容类型。本专利技术的一个实施例中,上述确定待标注文本中各个文本片段所描述内容的类型,包括:对待标注文本进行对象标识识别,确定所述待标注文本中包含的对象标识,并按照以下方式确定所述待标注文本中每一文本片段所描述内容的类型:当文本片段中不包含表征对白内容片段开始的开始字符时,判断所述文本片段中是否包含所述对象标识;若为是,将所述文本片段对应的内容类型确定为描述对象动作的内容类型;若为否,对所述文本片段中的各个词语进行词性识别;当识别到表征对象名称词性的词语时,将所述文本片段对应的内容类型确定为描述对象动作的内容类型;当未识别到表征对象名称词性的词语时,将所述文本片段对应的内容类型确定为描述文本场景的内容类型。本专利技术的一个实施例中,上述针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注所述待标注对象的情感,包括:针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,对该文本片段的待标注对象进行至少一次情感识别,获得该文本片段的各个情感识别结果;在所获得的各个情感识别结果之间的差异均小于预设差异阈值的情况下,将情感识别结果的平均值作为待标注对象的情感标注结果,并按照所确定的情感标注结果对所述文本片段所表达的所述待标注对象的情感进行标注;在所获得的各个情感识别结果之间的差异存在不小于预设差异阈值的情况下,若在所获得的各个情感识别结果中预设数量个情感识别结果之间的差异均小于预设差异阈值时,将所述预设数量个情感识别结果的平均值作为待标注对象的情感标注结果,并按照所确定的情感标注结果对文本片段所表达的所述待标注对象的情感进行标注。本专利技术的一个实施例中,上述针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,包括:针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,并从所述待标注文本中,获得包含该文本片段以及相邻文本片段的文本片段,作为待识别文本片段,所述相邻文本片段为:与该文本片段相邻的文本片段;针对每一待识别文本片段,对该待识别文本片段的待标注对象进行情感识别。第二方面,本专利技术实施例提供了一种文本标注装置,所述装置包括:内容类型确定模块,用于确定待标注文本中各个文本片段所描述内容的类型,作为内容类型;对象类型确定模块,用于根据每一文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象的类型,作为对象类型,其中,所述预设的对应关系为:各个内容类型与各个对象类型之间的对应关系;情感标注模块,用于针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注所述待标注对象的情感。本专利技术的一个实施例中,上述内容类型确定模块,具体用于按照以下方式确定待标注文本中每一文本片段所描述内容的内容类型:当文本片段中包含表征对白内容片段开始的开始字符时,判断所述文本片段中的第一文本子片段的长度是否大于第二文本子片段的长度,所述第一文本子片段为:文本片段中位于所述开始字符前的文本子片段,所述第二文本子片段为:文本片段中位于所述开始字符后的文本子片段;若为是,将所述文本片段对应的内容类型确定为描述对象行为的内容类型;若为否,当所述第一文本子片段中包含表征文本内容类型的字符时,将所述文本片段对应的内容类型确定为描述文本场景的内容类型;当所述第一文本子片段中不包含表征文本内容类型的字符时,将所述文本片段对应的内容类型确定为描述对象对白的内容类型。本专利技术的一个实施例中,上述内容类型确定模块,具体用于对待标注文本进行对象标识识别,确定所述待标注文本中包含的对象标识,并按照以下方式确定所述待标注文本中每一文本片段所描述内容的类型:当文本片段中不包含表征对白内容片段开始的开始字符时,判断所述文本片段中是否包含所述对象标识;若为是,将所述文本片段对本文档来自技高网...

【技术保护点】
1.一种文本标注方法,其特征在于,所述方法包括:/n确定待标注文本中各个文本片段所描述内容的类型,作为内容类型;/n根据每一文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象的类型,作为对象类型,其中,所述预设的对应关系为:各个内容类型与各个对象类型之间的对应关系;/n针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注所述待标注对象的情感。/n

【技术特征摘要】
1.一种文本标注方法,其特征在于,所述方法包括:
确定待标注文本中各个文本片段所描述内容的类型,作为内容类型;
根据每一文本片段对应的内容类型以及预设的对应关系,确定每一文本片段中待进行情感标注的对象的类型,作为对象类型,其中,所述预设的对应关系为:各个内容类型与各个对象类型之间的对应关系;
针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注所述待标注对象的情感。


2.根据权利要求1所述的方法,其特征在于,所述确定待标注文本中各个文本片段所描述内容的类型,包括:
按照以下方式确定待标注文本中每一文本片段所描述内容的内容类型:
当文本片段中包含表征对白内容片段开始的开始字符时,判断所述文本片段中的第一文本子片段的长度是否大于第二文本子片段的长度,所述第一文本子片段为:文本片段中位于所述开始字符前的文本子片段,所述第二文本子片段为:文本片段中位于所述开始字符后的文本子片段;
若为是,将所述文本片段对应的内容类型确定为描述对象行为的内容类型;
若为否,当所述第一文本子片段中包含表征文本内容类型的字符时,将所述文本片段对应的内容类型确定为描述文本场景的内容类型;当所述第一文本子片段中不包含表征文本内容类型的字符时,将所述文本片段对应的内容类型确定为描述对象对白的内容类型。


3.根据权利要求1所述的方法,其特征在于,所述确定待标注文本中各个文本片段所描述内容的类型,包括:
对待标注文本进行对象标识识别,确定所述待标注文本中包含的对象标识,并按照以下方式确定所述待标注文本中每一文本片段所描述内容的类型:
当文本片段中不包含表征对白内容片段开始的开始字符时,判断所述文本片段中是否包含所述对象标识;
若为是,将所述文本片段对应的内容类型确定为描述对象动作的内容类型;
若为否,对所述文本片段中的各个词语进行词性识别;当识别到表征对象名称词性的词语时,将所述文本片段对应的内容类型确定为描述对象动作的内容类型;当未识别到表征对象名称词性的词语时,将所述文本片段对应的内容类型确定为描述文本场景的内容类型。


4.根据权利要求1所述的方法,其特征在于,所述针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,并根据情感识别结果,在该文本片段中标注所述待标注对象的情感,包括:
针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,对该文本片段的待标注对象进行至少一次情感识别,获得该文本片段的各个情感识别结果;
在所获得的各个情感识别结果之间的差异均小于预设差异阈值的情况下,将情感识别结果的平均值作为待标注对象的情感标注结果,并按照所确定的情感标注结果对所述文本片段所表达的所述待标注对象的情感进行标注;
在所获得的各个情感识别结果之间的差异存在不小于预设差异阈值的情况下,若在所获得的各个情感识别结果中预设数量个情感识别结果之间的差异均小于预设差异阈值时,将所述预设数量个情感识别结果的平均值作为待标注对象的情感标注结果,并按照所确定的情感标注结果对文本片段所表达的所述待标注对象的情感进行标注。


5.根据权利要求1-4中任一项所述的方法,其特征在于,所述针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,基于该文本片段对所述待标注对象进行情感识别,包括:
针对每一文本片段,从该文本片段包含的对象中,确定类型为该文本片段对应的对象类型的待标注对象,并从所述待标注文本中,获得包含该文本片段以及相邻文本片段的文本片段,作为待识别文本片段,所述相邻文本片段为:与该文本片段相邻的文本片段;
针对每一待识别文本片段,对该待识别文本片段的待标注对象进行情感识别。


6.一种文本标注装置,其特征在于,所述装置包括:
内容类型确定模块,用于确定待标...

【专利技术属性】
技术研发人员:郏昕阳任科王波赵丹叶田田
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1