基于标注中新增关键词语的文本标注方法、系统及装置制造方法及图纸

技术编号:33499333 阅读:58 留言:0更新日期:2022-05-19 01:09
本发明专利技术公开了一种基于标注中新增关键词语的文本标注方法、系统及装置,通过标注过程中划出文本中和所选标签相关的待定样例短语或样例句式的方式,不断丰富和完善关键词语,并且在文本的标签已有关键词语的情况下,根据基于某个标签的关键词语的查询逻辑,可以缩短样本筛选时间、提高了样本的质量、发现了更多有价值的文本特征,即为标签的关键词语,同时可以基于标签的关键词语对于查询出的文本进行自动标注,可以提高自然语言处理模型的性能。标签的关键词语也可以给自然语言处理模型提供一定的可解释性。提供一定的可解释性。提供一定的可解释性。

【技术实现步骤摘要】
基于标注中新增关键词语的文本标注方法、系统及装置


[0001]本专利技术涉及文本标注领域,尤其涉及一种基于标注中新增关键词语的文本标注方法、系统及装置。

技术介绍

[0002]在自然语言处理领域,针对文本分类问题的标注工具有prodigy等。它主要是可以连接自定义的数据库,在定义好标签的条件下,提供一个用户界面,使得标注人员可以对某一篇文本打上某些标签。prodigy等这种标注工具不带有样本筛选功能,不能解决标注数据量巨大、标注所需周期长的问题,也不能帮助提高样本的质量、发现有价值的文本特征。

技术实现思路

[0003]在自然语言处理领域的文本分类问题中,为了解决算法所需的标注数据量巨大、标注所需周期长的问题,本专利技术实现了一种基于标注中新增关键词语的文本标注方法、系统及装置。
[0004]本专利技术的目的是通过以下技术方案来实现的:第一方面,本专利技术提供了一种基于标注中新增关键词语的文本标注方法,该方法包括以下步骤:(1)确定待标注的文本能够打上的标签,记为标签A,并通过标签A的若干范围词语圈定标签A的待标注样本的范围;(2)在待标注的文本上划出支持将此文本标注为标签A的词语、短语或句子;(3)基于步骤(2)中划出的词语、短语或句子,确定标签A的待定样例短语或样例句式;所述样例短语代表标签A所关联的典型文本的短语,所述样例句式代表标签A所关联的典型文本的句式;(4)对标签A的待定样例短语和样例句式在进行审核后,将范围词语、审核通过的样例短语和样例句式作为标签A的关键词语加入标签A的关键词语列表,用于后续的文本筛选或文本自动标注;(5)在标签A已有关键词语的情况下,根据基于关键词语的查询逻辑,进行文本筛选得到具有典型特征的文本或者对查询到的文本进行自动标注,直接打上标签A;所述查询逻辑为若存在范围词语A和B,则用“A & B”表示文本中既存在A又存在B,若存在样例语句C和D,则用“C| D”表示存在C的文本和存在D的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为P;取所有样例语句,它们之间用“|”连接,结果集记为Q;最终的查询逻辑为P & Q。
[0005]进一步地,划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。
[0006]进一步地,步骤(3)中待定样例短语或样例句式需要去重,如果和标签A的已有关键词语重复,也进行去除。
[0007]进一步地,步骤(5)中,所述基于关键词语的查询逻辑具体如下:定义函数size(P)
表示集合P中的元素个数;其中,为集合P中的元素,m为集合P的元素个数,为集合Q中的元素,n为集合Q的元素个数,则查询的最终结果为。
[0008]第二方面,本专利技术还提供了一种基于标注中新增关键词语的文本标注系统,该系统包括标签选择模块、标注模块、标签确定模块、样例语句确定模块、审核模块、文本筛选模块和自动标注模块:所述标签确定模块用于确定待标注的文本能够打上的标签,记为标签A,并通过标签A的若干范围词语圈定标签A的待标注样本的范围;所述标注模块用于在待标注的文本上划出支持将此文本标注为标签A的词语、短语或句子;所述样例语句确定模块用于根据标注模块划出的词语、短语或句子,确定标签A的待定样例短语或样例句式,所述样例短语代表标签A所关联的典型文本的短语,所述样例句式代表标签A所关联的典型文本的句式;所述审核模块用于对标签A的待定样例短语和样例句式进行审核,将范围词语、审核通过的样例短语和样例句式作为标签A的关键词语加入标签A的关键词语列表,用于后续的文本筛选或文本自动标注;所述文本筛选模块用于在标签A已有关键词语的情况下,根据基于关键词语的查询逻辑,得到的查询结果为经过筛选后、具有典型特征的文本;所述查询逻辑为若存在范围词语A和B,则用“A & B”表示文本中既存在A又存在B,若存在样例语句C和D,则用“C| D”表示存在C的文本和存在D的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为P;取所有样例语句,它们之间用“|”连接,结果集记为Q;最终的查询逻辑为P & Q;所述自动标注模块用于对于通过标签A的关键词语的查询逻辑查询出的文本,直接打上标签A。
[0009]进一步地,所述标注模块划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。
[0010]进一步地,所述样例语句确定模块确定的待定样例短语或样例句式需要去重,如果和标签A的已有关键词语重复,也进行去除。
[0011]进一步地,所述文本筛选模块中基于关键词语的查询逻辑具体如下:定义函数size(P)表示集合P中的元素个数;其中,为集合P中的元素,m为集合P的元素个数,为集合Q中的元素,n为集合Q的元素个数,则查询的最终结果为。
[0012]第三方面,本专利技术还提供了一种基于标注中新增关键词语的文本标注装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执
行代码时,实现所述的基于标注中新增关键词语的文本标注方法。
[0013]第四方面,本专利技术还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的基于标注中新增关键词语的文本标注方法。
[0014]本专利技术的有益效果:本专利技术通过标注过程中划出文本中和所选标签相关的关键词语的方式,不断丰富和完善关键词语,从而缩短了样本筛选时间、提高了样本的质量、发现了更多有价值的文本特征(即标签的关键词语),提高了自然语言处理模型的性能。本专利技术可以对样本进行筛选和自动标注,在关键词越来越丰富的过程中,可以结合自然语言处理模型的统计指标,进行很多轮筛选或标注。在初期可以进行自动标注,加快训练自然语言处理模型速度;在准确度达到一定阈值之后(阈值可根据具体项目情况调节),采用样本筛选,进一步提高样本质量,标签的关键词语也可以给自然语言处理模型提供一定的可解释性。
附图说明
[0015]图1为本专利技术一种基于标注中新增关键词语的文本标注方法流程示意图。
[0016]图2为本专利技术一种基于标注中新增关键词语的文本标注系统结构示意图。
[0017]图3为本专利技术一种基于标注中新增关键词语的文本标注装置示意图。
具体实施方式
[0018]以下结合附图对本专利技术具体实施方式作进一步详细说明。
[0019]如图1所示,本专利技术提供的一种基于标注中新增关键词语的文本标注方法,该方法包括以下步骤:(1)确定待标注的文本能够打上的标签,记为标签A;具体为,标注人员根据本领域内的标签集合,判断待标注的文本能够打上哪些类标签,对于单分类的文本,最多只能打上一个标签,对于多分类的文本,可以打上多个标签,并通过标签A的若干范围词语圈定标签A的待标注样本的范围,例如对于“战略扩张”标签,其范围词语是“战略”。
[0020](2)在待标注的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于标注中新增关键词语的文本标注方法,其特征在于,该方法包括以下步骤:(1)确定待标注的文本能够打上的标签,记为标签A,并通过标签A的若干范围词语圈定标签A的待标注样本的范围;(2)在待标注的文本上划出支持将此文本标注为标签A的词语、短语或句子;(3)基于步骤(2)中划出的词语、短语或句子,确定标签A的待定样例短语或样例句式;所述样例短语代表标签A所关联的典型文本的短语,所述样例句式代表标签A所关联的典型文本的句式;(4)对标签A的待定样例短语和样例句式在进行审核后,将范围词语、审核通过的样例短语和样例句式作为标签A的关键词语加入标签A的关键词语列表,用于后续的文本筛选或文本自动标注;(5)在标签A已有关键词语的情况下,根据基于关键词语的查询逻辑,进行文本筛选得到具有典型特征的文本或者对查询到的文本进行自动标注,直接打上标签A;所述查询逻辑为若存在范围词语A和B,则用“A & B”表示文本中既存在A又存在B,若存在样例语句C和D,则用“C| D”表示存在C的文本和存在D的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为P;取所有样例语句,它们之间用“|”连接,结果集记为Q;最终的查询逻辑为P & Q。2.根据权利要求1所述的一种基于标注中新增关键词语的文本标注方法,其特征在于,划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。3.根据权利要求1所述的一种基于标注中新增关键词语的文本标注方法,其特征在于,步骤(3)中待定样例短语或样例句式需要去重,如果和标签A的已有关键词语重复,也进行去除。4.根据权利要求1所述的一种基于标注中新增关键词语的文本标注方法,其特征在于,步骤(5)中,所述基于关键词语的查询逻辑具体如下:定义函数size(P)表示集合P中的元素个数;其中,为集合P中的元素,m为集合P的元素个数,为集合Q中的元素,n为集合Q的元素个数,则查询的最终结果为。5.一种基于标注中新增关键词语的文本标注系统,其特征在于,该系统包括标签选择模块、标注模块、标签确定模块、样例语句确定模块、审核模块、文本筛选模块和自动标注模块:所述标签确定模块用于确定待标注的文本能够打上的标签,记为标签A,并通过标签A的若干范围词语圈定标签A的待标注样本的范围;所述标注模块用于在待标注的文本上划出支持将此文本标注为标...

【专利技术属性】
技术研发人员:赵鹏阳杨红飞金霞程东
申请(专利权)人:杭州费尔斯通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1