快速生成标准语料的方法和系统技术方案

技术编号:22642226 阅读:29 留言:0更新日期:2019-11-26 16:17
本发明专利技术涉及一种快速生成标准语料的方法和系统。本发明专利技术利用计算机在语句中自动化地查找与规范信息对应的信息,以能更有效地生成标准语料。

The method and system of quickly generating standard corpus

The invention relates to a method and a system for quickly generating standard corpus. The invention uses a computer to automatically search the information corresponding to the specification information in a statement, so as to generate the standard corpus more effectively.

【技术实现步骤摘要】
快速生成标准语料的方法和系统
本专利技术涉及计算机自然语言处理技术,更具体地,涉及快速生成标准语料的方法和系统。
技术介绍
针对语句中词语(尤其是不规范的或错误的词语)的识别及抽取问题,通常会使用机器学习领域中的有监督学习方法,如BiLSTM+CRF模型。在本领域中,有监督学习方法是指将具有标注的语料(即标准语料)输入计算机,以训练机器学习模型;当在计算机中输入无标注的语句时,可以通过该机器学习模型得到该语句的标注。在将有监督学习方法用于识别或抽取不规范词语之前,需要使用大量的标准语料来训练机器学习模型。现有的生成标准语料的方法需要使用大量的人工劳动。例如,环保局收到投诉信息“来电人反映洗护景区旁边有人乱扔垃圾,破坏景区环境”。环保局的工作人员针对地名进行人为的判断,并人工选择规范的地名信息(简称“规范信息”)为“西湖景区”。虽然此例中的规范信息是相对于地名而被描述,规范信息也可以相对于其他词性或类别的词语来描述;例如不规范的动词“学席”对应的规范信息是“学习”。在本公开中,规范信息指的是符合通常语法和用语习惯的词语或短语。在前例中,在选择规范信息之后,按照现有的生成标准语料的方法,还需要工作人员根据规范信息“西湖景区”而返回去在投诉信息中的“洗护景区”后进行标注,以便生成标准语料。例如,从前述投诉信息生成的标准语料可以为“来/O电/O人/O反/O映/O洗/P护/P景/P区/P旁/O边/O有/O人/O乱/O扔/O垃/O圾/O,/O破/O坏/O景/O区/O环/O境/O”,其中标注为“/O”的文字表示其属于其他文字,而标注为“/P”的文字表示其属于需要机器学习模型的识别的文字(本例中的符号“0”和“P”仅为示例,可以根据需要或习惯使用其他符号,只要二者不相同)。为了减少在生成标准语料的过程中的人工参与,需要新的生成标准语料的方法。
技术实现思路
本专利技术的一个方面是一种利用计算机在语句中查找与规范信息对应的信息的方法,包括:(1)利用所述计算机将所述语句的首个文字的位置设置为起始位置;(2)利用所述计算机从所述起始位置开始,按照预定规则并且根据文字间的相似度计算规则,确定所述语句中是否存在与所述规范信息对应的信息;并且(3)利用所述计算机,如果确定所述语句中存在与所述规范信息对应的信息,则结束所述查找操作,否则在所述语句中将所述起始位置后移一个文字,然后执行步骤(2)。根据本专利技术的实施例,在语句中查找与规范信息对应的信息的过程中所使用的所述预定规则是:如果所述语句从所述起始位置开始的剩余长度大于或等于所述规范信息的长度,并且所述语句从所述起始位置开始的每个文字与所述规范信息从头开始的每个文字都相同或具有或超过预定的相似度,则确定所述语句从所述起始位置起存在与所述规范信息对应的信息。根据本专利技术的实施例,在语句中查找与规范信息对应的信息的过程中所使用的所述预定规则是:如果所述语句从所述起始位置开始的剩余长度大于或等于所述规范信息的长度,并且所述语句从所述起始位置开始的每个文字与所述规范信息从头开始并且在所述规范信息的全长的预定比例内的每个文字都相同或具有或超过预定的相似度,则确定所述语句从所述起始位置起存在与所述规范信息对应的信息。根据本专利技术的实施例,在语句中查找与规范信息对应的信息的过程中所使用的所述预定规则是:如果所述语句从所述起始位置开始的剩余长度大于或等于所述规范信息的长度,并且所述语句从所述起始位置开始的每个文字与所述规范信息从头开始的每个文字彼此之间连续低于预定的相似度的文字的数量低于预定数量,则确定所述语句从所述起始位置起存在与所述规范信息对应的信息。根据本专利技术的实施例,在语句中查找与规范信息对应的信息的过程中所使用的所述预定规则是:如果所述语句从所述起始位置开始的剩余长度小于所述规范信息的长度,则确定所述语句中不存在与所述规范信息对应的信息。根据本专利技术的实施例,对于中文,可以利用汉语拼音或字形来计算文字间的相似度。本专利技术的一个方面是一种利用计算机在语句中查找与规范信息对应的信息的系统,包括:(1)用于利用计算机将所述语句的首个文字的位置设置为起始位置的装置;(2)用于利用计算机,按照预定规则并且根据文字间的相似度计算规则,确定所述语句从所述起始位置开始是否存在与所述规范信息对应的信息的装置;以及(3)用于利用计算机,如果确定所述语句从所述起始位置开始存在与所述规范信息对应的信息,则结束所述查找操作,否则在所述语句中将所述起始位置后移一个文字,然后执行步骤(2)的装置。本专利技术的另一个方面是一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令被计算机执行时能够执行本专利技术各实施例所述的方法。本专利技术的实施例能够节省人工的工作量,提高对语句进行标注的效率,以便于更快速地生成标准语料。附图说明图1为根据本专利技术实施例的拆分文字库的示意图。具体实施方式现在将参照若干示例性实施例来说明本专利技术的内容。应当理解,说明这些实施例仅是为了使得本领域普通技术人员能够更好地理解并且因此实现本专利技术的内容,而不是暗示对本专利技术的范围进行任何限制。如本文中所使用的,术语“包括”及其变体应当解读为意味着“包括但不限于”的开放式术语。术语“基于”应当解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”应当解读为“至少一个实施例”。术语“另一个实施例”应当解读为“至少一个其他实施例”。本专利技术的实施例的方法可以利用计算机更有效地生成标准语料。所生成的标准语料能够用于训练适用于识别或抽取词语的有监督学习方法的机器学习模型。这种机器学习模型可以被应用在各种场景中。例如,可以识别输入的语句中的具有不同词性的词语,比如识别名词、动词、形容词等;还可以识别输入的语句中的具有不同类别的词语,比如地名、人名、机构名等。在本专利技术的实施例中,将以用于识别地名的机器学习模型所需的标准语料作为示例来说明本专利技术的方法。本领域的技术人员能够意识到,本专利技术的方法也可以用于识别其他类别或词性的词语的机器学习模型。本专利技术的方法可以利用计算机,按照预定规则来查找输入语句中与规范信息“对应”的信息,然后自动地在输入语句中标注该对应的信息。经标注的输入语句即为标准语料。与规范信息对应的信息可以是指与规范信息完全相同或与规范信息的相似度超过预定的阈值的信息。本专利技术的方法包括利用计算机在输入语句中查找与规范信息对应的文字。可以利用计算机,通过计算相似度的方法,依次比较规范信息中的第一个文字与输入语句中的每个文字,如果找到与规范信息中的第一个文字相似度足够高的一文字,则以同样的计算相似度的方法依次判断输入语句中的该文字的后面的文字是否与规范信息第一个文字之后的各文字的相似度足够高。例如,从输入语句中找到与规范信息的第一个文字相似度大于0.5的文字作为疑似起始位置,然后判断输入语句中疑似起始位置后面的文字是否与规范信息的第一个文字后面的文字的相似度都大于0.5;若第一个文字的后面的文字与规范信息第一个文字以后的文字都依次相似,则在输入语句中本文档来自技高网
...

【技术保护点】
1.一种在语句中查找与规范信息对应的信息的方法,包括:/n(1)利用计算机将所述语句的首个文字的位置设置为起始位置;/n(2)利用计算机,按照预定规则并且根据文字间的相似度计算规则,确定所述语句从所述起始位置开始是否存在与所述规范信息对应的信息;以及/n(3)利用计算机,如果确定所述语句从所述起始位置开始存在与所述规范信息对应的信息,则结束所述查找操作,否则在所述语句中将所述起始位置后移一个文字,然后执行步骤(2)。/n

【技术特征摘要】
1.一种在语句中查找与规范信息对应的信息的方法,包括:
(1)利用计算机将所述语句的首个文字的位置设置为起始位置;
(2)利用计算机,按照预定规则并且根据文字间的相似度计算规则,确定所述语句从所述起始位置开始是否存在与所述规范信息对应的信息;以及
(3)利用计算机,如果确定所述语句从所述起始位置开始存在与所述规范信息对应的信息,则结束所述查找操作,否则在所述语句中将所述起始位置后移一个文字,然后执行步骤(2)。


2.根据权利要求1所述的方法,其中所述预定规则是:
如果所述语句从所述起始位置开始的剩余长度大于或等于所述规范信息的长度,并且所述语句从所述起始位置开始的每个文字与所述规范信息从头开始的每个文字都相同或具有或超过预定的相似度,则确定所述语句从所述起始位置起存在与所述规范信息对应的信息。


3.根据权利要求1所述的方法,其中所述预定规则是:
如果所述语句从所述起始位置开始的剩余长度大于或等于所述规范信息的长度,并且所述语句从所述起始位置开始的每个文字与所述规范信息从头开始并且在所述规范信息的全长的预定比例内的每个文字都相同或具有或超过预定的相似度,则确定所述语句从所述起始位置起存在与所述规范信息对应的信息。


4.根据权利要求1所述的方法,其中所述预定规则是:
如果所述语句从所述起始位置开始的剩余长度大于或等于所述规范信息的长度,并且所述语句从所述起始位置开始的每个文字与所述规范信息从头开始的每个文字彼此之间连续低于预定的相似度的文字的数量低于预定数量,则确定所述语句从所述起始位置起存在与所述规范信息对应的信息。


5.根据权利要求1所述的方法,其中所述预定规则是:
如果所述语句从所述起始位置开始的剩余长度小于所述规范信息的长度,则确定所述语句从所述起始位置起不存在与所述规范信息对应的信息。


6.根据权利要求1所述的方法,其中,所述文字间的相似度计算规则利用汉语拼音来计算所述文字间的相似度。


7.根据权利要求6所述的方法,其中,所述文字间的相似度计算规则包括如下步骤来计算第一文字和第二文字之间的相似度:
(a)利用计算机将所述第一文字和所述第二文字分别转化为汉语拼音;
(b)利用计算机将所述汉语拼音拆分为声母和韵母;和
(c)利用计算机计算所述第一文字和所述第二文字的声母和韵母的分别的相似度,并根据所述声母和所述韵母的各自的权重值,计算所述第一文字和第二文字之间的相似度。


8.根据权利要求7所述的方法,其中所述计算所述第一文字和所述第二文字的声母或韵母的分别的相似度按照如下公式进行:



其中,A、B分别表示所述第一文字和第二文字的汉语拼音中的声母或韵母的集合。


9.根据权利要求7所述的方法,其中将所述汉语拼音拆分为声母和韵母的操作包括:
利用声母表,从所述汉语拼音的起始字母开始进行前向拆分,获得所述声母;以...

【专利技术属性】
技术研发人员:刘云芳江敏
申请(专利权)人:杭州数澜科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1