快速生成标准语料的方法和系统技术方案

技术编号：22642226 阅读：29 留言：0更新日期：2019-11-26 16:17

本发明专利技术涉及一种快速生成标准语料的方法和系统。本发明专利技术利用计算机在语句中自动化地查找与规范信息对应的信息，以能更有效地生成标准语料。

The method and system of quickly generating standard corpus

The invention relates to a method and a system for quickly generating standard corpus. The invention uses a computer to automatically search the information corresponding to the specification information in a statement, so as to generate the standard corpus more effectively.

全部详细技术资料下载

【技术实现步骤摘要】
快速生成标准语料的方法和系统
本专利技术涉及计算机自然语言处理技术，更具体地，涉及快速生成标准语料的方法和系统。
技术介绍
针对语句中词语(尤其是不规范的或错误的词语)的识别及抽取问题，通常会使用机器学习领域中的有监督学习方法，如BiLSTM+CRF模型。在本领域中，有监督学习方法是指将具有标注的语料(即标准语料)输入计算机，以训练机器学习模型；当在计算机中输入无标注的语句时，可以通过该机器学习模型得到该语句的标注。在将有监督学习方法用于识别或抽取不规范词语之前，需要使用大量的标准语料来训练机器学习模型。现有的生成标准语料的方法需要使用大量的人工劳动。例如，环保局收到投诉信息“来电人反映洗护景区旁边有人乱扔垃圾，破坏景区环境”。环保局的工作人员针对地名进行人为的判断，并人工选择规范的地名信息(简称“规范信息”)为“西湖景区”。虽然此例中的规范信息是相对于地名而被描述，规范信息也可以相对于其他词性或类别的词语来描述；例如不规范的动词“学席”对应的规范信息是“学习”。在本公开中，规范信息指的是符合通常语法和用语习惯的词语或短语。在前例中，在选择规范信息之后，按照现有的生成标准语料的方法，还需要工作人员根据规范信息“西湖景区”而返回去在投诉信息中的“洗护景区”后进行标注，以便生成标准语料。例如，从前述投诉信息生成的标准语料可以为“来/O电/O人/O反/O映/O洗/P护/P景/P区/P旁/O边/O有/O人/O乱/O扔/O垃/O圾/O，/O破/O坏/O景/O区/O环/O境/O”，其中标注为“/O”的文字表示其属于其他文...

【技术保护点】
1.一种在语句中查找与规范信息对应的信息的方法，包括：/n(1)利用计算机将所述语句的首个文字的位置设置为起始位置；/n(2)利用计算机，按照预定规则并且根据文字间的相似度计算规则，确定所述语句从所述起始位置开始是否存在与所述规范信息对应的信息；以及/n(3)利用计算机，如果确定所述语句从所述起始位置开始存在与所述规范信息对应的信息，则结束所述查找操作，否则在所述语句中将所述起始位置后移一个文字，然后执行步骤(2)。/n

【技术特征摘要】
1.一种在语句中查找与规范信息对应的信息的方法，包括：
(1)利用计算机将所述语句的首个文字的位置设置为起始位置；
(2)利用计算机，按照预定规则并且根据文字间的相似度计算规则，确定所述语句从所述起始位置开始是否存在与所述规范信息对应的信息；以及
(3)利用计算机，如果确定所述语句从所述起始位置开始存在与所述规范信息对应的信息，则结束所述查找操作，否则在所述语句中将所述起始位置后移一个文字，然后执行步骤(2)。

2.根据权利要求1所述的方法，其中所述预定规则是：
如果所述语句从所述起始位置开始的剩余长度大于或等于所述规范信息的长度，并且所述语句从所述起始位置开始的每个文字与所述规范信息从头开始的每个文字都相同或具有或超过预定的相似度，则确定所述语句从所述起始位置起存在与所述规范信息对应的信息。

3.根据权利要求1所述的方法，其中所述预定规则是：
如果所述语句从所述起始位置开始的剩余长度大于或等于所述规范信息的长度，并且所述语句从所述起始位置开始的每个文字与所述规范信息从头开始并且在所述规范信息的全长的预定比例内的每个文字都相同或具有或超过预定的相似度，则确定所述语句从所述起始位置起存在与所述规范信息对应的信息。

4.根据权利要求1所述的方法，其中所述预定规则是：
如果所述语句从所述起始位置开始的剩余长度大于或等于所述规范信息的长度，并且所述语句从所述起始位置开始的每个文字与所述规范信息从头开始的每个文字彼此之间连续低于预定的相似度的文字的数量低于预定数量，则确定所述语句从所述起始位置起存在与所述规范信息对应的信息。

5.根据权利要求1所述的方法，其中所述预定规则是：
如果所述语句从所述起始位置开始的剩余长度小于所述规范信息的长度，则确定所述语句从所述起始位置起不存在与所述规范信息对应的信息。

6.根据权利要求1所述的方法，其中，所述文字间的相似度计算规则利用汉语拼音来计算所述文字间的相似度。

7.根据权利要求6所述的方法，其中，所述文字间的相似度计算规则包括如下步骤来计算第一文字和第二文字之间的相似度：
(a)利用计算机将所述第一文字和所述第二文字分别转化为汉语拼音；
(b)利用计算机将所述汉语拼音拆分为声母和韵母；和
(c)利用计算机计算所述第一文字和所述第二文字的声母和韵母的分别的相似度，并根据所述声母和所述韵母的各自的权重值，计算所述第一文字和第二文字之间的相似度。

8.根据权利要求7所述的方法，其中所述计算所述第一文字和所述第二文字的声母或韵母的分别的相似度按照如下公式进行：

其中，A、B分别表示所述第一文字和第二文字的汉语拼音中的声母或韵母的集合。

9.根据权利要求7所述的方法，其中将所述汉语拼音拆分为声母和韵母的操作包括：
利用声母表，从所述汉语拼音的起始字母开始进行前向拆分，获得所述声母；以...

【专利技术属性】
技术研发人员：刘云芳，江敏，
申请(专利权)人：杭州数澜科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人