一种大数据样本序列标注方法、系统、终端及可存储介质技术方案

技术编号:35213337 阅读:21 留言:0更新日期:2022-10-15 10:27
本申请涉及语言处理技术领域,尤其涉及一种大数据样本序列标注方法、系统、终端及可存储介质;其方法包括:构建神经学习网络模型,获取学科科目相关的数据样本,判断数据样本是否满足预设的样本要求,若数据样本不满足样本要求,则获取下一数据样本,若数据样本满足样本要求,则将数据样本导入神经网络模型,将数据样本分解成多个数据段落,判断数据段落是否符合预设的特殊标注规则,若数据段落符合特殊标注规则,则对数据段落进行特殊标注,若数据段落不符合特殊标注规则,则对数据段落进行常规标注。本申请有助于提高对词性标注的准确性。本申请有助于提高对词性标注的准确性。本申请有助于提高对词性标注的准确性。

【技术实现步骤摘要】
一种大数据样本序列标注方法、系统、终端及可存储介质


[0001]本申请涉及语言处理
,尤其涉及一种大数据样本序列标注方法、系统、终端及可存储介质。

技术介绍

[0002]自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。其中,序列标注是一个比较简单的自然语言处理任务,也是最基础的任务,可用于解决一系列对字符进行分类的问题。序列标注问题包括自然语言处理中的分词、词性标注、命名实体识别、关键词抽取以及词义角色标注等等,我们只要在做序列标注时给定特定的标签集合,就可以进行序列标注。
[0003]自然语言处理的相关研究始于人类对机器翻译的探索,虽然自然语言处理涉及语音、语法、语义以及语用等多维度的操作,但简单而言,自然语言处理的基本任务是基于本体词典、词频统计和上下文语义分析等方式对待处理语料进行分词以及词性标记等,但是相关技术中对词性标注存在不准确的情况,从而导致上下文语意不清晰。

技术实现思路

[0004]为了有助于提高对词性标注的准确性,本申请提供一种大数据样本序列标注方法、系统、终端及可存储介质。
[0005]第一方面本申请提供的一种大数据样本序列标注方法,采用如下的技术方案:一种大数据样本序列标注方法,包括:构建神经学习网络模型;获取学科科目相关的数据样本;判断所述数据样本是否满足预设的样本要求;若所述数据样本不满足所述样本要求,则获取下一所述数据样本;若所述数据样本满足所述样本要求,则将所述数据样本导入所述神经网络模型;将所述数据样本分解成多个数据段落;判断所述数据段落是否符合预设的特殊标注规则;若所述数据段落符合所述特殊标注规则,则对所述数据段落进行特殊标注;若所述数据段落不符合所述特殊标注规则,则对所述数据段落进行常规标注。
[0006]通过采用上述技术方案,先判断获取到的数据样本是否满足预设的样本要求,若满足,将数据样本导入深度学习神经网络并将数据样本分解成多个数据段落,再判断数据段落是否符合预设的特殊标注规则,若数据段落符合特殊标注规则,则对数据段落进行特殊标注;若数据段落不符合特殊标注规则,则对数据段落进行常规标注,通过对符合特殊标注规则的数据段落进行特殊标注,有助于减少对词性标注错误的情况发生,从而提高对词性标注的准确性。
[0007]可选的,所述判断所述数据样本是否满足预设的样本要求的具体步骤包括:
获取所述学科科目的科目名称;判断所述科目名称是否为预设的目标科目名称;若所述科目名称与所述目标科目名称一致,则判定所述数据样本满足所述样本要求;若所述科目名称不是所述目标科目名称,则判定所述数据样本不满足所述样本要求。
[0008]通过采用上述技术方案,判断科目名称是否为预设的目标科目名称,有助于减少因其他科目不满足该标注方法而造成对词性标注错误的情况发生,从而有助于提高对词性标注的准确性。
[0009]可选的,所述将所述数据样本分解成多个数据段落的具体步骤包括:获取所述数据样本内容;按预设的分解规则,判断所述数据内容中是否存在预设的目标符号;若所述数据内容中存在所述目标符号,则获取目标符号位置;基于所述分解规则以及所述目标符号位置,将所述数据样本分解成多个数据段落。
[0010]通过采用上述技术方案,将数据样本分解成多个数据段落,有助于更加准确的分析数据内容,充分理解词性,从而有助于提高对词性标注的准确性。
[0011]可选的,所述判断所述数据段落是否符合预设的特殊标注规则的具体步骤包括:基于所述数据样本内容,获取数据段落内容;基于所述数据段落内容,判断所述数据段落中是否存在预设的特殊用法;若所述数据段落中存在预设的特殊用法,则判定所述数据段落符合所述特殊标注规则。
[0012]通过采用上述技术方案,判断数据段落中是否存在预设的特殊用法,若数据段落中存在预设的特殊用法,则判定数据段落符合特殊标注规则。
[0013]可选的,所述特殊标注规则包括动词标注规则以及名词标注规则;所述若所述数据段落符合所述特殊标注规则,则对所述数据段落进行特殊标注的具体步骤包括:判断所述数据段落是否符合所述动词标注规则或所述名词标注规则;若所述数据段落符合所述动词标注规则,则对所述数据段落进行第一特殊标注;若所述数据段落是否符合所述名词标注规则,则对所述数据段落进行第二特殊标注。
[0014]通过采用上述技术方案,判断数据段落是否符合动词标注规则或名词标注规则,若数据段落符合动词标注规则,则对数据段落进行第一特殊标注,若数据段落是否符合名词标注规则,则对数据段落进行第二特殊标注,有助于减少对词性标注错误的情况发生,从而提高对词性标注的准确性。
[0015]可选的,所述动词标注规则包括形容词用作动词规则以及名词用作动词规则;所述若所述数据段落符合所述动词标注规则,则对所述数据段落进行第一特殊标注的具体步骤包括:若所述数据段落符合所述动词标注规则,则判断所述数据段落是否符合所述形容词用作动词规则;
若所述数据段落符合所述形容词用作动词规则,则将指定形容词标注为动词;若所述数据段落不符合所述形容词用作动词规则,则将指定名词标注为动词。
[0016]通过采用上述技术方案,判断数据段落是否符合形容词用作动词规则,若数据段落符合形容词用作动词规则,则将指定形容词标注为动词,若数据段落不符合形容词用作动词规则,则将指定名词标注为动词,有助于减少对词性标注错误的情况发生,从而提高对词性标注的准确性。
[0017]可选的,所述名词标注规则包括形容词用作名词规则以及动词用作名词规则;所述若所述数据段落符合所述名词标注规则,则对所述数据段落进行第二特殊标注的具体步骤包括:若所述数据段落符合所述名词标注规则,则判断所述数据段落是否符合所述形容词用作名词规则;若所述数据段落符合所述形容词用作名词规则,则将指定形容词标注为名词;若所述数据段落不符合所述形容词用作名词规则,则将指定动词标注为名词。
[0018]通过采用上述技术方案,判断数据段落是否符合形容词用作名词规则,若数据段落符合形容词用作名词规则,则将指定形容词标注为名词,若数据段落不符合形容词用作名词规则,则将指定动词标注为名词,有助于减少对词性标注错误的情况发生,从而提高对词性标注的准确性。
[0019]第二方面,本申请还公开了一种大数据样本序列标注系统,采用如下的技术方案:一种大数据样本序列标注系统,包括:第一执行模块,用于构建神经学习网络模型;第一获取模块,用于获取学科科目相关的数据样本;第一判断模块,用于判断所述数据样本是否满足预设的样本要求;第二获取模块,若所述数据样本不满足所述样本要求,则用于获取下一所述数据样本;第二执行模块,若所述数据样本满足所述样本要求,则用于将所述数据样本导入所述神经网络模型;分解模块,用于将所述数据样本分解成多个数据段落;第二判断模块,用于判断所述数据段落是否符合预设的特殊标注规则;第一标注模块,若所述数据段落符合所述特殊标注规则,用于对所述数据段落进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据样本序列标注方法,其特征在于,包括:构建神经学习网络模型;获取学科科目相关的数据样本;判断所述数据样本是否满足预设的样本要求;若所述数据样本不满足所述样本要求,则获取下一所述数据样本;若所述数据样本满足所述样本要求,则将所述数据样本导入所述神经网络模型;将所述数据样本分解成多个数据段落;判断所述数据段落是否符合预设的特殊标注规则;若所述数据段落符合所述特殊标注规则,则对所述数据段落进行特殊标注;若所述数据段落不符合所述特殊标注规则,则对所述数据段落进行常规标注。2.根据权利要求1所述的一种大数据样本序列标注方法,其特征在于,所述判断所述数据样本是否满足预设的样本要求的具体步骤包括:获取所述学科科目的科目名称;判断所述科目名称是否为预设的目标科目名称;若所述科目名称与所述目标科目名称一致,则判定所述数据样本满足所述样本要求;若所述科目名称不是所述目标科目名称,则判定所述数据样本不满足所述样本要求。3.根据权利要求1所述的一种大数据样本序列标注方法,其特征在于,所述将所述数据样本分解成多个数据段落的具体步骤包括:获取所述数据样本内容;按预设的分解规则,判断所述数据内容中是否存在预设的目标符号;若所述数据内容中存在所述目标符号,则获取目标符号位置;基于所述分解规则以及所述目标符号位置,将所述数据样本分解成多个数据段落。4.根据权利要求3所述的一种大数据样本序列标注方法,其特征在于,所述判断所述数据段落是否符合预设的特殊标注规则的具体步骤包括:基于所述数据样本内容,获取数据段落内容;基于所述数据段落内容,判断所述数据段落中是否存在预设的特殊用法;若所述数据段落中存在预设的特殊用法,则判定所述数据段落符合所述特殊标注规则。5.根据权利要求4所述的一种大数据样本序列标注方法,其特征在于,所述特殊标注规则包括动词标注规则以及名词标注规则;所述若所述数据段落符合所述特殊标注规则,则对所述数据段落进行特殊标注的具体步骤包括:判断所述数据段落是否符合所述动词标注规则或所述名词标注规则;若所述数据段落符合所述动词标注规则,则对所述数据段落进行第一特殊标注;若所述数据段落是否符合所述名词标注规则,则对所述数据段落进行第二特殊标注。6.根据权利要求5所述的一种大数据样本序列标注方法,其特征在于,所述动词标注规则包括形容词用作动词...

【专利技术属性】
技术研发人员:田笔挥杨闯倪祥福
申请(专利权)人:深圳市智联九九通讯技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1