System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及网络信息安全,具体是一种基于nlp提高敏感数据识别率的方法。
技术介绍
1、数据安全一般指通过采取必要措施确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。数据安全应保证数据生产、存储、传输、访问、使用、销毁、公开等全过程的安全,并保证数据处理过程的保密性、完整性、可用性。例如个人姓名、联系方式、家庭住址、车辆登记、社交媒体等。这些虽然都是非实体隐含数据,但往往涉及个人隐私,甚至可能造成实时定位等公共安全问题。
2、目前,对从大量文本中定位出敏感信息,数据识别和定位通常采用关键字字典映射、正则表达式匹配,甚至是人工标识。这些方法对于文本量小的数据来说或许有效,但对于大量文本,或者敏感数据掺杂在文本之中,系统往往不能精准识别到。
技术实现思路
1、为了解决上述技术问题,本专利技术的目的在于提供一种基于nlp提高敏感数据识别率的方法,该方法优化一般识别流程,对原始数据进行干扰因素过滤、分词、语义分析等处理,加强数据识别过程中对中英文敏感数据的提炼和解析,以提升敏感数据的识别率。
2、本专利技术提供了一种基于nlp提高敏感数据识别率的方法,包括以下步骤:
3、对原始数据进行识别,当未得到识别结果时,启动nlp处理模块对数据进行处理;
4、nlp处理模块对原始数据进行处理,得到处理后的数据;
5、再对nlp处理模块处理后的数据进行二次识别;
6、进行二次识别后输出结果数据。
8、nlp处理模块主要负责对原始数据中的中英文进行干扰因素过滤、分词、语义分析处理,得到处理后的数据。
9、优选地,所述干扰因素过滤组件主要针对英文字符串,先过滤处理英文字符中的特殊符号,并按照驼峰命名方法处理过滤后的字符,形成英文字符串;针对中文,先过滤处理中文字符中的特殊符号,形成中文字符串;判断过滤后数据的长度是否超过阈值,若未超过阈值,当前流程结束,输出过滤结果;若数据长度超过阈值;传递数据到分词组件。
10、优选地,所述英文字符串中的特殊符号包括-、@符号和空格中的一种或者多种。
11、优选地,所述中文字符中的特殊符号包括空格、回车和分页符中的一种或者多种。
12、优选地,所述分词组件是将连续的字序列按照预设规范重新组合成词序列,结合上下文识别生词,自动消除歧义,提取文本中的实体及关系,获取特征分布;传递分词后的数据到语义分析组件。
13、优选地,所述语义分析组件根据分词组件提供的数据,进行语义角色标注,识别文本中实体的语义角色,再抽取文本中的事件,最后结合上下文,确定文本的含义和解释;输出结果数据。
14、优选地,所述事件包括事件类型、事件参与者、事件时间。
15、与现有技术相比,本专利技术的有益效果是:
16、1. 针对现有流程的处理弊端,增加nlp处理模块,模块功能包括干扰因素过滤组件、分词组件和语义分析组件,对无法识别的原始数据进行干扰因素过滤、分词、语义分析处理。针对英文(表名、字段名等),先过滤处理英文字符中的-、@符号、空格等特殊符号,并按照驼峰命名方法处理过滤后的字符,针对中文(注释、样本值等),先过滤处理中文字符中的空格、回车、分页符等特殊符号。其次判断过滤后数据的长度是否超过阈值。若超过,进行分词处理,提取文本中的实体及关系,获取特征分布,再进行语义分析,标注语义角色,抽取文本中的事件,结合上下文确定文本的含义和解释,得出理想数据。对nlp处理模块处理后的数据,再次进行识别,以期提升敏感数据的识别率。
17、2.对原来的识别流程进行优化,增加nlp处理模块,对原始数据中的中英文进行干扰因素过滤、分词、语义分析处理,得到理想数据后,再进行二次识别。此优化排除了干扰因素,经过数据的筛选分析和补充修复,极大提升了文本质量。单纯使用字典或正则技术识别将受到很大限制。通过nlp处理后的数据更接近用户真实的表达,并且该nlp处理是在原有流程首次识别失败后进行的补充处理,是对原流程的增强优化,有助于提升敏感数据的识别率。
18、3.对原始数据中的文本段落进行分词提取和文本挖掘,结合上下文和语义,得到段落中的关键字段,尤其对中文段落的处理最明显,改变了原流程对文本段落识别率低的局面。
本文档来自技高网...【技术保护点】
1.一种基于NLP提高敏感数据识别率的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于NLP提高敏感数据识别率的方法,其特征在于,NLP处理模块中的功能模块包括干扰因素过滤组件、分词组件和语义分析组件;
3.根据权利要求2所述的一种基于NLP提高敏感数据识别率的方法,其特征在于,所述干扰因素过滤组件主要针对英文字符串,先过滤处理英文字符中的特殊符号,并按照驼峰命名方法处理过滤后的字符,形成英文字符串;针对中文,先过滤处理中文字符中的特殊符号,形成中文字符串;判断过滤后数据的长度是否超过阈值,若未超过阈值,当前流程结束,输出过滤结果;若数据长度超过阈值;传递数据到分词组件。
4.根据权利要求3所述的一种基于NLP提高敏感数据识别率的方法,其特征在于,所述英文字符串中的特殊符号包括-、@符号和空格中的一种或者多种。
5.根据权利要求4所述的一种基于NLP提高敏感数据识别率的方法,其特征在于,所述中文字符中的特殊符号包括空格、回车和分页符中的一种或者多种。
6.根据权利要求5所述的一种基于NLP提高敏感数据识
7.根据权利要求6所述的一种基于NLP提高敏感数据识别率的方法,其特征在于,所述语义分析组件根据分词组件提供的数据,进行语义角色标注,识别文本中实体的语义角色,再抽取文本中的事件,最后结合上下文,确定文本的含义和解释;输出结果数据。
8.根据权利要求7所述的一种基于NLP提高敏感数据识别率的方法,其特征在于,所述事件包括事件类型、事件参与者、事件时间。
...【技术特征摘要】
1.一种基于nlp提高敏感数据识别率的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于nlp提高敏感数据识别率的方法,其特征在于,nlp处理模块中的功能模块包括干扰因素过滤组件、分词组件和语义分析组件;
3.根据权利要求2所述的一种基于nlp提高敏感数据识别率的方法,其特征在于,所述干扰因素过滤组件主要针对英文字符串,先过滤处理英文字符中的特殊符号,并按照驼峰命名方法处理过滤后的字符,形成英文字符串;针对中文,先过滤处理中文字符中的特殊符号,形成中文字符串;判断过滤后数据的长度是否超过阈值,若未超过阈值,当前流程结束,输出过滤结果;若数据长度超过阈值;传递数据到分词组件。
4.根据权利要求3所述的一种基于nlp提高敏感数据识别率的方法,其特征在于,所述英文字符串中的特殊符号包括-、@符号和空格中的一种或者多种。
【专利技术属性】
技术研发人员:李志豪,王奕淳,
申请(专利权)人:中国农业银行股份有限公司湖北省分行,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。