文本正则化方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29674995 阅读:17 留言:0更新日期:2021-08-13 21:57
本申请涉及自然语言处理技术领域,具体公开了一种文本正则化方法、装置、电子设备和存储介质,其中,正则化方法包括:对正则表达式中的正则元字符进行替换处理,得到第一字符串;对所述第一字符串进行分割,得到至少一个第二字符串;根据所述至少一个第二字符串,生成第一字典,并根据所述第一字典对所述第一字符串进行替换,得到第三字符串;根据所述第一字典和第一文本,生成第二字典,其中,所述第一文本为待使用所述正则表达式进行正则化的文本;根据所述第二字典将所述第三字符串转化为位运算式,并获取所述位运算式的运算结果;根据所述运算结果确定是否使用所述正则表达式对所述第一文本进行正则化。

【技术实现步骤摘要】
文本正则化方法、装置、电子设备和存储介质
本专利技术涉及自然语言处理
,具体涉及一种文本正则化方法、装置、电子设备和存储介质。
技术介绍
正则表达式(RegularExpression,简写为regex、regexp或RE),又称规则表达式,通常被用来检索、替换符合某个模式或规则的文本。目前,对于简单的正则表达式编写难度尚可,运行效率较高。但是,对于复杂的正则表达式,编写和验证的过程不易实现,且运行时间较长,导致正则化的效率并不高,在耗时的同时并不清楚运行完成后的是否能产生相应的结果,使得在无法产生相应的正则化结果时,计算资源被白白消耗。
技术实现思路
为了解决现有技术中存在的上述问题,本申请实施方式提供了一种文本正则化方法、装置、电子设备和存储介质,可以在正则表达式运行前对运行完成后是否能产生相应的结果进行预测,从而决定是否运行该正则表达式,提高了正则化效率,同时,防止了计算资源产生无用的消耗。第一方面,本申请的实施方式提供了一种文本正则化方法,包括:对正则表达式中的正则元字符进行替换处理,得到第一字符串;对第一字符串进行分割,得到至少一个第二字符串;根据至少一个第二字符串,生成第一字典,并根据第一字典对第一字符串进行替换,得到第三字符串;根据第一字典和第一文本,生成第二字典,其中,第一文本为待使用正则表达式进行正则化的文本;根据第二字典将第三字符串转化为位运算式,并获取位运算式的运算结果;根据运算结果确定是否使用正则表达式对第一文本进行正则化。第二方面,本申请的实施方式提供了一种文本正则化装置,包括:字符替换模块,用于对正则表达式中的正则元字符进行替换处理,得到第一字符串;分割模块,用于对第一字符串进行分割,得到至少一个第二字符串;字典生成模块,用于根据至少一个第二字符串,生成第一字典,并根据第一字典对第一字符串进行替换,得到第三字符串;以及根据第一字典和第一文本,生成第二字典,其中,第一文本为待使用正则表达式进行正则化的文本;转化模块,用于根据第二字典将第三字符串转化为位运算式,并获取位运算式的运算结果;处理模块,用于根据运算结果确定是否使用正则表达式对第一文本进行正则化。第三方面,本申请实施方式提供一种电子设备,包括:处理器,处理器与存储器相连,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得电子设备执行如第一方面的方法。第四方面,本申请实施方式提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序使得计算机执行如第一方面的方法。第五方面,本申请实施方式提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机可操作来使计算机执行如第一方面的方法。实施本申请实施方式,具有如下有益效果:在本申请实施方式中,通过对正则表达式中的正则元字符进行替换处理,得到第一字符串,再对第一字符串进行分割,得到至少一个第二字符串。继而,根据至少一个第二字符串,生成第一字典,并通过第一字典对第一字符串进行替换,得到第三字符串。最后,根据第一字典和第一文本,生成第二字典,并通过第二字典将第三字符串转化为位运算式。由此,将复杂的正则表达式转化为简单易懂的位运算式,极大的降低了正则表达式的读取门槛。同时,在本申请实施方式中,还根据位运算式的运算结果确定是否使用正则表达式对第一文本进行正则化。实现了在正则表达式对文本进行正则化前,对正则化后是否能产生相应的正则化结果进行预测,从而决定是否运行该正则表达式,提高了正则化效率,同时,防止了计算资源产生无用的消耗。附图说明为了更清楚地说明本申请实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施方式提供的一种文本正则化装置的硬件结构示意图;图2为本申请实施方式提供的一种获取最内层括号内的正则表达式的方法的流程示意图图3为本申请实施方式提供的一种文本正则化方法的流程示意图;图4为本申请实施方式提供的一种对正则表达式中的正则元字符进行替换处理,得到第一字符串的方法的流程示意图;图5为本申请实施方式提供的一种获取最长公共子序列的长度的方法的流程示意图;图6为本申请实施方式提供的一种根据至少一个第二字符串,生成第一字典的方法的流程示意图;图7为本申请实施方式提供的一种根据第一字典和第一文本,生成第二字典的方法的流程示意图;图8为本申请实施方式提供的一种文本正则化装置的功能模块组成框图;图9为本申请实施方式提供的一种电子设备的结构示意图。具体实施方式下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施方式”意味着,结合实施方式描述的特定特征、结果或特性可以包含在本申请的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式,也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是,本文所描述的实施方式可以与其它实施方式相结合。参阅图1,图1为本申请实施方式提供的一种文本正则化装置的硬件结构示意图。该文本正则化装置100包括至少一个处理器101,通信线路102,存储器103以及至少一个通信接口104。在本实施方式中,处理器101,可以是一个通用中央处理器(centralprocessingunit,CPU),微处理器,特定应用集成电路(application-specificintegratedcircuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。通信线路102,可以包括一通路,在上述组件之间传送信息。通信接口104,可以是任何收发器一类的装置(如天线等),用于与其他设备或通信网络通信,例如以太网,RAN,无线局域网(wirelesslocalareanetworks,WLAN)等。存储器103,可以是只读存储器(read-onlymemory,ROM)或可本文档来自技高网...

【技术保护点】
1.一种文本正则化方法,其特征在于,所述正则化方法包括:/n对正则表达式中的正则元字符进行替换处理,得到第一字符串;/n对所述第一字符串进行分割,得到至少一个第二字符串;/n根据所述至少一个第二字符串,生成第一字典,并根据所述第一字典对所述第一字符串进行替换,得到第三字符串;/n根据所述第一字典和第一文本,生成第二字典,其中,所述第一文本为待使用所述正则表达式进行正则化的文本;/n根据所述第二字典将所述第三字符串转化为位运算式,并获取所述位运算式的运算结果;/n根据所述运算结果确定是否使用所述正则表达式对所述第一文本进行正则化。/n

【技术特征摘要】
1.一种文本正则化方法,其特征在于,所述正则化方法包括:
对正则表达式中的正则元字符进行替换处理,得到第一字符串;
对所述第一字符串进行分割,得到至少一个第二字符串;
根据所述至少一个第二字符串,生成第一字典,并根据所述第一字典对所述第一字符串进行替换,得到第三字符串;
根据所述第一字典和第一文本,生成第二字典,其中,所述第一文本为待使用所述正则表达式进行正则化的文本;
根据所述第二字典将所述第三字符串转化为位运算式,并获取所述位运算式的运算结果;
根据所述运算结果确定是否使用所述正则表达式对所述第一文本进行正则化。


2.根据权利要求1所述的正则化方法,其特征在于,所述对正则表达式中的正则元字符进行替换处理,得到第一字符串,包括:
将所述正则表达式中的第一正则元字符替换为空字符,得到第四字符串,其中,所述第一正则元字符为所述正则表达式中匹配位置或边界位置的正则元字符;
当所述第四字符串中不包含第二正则元字符时,将所述第四字符串中的第三正则元字符替换为第一字符,得到所述第一字符串,其中,所述第二正则元字符为所述正则表达式中与位运算“与或非”中的“非”的含义相同的正则元字符,所述第三正则元字符为所述正则表达式中与位运算“与或非”中的“与”的含义相同的正则元字符;
当所述第四字符串中包含所述第二正则元字符时,将所述第四字符串置空。


3.根据权利要求1所述的正则化方法,其特征在于,所述根据分割规则对所述第一字符串进行分割,得到至少一个第二字符串,包括:
根据所述第一字符串中的第二字符,对所述第一字符串进行分割,得到所述至少一个第二字符串;
其中,所述第二字符为位运算中表征“与或非”中的“与”的含义的字符;以及
所述第二字符为位运算中表征“与或非”中的“或”的含义的字符;以及
所述第二字符为位运算中表征“左括号”的含义的字符;以及
所述第二字符为位运算中表征“右括号”的含义的字符。


4.根据权利要求1-3中任意一项所述的正则化方法,其特征在于,所述根据所述至少一个第二字符串生成第一字典,包括:
对于所述至少一个第二字符串中的每个第二字符串,分别获取所述每个第二字符串对应的MD5值,得到至少一个MD5值,其中,所述至少一个MD5值与所述至少一个第二字符串一一对应;
将所述每个第二字符串和所述每个第二字符串对应的MD5值组成第一数据组,得到至少一个第一数据组,其中,所述至少一个第一数据组与所述至少一个第二字符串...

【专利技术属性】
技术研发人员:李超
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1