文本正则化方法、装置、电子设备和存储介质制造方法及图纸

技术编号：29674995 阅读：17 留言：0更新日期：2021-08-13 21:57

本申请涉及自然语言处理技术领域，具体公开了一种文本正则化方法、装置、电子设备和存储介质，其中，正则化方法包括：对正则表达式中的正则元字符进行替换处理，得到第一字符串；对所述第一字符串进行分割，得到至少一个第二字符串；根据所述至少一个第二字符串，生成第一字典，并根据所述第一字典对所述第一字符串进行替换，得到第三字符串；根据所述第一字典和第一文本，生成第二字典，其中，所述第一文本为待使用所述正则表达式进行正则化的文本；根据所述第二字典将所述第三字符串转化为位运算式，并获取所述位运算式的运算结果；根据所述运算结果确定是否使用所述正则表达式对所述第一文本进行正则化。

全部详细技术资料下载

【技术实现步骤摘要】
文本正则化方法、装置、电子设备和存储介质
本专利技术涉及自然语言处理
，具体涉及一种文本正则化方法、装置、电子设备和存储介质。
技术介绍
正则表达式(RegularExpression，简写为regex、regexp或RE)，又称规则表达式，通常被用来检索、替换符合某个模式或规则的文本。目前，对于简单的正则表达式编写难度尚可，运行效率较高。但是，对于复杂的正则表达式，编写和验证的过程不易实现，且运行时间较长，导致正则化的效率并不高，在耗时的同时并不清楚运行完成后的是否能产生相应的结果，使得在无法产生相应的正则化结果时，计算资源被白白消耗。
技术实现思路
为了解决现有技术中存在的上述问题，本申请实施方式提供了一种文本正则化方法、装置、电子设备和存储介质，可以在正则表达式运行前对运行完成后是否能产生相应的结果进行预测，从而决定是否运行该正则表达式，提高了正则化效率，同时，防止了计算资源产生无用的消耗。第一方面，本申请的实施方式提供了一种文本正则化方法，包括：对正则表达式中的正则元字符进行替换处理，得到第一字符串；对第一字符串进行分割，得到至少一个第二字符串；根据至少一个第二字符串，生成第一字典，并根据第一字典对第一字符串进行替换，得到第三字符串；根据第一字典和第一文本，生成第二字典，其中，第一文本为待使用正则表达式进行正则化的文本；根据第二字典将第三字符串转化为位运算式，并获取位运算式的运算结果；根据运算结果确定是否使用正则表达式对第一文本...

【技术保护点】
1.一种文本正则化方法，其特征在于，所述正则化方法包括：/n对正则表达式中的正则元字符进行替换处理，得到第一字符串；/n对所述第一字符串进行分割，得到至少一个第二字符串；/n根据所述至少一个第二字符串，生成第一字典，并根据所述第一字典对所述第一字符串进行替换，得到第三字符串；/n根据所述第一字典和第一文本，生成第二字典，其中，所述第一文本为待使用所述正则表达式进行正则化的文本；/n根据所述第二字典将所述第三字符串转化为位运算式，并获取所述位运算式的运算结果；/n根据所述运算结果确定是否使用所述正则表达式对所述第一文本进行正则化。/n

【技术特征摘要】
1.一种文本正则化方法，其特征在于，所述正则化方法包括：
对正则表达式中的正则元字符进行替换处理，得到第一字符串；
对所述第一字符串进行分割，得到至少一个第二字符串；
根据所述至少一个第二字符串，生成第一字典，并根据所述第一字典对所述第一字符串进行替换，得到第三字符串；
根据所述第一字典和第一文本，生成第二字典，其中，所述第一文本为待使用所述正则表达式进行正则化的文本；
根据所述第二字典将所述第三字符串转化为位运算式，并获取所述位运算式的运算结果；
根据所述运算结果确定是否使用所述正则表达式对所述第一文本进行正则化。

2.根据权利要求1所述的正则化方法，其特征在于，所述对正则表达式中的正则元字符进行替换处理，得到第一字符串，包括：
将所述正则表达式中的第一正则元字符替换为空字符，得到第四字符串，其中，所述第一正则元字符为所述正则表达式中匹配位置或边界位置的正则元字符；
当所述第四字符串中不包含第二正则元字符时，将所述第四字符串中的第三正则元字符替换为第一字符，得到所述第一字符串，其中，所述第二正则元字符为所述正则表达式中与位运算“与或非”中的“非”的含义相同的正则元字符，所述第三正则元字符为所述正则表达式中与位运算“与或非”中的“与”的含义相同的正则元字符；
当所述第四字符串中包含所述第二正则元字符时，将所述第四字符串置空。

3.根据权利要求1所述的正则化方法，其特征在于，所述根据分割规则对所述第一字符串进行分割，得到至少一个第二字符串，包括：
根据所述第一字符串中的第二字符，对所述第一字符串进行分割，得到所述至少一个第二字符串；
其中，所述第二字符为位运算中表征“与或非”中的“与”的含义的字符；以及
所述第二字符为位运算中表征“与或非”中的“或”的含义的字符；以及
所述第二字符为位运算中表征“左括号”的含义的字符；以及
所述第二字符为位运算中表征“右括号”的含义的字符。

4.根据权利要求1-3中任意一项所述的正则化方法，其特征在于，所述根据所述至少一个第二字符串生成第一字典，包括：
对于所述至少一个第二字符串中的每个第二字符串，分别获取所述每个第二字符串对应的MD5值，得到至少一个MD5值，其中，所述至少一个MD5值与所述至少一个第二字符串一一对应；
将所述每个第二字符串和所述每个第二字符串对应的MD5值组成第一数据组，得到至少一个第一数据组，其中，所述至少一个第一数据组与所述至少一个第二字符串...

【专利技术属性】
技术研发人员：李超，
申请(专利权)人：深圳壹账通智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人