海关数据产品词的提取方法及检索方法技术

技术编号：26418594 阅读：21 留言：0更新日期：2020-11-20 14:13

本发明专利技术提供了一种海关数据产品词的提取方法及检索方法。其中提取方法首先将海关描述文本中的多余部分清理干净，转化成较好处理的形式；接着启发式的找到海关描述文本中的分割词，将产品词和描述部分进行分割；再将文本中的量词和日期正则替换为空格符或删除；然后通过语法规则删除文本中的描述部分，或使用互信息和左右信息熵对数据进行产品词组的提取，得到单词数≤5产品词组作为产品词加入词库。检索方法是首先对待检索文本进行分词，然后采用bit map或hash map结构在构建的词库中进行检索。本发明专利技术结合了语法结构、互信息、字符信息和海关数据特有的结构信息，可以充分结合各种信息的优势，准确提取和检索出产品词。

全部详细技术资料下载

【技术实现步骤摘要】
海关数据产品词的提取方法及检索方法
本专利技术属于通信
，尤其涉及一种海关数据产品词的提取方法及检索方法。
技术介绍
海关数据和快递数据中一般必须包含对所运物品的描述，这些描述是对具体产品的描述，带有大量的产品词信息，如产品名称、产品属性、生产商信息、产品功能及广告词等。因此，对产品词进行清洗利用的可行性比较大。当我们拥有一个完整的产品词库时，我们使用它能够快速对已有文本数据进行检索，增加文本数据的利用率和检索效率。但是，由于这种产品词包含大量非结构化词句，导致其关键词的提取较难，很难有合适的算法对其进行有效提取。传统的产品词词库通常是基于人工录入和网络收集的，需要大量成本维护，同时并不能保证实时性。目前产品词的提取还存在以下问题：1.人工录入时手写的单词容易存在错词的情况；2.词句之间的分割时有错误的现象；3.产品词中经常会包含对产品的性能、品质等的描述语句，此类描述语句中包含缩略词、数字、停用词以及符号等，容易造成分词出来的结果效果不佳。因此，急需提供一种产品词的提取方法，从而快速准确的构建产品词词库，并为产品词的检索提供基础数据。
技术实现思路
针对上述现有技术存在的缺陷，本专利技术的目的在于提供一种海关数据产品词的提取方法，结合语法结构、互信息、字符信息和海关数据特有的结构信息等，快速准确的提取出产品词。为实现上述目的，本专利技术采用以下技术方案实现：一种海关数据产品词的提取方法，包括以下步骤：S1.首先对海关描述文本进行格式统一化处理，然后将...

【技术保护点】
1.一种海关数据产品词的提取方法，其特征在于，包括以下步骤：/nS1.首先对海关描述文本进行格式统一化处理，然后清洗以及删除除了连词符以外的特殊符号，并规范化单词间隔；/nS2.对海关描述文本中的连词符做如下处理：将连接有数字的连词符组成的字符串替换为空格符；将前后分别连接一个或两个字符的字符串删除；/nS3.然后启发式的找到海关描述文本中的分割词，将海关描述文本中的产品词和描述部分进行分割；接着将海关描述文本中的量词和日期正则替换为空格符或删除；/nS4.使用步骤S3所述的分割词将海关描述文本分割为若干语句，通过语法规则删除所述海关描述文本中的描述部分，将单词数≤5的产品词组作为产品词加入词库；/n或者使用互信息和左右信息熵对经步骤S2处理后的海关描述文本进行产品词组的提取，根据提取结果的抽查，不断调整互信息和左右信息熵的阈值，将抽取到的单词数≤5产品词组保留下来作为产品词加入词库。/n

【技术特征摘要】
1.一种海关数据产品词的提取方法，其特征在于，包括以下步骤：
S1.首先对海关描述文本进行格式统一化处理，然后清洗以及删除除了连词符以外的特殊符号，并规范化单词间隔；
S2.对海关描述文本中的连词符做如下处理：将连接有数字的连词符组成的字符串替换为空格符；将前后分别连接一个或两个字符的字符串删除；
S3.然后启发式的找到海关描述文本中的分割词，将海关描述文本中的产品词和描述部分进行分割；接着将海关描述文本中的量词和日期正则替换为空格符或删除；
S4.使用步骤S3所述的分割词将海关描述文本分割为若干语句，通过语法规则删除所述海关描述文本中的描述部分，将单词数≤5的产品词组作为产品词加入词库；
或者使用互信息和左右信息熵对经步骤S2处理后的海关描述文本进行产品词组的提取，根据提取结果的抽查，不断调整互信息和左右信息熵的阈值，将抽取到的单词数≤5产品词组保留下来作为产品词加入词库。

2.根据权利要求1所述的海关数据产品词的提取方法，其特征在于，在步骤S1中，所述特殊符号包括但不限于为划线、单引号、双引号、省略号、中的一种或多种。

3.根据权利要求1所述的海关数据产品词的提取方法，其特征在于，在步骤S3中，所述分割词包括字符个数大于20的字符串和字符个数≤3且频率很低的字符串。

4.根据权利要求3所述的海关数据产品词的提取方法，其特征在于，在步骤S3中，所述频率很低的字符串通过以下方法确定：统计所有字符串，计算每一个字符串出现的频率，频率低于阈值的字符串即为频率很低的字符串。

5.根据权利要求1所述的海关数据产品词的提取方法，其特征在于，在步骤S4中，所述语法规则包括：删除for,used,use,only,ho,and之后的所有字符串；
删除首尾单词分别为以下字符的字符串：
start_str＝['ft','vi','ab','only','is','part','parts','of','with','al-gt','on']；
end_str＝['br','au','tro','ea','the','vi','of','not','bj','nut-','pro-et','sf','iii','all','perc...

【专利技术属性】
技术研发人员：车进，曹彬，
申请(专利权)人：深圳市小满科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人