海关数据产品词的提取方法及检索方法技术

技术编号:26418594 阅读:21 留言:0更新日期:2020-11-20 14:13
本发明专利技术提供了一种海关数据产品词的提取方法及检索方法。其中提取方法首先将海关描述文本中的多余部分清理干净,转化成较好处理的形式;接着启发式的找到海关描述文本中的分割词,将产品词和描述部分进行分割;再将文本中的量词和日期正则替换为空格符或删除;然后通过语法规则删除文本中的描述部分,或使用互信息和左右信息熵对数据进行产品词组的提取,得到单词数≤5产品词组作为产品词加入词库。检索方法是首先对待检索文本进行分词,然后采用bit map或hash map结构在构建的词库中进行检索。本发明专利技术结合了语法结构、互信息、字符信息和海关数据特有的结构信息,可以充分结合各种信息的优势,准确提取和检索出产品词。

【技术实现步骤摘要】
海关数据产品词的提取方法及检索方法
本专利技术属于通信
,尤其涉及一种海关数据产品词的提取方法及检索方法。
技术介绍
海关数据和快递数据中一般必须包含对所运物品的描述,这些描述是对具体产品的描述,带有大量的产品词信息,如产品名称、产品属性、生产商信息、产品功能及广告词等。因此,对产品词进行清洗利用的可行性比较大。当我们拥有一个完整的产品词库时,我们使用它能够快速对已有文本数据进行检索,增加文本数据的利用率和检索效率。但是,由于这种产品词包含大量非结构化词句,导致其关键词的提取较难,很难有合适的算法对其进行有效提取。传统的产品词词库通常是基于人工录入和网络收集的,需要大量成本维护,同时并不能保证实时性。目前产品词的提取还存在以下问题:1.人工录入时手写的单词容易存在错词的情况;2.词句之间的分割时有错误的现象;3.产品词中经常会包含对产品的性能、品质等的描述语句,此类描述语句中包含缩略词、数字、停用词以及符号等,容易造成分词出来的结果效果不佳。因此,急需提供一种产品词的提取方法,从而快速准确的构建产品词词库,并为产品词的检索提供基础数据。
技术实现思路
针对上述现有技术存在的缺陷,本专利技术的目的在于提供一种海关数据产品词的提取方法,结合语法结构、互信息、字符信息和海关数据特有的结构信息等,快速准确的提取出产品词。为实现上述目的,本专利技术采用以下技术方案实现:一种海关数据产品词的提取方法,包括以下步骤:S1.首先对海关描述文本进行格式统一化处理,然后将连词符以外的特殊符号清洗删除,并规范化单词间隔;S2.对海关描述文本中的连词符做如下处理:将连接有数字的连词符组成的字符串替换为空格符;将前后分别连接一个或两个字符的字符串删除;S3.然后启发式的找到海关描述文本中的分割词,将海关描述文本中的产品词和描述部分进行分割;接着将海关描述文本中的量词和日期正则替换为空格符或删除;S4.使用步骤S3所述的分割词将海关描述文本分割为若干语句,通过语法规则删除所述海关描述文本中的描述部分,将单词数≤5的产品词组作为产品词加入词库;或者使用互信息和左右信息熵对经步骤S2处理后的海关描述文本进行产品词组的提取,根据提取结果的抽查,不断调整互信息和左右信息熵的阈值,将抽取到的单词数≤5产品词组保留下来作为产品词加入词库。作为本专利技术的进一步改进,在步骤S1中,所述特殊符号包括但不限于为划线、单引号、双引号、省略号、中的一种或多种。作为本专利技术的进一步改进,在步骤S3中,所述分割词包括字符个数大于20的字符串和字符个数≤3且频率很低的字符串。作为本专利技术的进一步改进,在步骤S3中,所述频率很低的字符串通过以下方法确定:统计所有字符串,计算每一个字符串出现的频率,频率低于阈值的字符串即为频率很低的字符串。作为本专利技术的进一步改进,在步骤S4中,所述语法规则包括:删除for,used,use,only,ho,and之后的所有字符串;删除首尾单词分别为以下字符的字符串:start_str=['ft','vi','ab','only','is','part','parts','of','with','al-gt','on'];end_str=['br','au','tro','ea','the','vi','of','not','bj','nut-','pro-et','sf','iii','all','perc','and','f','to'];删除字符串开头或结尾为以下字符的字符串:single_str=['old','input','inch','nan','big','mic','de','pre','in','parts','part','felt','not','hot','ft','ab','ms','to']。作为本专利技术的进一步改进,在步骤S4中,所述互信息的计算公式如下:式中,X和Y表示两个相邻的词,P(X,Y)表示X和Y相邻,且X出现在Y前面的概率,P(X)表示X出现的概率;所述左右信息熵的计算公式如下:式中,EL(W)和ER(W)分别表示左熵和右熵,W表示产品词,A表示W左边出现的所有词的集合,B表示W右边出现的所有词的集合。作为本专利技术的进一步改进,步骤S4中所述词库对所述产品词采用hashmap结构进行存储,且每一个所述产品词的第一个词为key,所述产品词的整体为hash结构的value。一种海关数据产品词的检索方法,包括以下步骤:a1.首先对待检索文本进行分词,构建一个bitmap,以0为初始值;b1.然后在以上所述的词库中遍历所述待检索文本中的每一个单词,如果词库中包含所述待检索文本中的单词,则将该单词对应的初始值0替换为1;c1.最后将bitmap中1的位置拼接起来,得到融合之后的产品词,即为检索目标。一种海关数据产品词的检索方法,包括以下步骤:a2.首先对待检索文本进行分词;b2.然后将以上所述的词库减小为key仅为步骤a2所述的待检索文本中的每个单词的hashmap;c2.最后使用滑动窗口在所述词库中对所述待检索文本进行检索,得到所有潜在的产品词,并且依次判断是否在hash结构中,如果在,则即得到检索目标。作为本专利技术的进一步改进,在步骤c2中,所述滑动窗口的元素个数≤5。有益效果与现有技术相比,本专利技术提供的海关数据产品词的提取方法及检索方法具有如下有益效果:(1)本专利技术提供的海关数据产品词的提取方法,针对海关描述文本特有的结构信息,对文本中的特殊字符进行删除或替换,其中,对海关描述文本中的连词符做如下处理:将连接有数字的连词符组成的字符串替换为空格符;将前后分别连接一个或两个字符的字符串删除,以简化文本的组成,从而降低产品词提取难度,提高提取速率和准确率。然后选用字符个数≤3频率很低的字符串和字符个数大于20的字符串作为分割词,对文本进行分割,并根据针对海关描述文本的语法结构,通过语法规则删除描述部分,或使用互信息和左右信息熵对数据进行产品词组的提取,得到单词数≤5产品词组作为产品词加入词库。此种提取方式,针对性更强,因此准确率更高,同时结合了语法结构、互信息、字符信息、海关数据特有的结构信息,可以很准确完整的在海关描述中找到产品词。(2)本专利技术提供的海关数据产品词的提取方法,选用字符个数大于20的字符串和字符个数≤3且频率很低的字符串作为分割词,对海关描述文本中的产品词和描述部分进行分割。此种分割词的选用合理,且较适用于海关描述文本,因此分割准确度高。使用互信息和左右信息熵提取产品词,根据提取结果的抽查,不断调整互信息和左右信息熵的阈值,最终将得到单词数≤5产品词组作为产品词加入词库,而且使用hashmap结构对产品词进行存储。此种方法得到的词库更有利于词库的更新和管理,由于产品词的单词数小于等于5,因此能够提高后续检索准确本文档来自技高网...

【技术保护点】
1.一种海关数据产品词的提取方法,其特征在于,包括以下步骤:/nS1.首先对海关描述文本进行格式统一化处理,然后清洗以及删除除了连词符以外的特殊符号,并规范化单词间隔;/nS2.对海关描述文本中的连词符做如下处理:将连接有数字的连词符组成的字符串替换为空格符;将前后分别连接一个或两个字符的字符串删除;/nS3.然后启发式的找到海关描述文本中的分割词,将海关描述文本中的产品词和描述部分进行分割;接着将海关描述文本中的量词和日期正则替换为空格符或删除;/nS4.使用步骤S3所述的分割词将海关描述文本分割为若干语句,通过语法规则删除所述海关描述文本中的描述部分,将单词数≤5的产品词组作为产品词加入词库;/n或者使用互信息和左右信息熵对经步骤S2处理后的海关描述文本进行产品词组的提取,根据提取结果的抽查,不断调整互信息和左右信息熵的阈值,将抽取到的单词数≤5产品词组保留下来作为产品词加入词库。/n

【技术特征摘要】
1.一种海关数据产品词的提取方法,其特征在于,包括以下步骤:
S1.首先对海关描述文本进行格式统一化处理,然后清洗以及删除除了连词符以外的特殊符号,并规范化单词间隔;
S2.对海关描述文本中的连词符做如下处理:将连接有数字的连词符组成的字符串替换为空格符;将前后分别连接一个或两个字符的字符串删除;
S3.然后启发式的找到海关描述文本中的分割词,将海关描述文本中的产品词和描述部分进行分割;接着将海关描述文本中的量词和日期正则替换为空格符或删除;
S4.使用步骤S3所述的分割词将海关描述文本分割为若干语句,通过语法规则删除所述海关描述文本中的描述部分,将单词数≤5的产品词组作为产品词加入词库;
或者使用互信息和左右信息熵对经步骤S2处理后的海关描述文本进行产品词组的提取,根据提取结果的抽查,不断调整互信息和左右信息熵的阈值,将抽取到的单词数≤5产品词组保留下来作为产品词加入词库。


2.根据权利要求1所述的海关数据产品词的提取方法,其特征在于,在步骤S1中,所述特殊符号包括但不限于为划线、单引号、双引号、省略号、中的一种或多种。


3.根据权利要求1所述的海关数据产品词的提取方法,其特征在于,在步骤S3中,所述分割词包括字符个数大于20的字符串和字符个数≤3且频率很低的字符串。


4.根据权利要求3所述的海关数据产品词的提取方法,其特征在于,在步骤S3中,所述频率很低的字符串通过以下方法确定:统计所有字符串,计算每一个字符串出现的频率,频率低于阈值的字符串即为频率很低的字符串。


5.根据权利要求1所述的海关数据产品词的提取方法,其特征在于,在步骤S4中,所述语法规则包括:删除for,used,use,only,ho,and之后的所有字符串;
删除首尾单词分别为以下字符的字符串:
start_str=['ft','vi','ab','only','is','part','parts','of','with','al-gt','on'];
end_str=['br','au','tro','ea','the','vi','of','not','bj','nut-','pro-et','sf','iii','all','perc...

【专利技术属性】
技术研发人员:车进曹彬
申请(专利权)人:深圳市小满科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1