【技术实现步骤摘要】
海关数据产品词的提取方法及检索方法
本专利技术属于通信
,尤其涉及一种海关数据产品词的提取方法及检索方法。
技术介绍
海关数据和快递数据中一般必须包含对所运物品的描述,这些描述是对具体产品的描述,带有大量的产品词信息,如产品名称、产品属性、生产商信息、产品功能及广告词等。因此,对产品词进行清洗利用的可行性比较大。当我们拥有一个完整的产品词库时,我们使用它能够快速对已有文本数据进行检索,增加文本数据的利用率和检索效率。但是,由于这种产品词包含大量非结构化词句,导致其关键词的提取较难,很难有合适的算法对其进行有效提取。传统的产品词词库通常是基于人工录入和网络收集的,需要大量成本维护,同时并不能保证实时性。目前产品词的提取还存在以下问题:1.人工录入时手写的单词容易存在错词的情况;2.词句之间的分割时有错误的现象;3.产品词中经常会包含对产品的性能、品质等的描述语句,此类描述语句中包含缩略词、数字、停用词以及符号等,容易造成分词出来的结果效果不佳。因此,急需提供一种产品词的提取方法,从而快速准确的构建产品词词库,并为产品词的检索提供基础数据。
技术实现思路
针对上述现有技术存在的缺陷,本专利技术的目的在于提供一种海关数据产品词的提取方法,结合语法结构、互信息、字符信息和海关数据特有的结构信息等,快速准确的提取出产品词。为实现上述目的,本专利技术采用以下技术方案实现:一种海关数据产品词的提取方法,包括以下步骤:S1.首先对海关描述文本进行格式统一化处理,然后将 ...
【技术保护点】
1.一种海关数据产品词的提取方法,其特征在于,包括以下步骤:/nS1.首先对海关描述文本进行格式统一化处理,然后清洗以及删除除了连词符以外的特殊符号,并规范化单词间隔;/nS2.对海关描述文本中的连词符做如下处理:将连接有数字的连词符组成的字符串替换为空格符;将前后分别连接一个或两个字符的字符串删除;/nS3.然后启发式的找到海关描述文本中的分割词,将海关描述文本中的产品词和描述部分进行分割;接着将海关描述文本中的量词和日期正则替换为空格符或删除;/nS4.使用步骤S3所述的分割词将海关描述文本分割为若干语句,通过语法规则删除所述海关描述文本中的描述部分,将单词数≤5的产品词组作为产品词加入词库;/n或者使用互信息和左右信息熵对经步骤S2处理后的海关描述文本进行产品词组的提取,根据提取结果的抽查,不断调整互信息和左右信息熵的阈值,将抽取到的单词数≤5产品词组保留下来作为产品词加入词库。/n
【技术特征摘要】
1.一种海关数据产品词的提取方法,其特征在于,包括以下步骤:
S1.首先对海关描述文本进行格式统一化处理,然后清洗以及删除除了连词符以外的特殊符号,并规范化单词间隔;
S2.对海关描述文本中的连词符做如下处理:将连接有数字的连词符组成的字符串替换为空格符;将前后分别连接一个或两个字符的字符串删除;
S3.然后启发式的找到海关描述文本中的分割词,将海关描述文本中的产品词和描述部分进行分割;接着将海关描述文本中的量词和日期正则替换为空格符或删除;
S4.使用步骤S3所述的分割词将海关描述文本分割为若干语句,通过语法规则删除所述海关描述文本中的描述部分,将单词数≤5的产品词组作为产品词加入词库;
或者使用互信息和左右信息熵对经步骤S2处理后的海关描述文本进行产品词组的提取,根据提取结果的抽查,不断调整互信息和左右信息熵的阈值,将抽取到的单词数≤5产品词组保留下来作为产品词加入词库。
2.根据权利要求1所述的海关数据产品词的提取方法,其特征在于,在步骤S1中,所述特殊符号包括但不限于为划线、单引号、双引号、省略号、中的一种或多种。
3.根据权利要求1所述的海关数据产品词的提取方法,其特征在于,在步骤S3中,所述分割词包括字符个数大于20的字符串和字符个数≤3且频率很低的字符串。
4.根据权利要求3所述的海关数据产品词的提取方法,其特征在于,在步骤S3中,所述频率很低的字符串通过以下方法确定:统计所有字符串,计算每一个字符串出现的频率,频率低于阈值的字符串即为频率很低的字符串。
5.根据权利要求1所述的海关数据产品词的提取方法,其特征在于,在步骤S4中,所述语法规则包括:删除for,used,use,only,ho,and之后的所有字符串;
删除首尾单词分别为以下字符的字符串:
start_str=['ft','vi','ab','only','is','part','parts','of','with','al-gt','on'];
end_str=['br','au','tro','ea','the','vi','of','not','bj','nut-','pro-et','sf','iii','all','perc...
【专利技术属性】
技术研发人员:车进,曹彬,
申请(专利权)人:深圳市小满科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。