一种基于规则的跨境电商商品质量风险识别方法技术

技术编号:17655937 阅读:36 留言:0更新日期:2018-04-08 08:57
本发明专利技术涉及跨境电子商务领域,公开了一种用于对跨境电商商品质量风险进行自动识别的方法,包括商品风险知识获取、商品自动分类、商品风险识别和商品风险信息可视化模块,所述跨境电商商品质量风险自动识别方法,能够及时快速地处理海量跨境商品信息,发现其中不符合我国质量要求的商品,并以可视化的形式呈现风险商品的统计信息,本发明专利技术可以帮助消费者选择质量更加安全的跨境商品,同时可协助政府有关部门对跨境电商平台进行监管。

【技术实现步骤摘要】
一种基于规则的跨境电商商品质量风险识别方法
本专利技术涉及跨境电商领域,特别是对跨境电商商品所具有的质量风险进行自动识别的领域。
技术介绍
跨境电子商务作为一种新型的国际贸易方式,是指由不同国家或地区的贸易双方,通过电子商务平台进行交易支付结算,以邮件或快递等物流形式通关进行商品交易。随着跨境电商迅速发展,大量的跨境快件或邮包被直接送到消费者手中,极易给我国经济安全、生态环境和消费者身心健康带来危害。由于跨境电商具有交易次数频繁、单次交易商品数量少、业务注册门槛低等特点,政府难以对跨境商品进行全面检查,目前只能按照千分之二的比例进行抽查,不仅难以保证商品的质量安全,也给有关部门的监管工作造成了巨大压力。目前直接对跨境电商商品质量风险进行自动识别的方法和案例还很难看到,现有的商业风险分析案例多针对信用风险领域,而基于口碑和舆情信息挖掘的商品质量评价是一种事后评估,只能发现已被消费者发现的风险,无法应用于商家上架违规商品但还未卖出时的风险侦测。基于规则的系统是一种人工智能方法,它将人类知识表达为计算机可理解的规则,如IF-THEN产生式,然后利用计算机读入已知的事实,根据规则库中的规则组成逻辑推理链条,最终得到问题的解。由于国家的政策法规在本质上是一组需要遵守的规则,其中法规条款的适用情形是IF部分的前提条件,条款的结论是THEN部分的结果,因此适合被基于规则的智能系统处理。
技术实现思路
本专利技术针对海量跨境商品的风险检测与识别问题,采用RBR(Rule-basedReasoning)方法对与跨境商品相关的国家质量标准和法规进行知识建模、获取和推理,使计算机可以模拟人类专家对跨境商品的类别和参数进行分析,并对风险存在与否以及风险种类进行判断。同时,针对互联网上跨境商品信息缺乏规范格式并且存在大量噪音的情况,采用中文分词、关键词提取、语义匹配等自然语言处理技术,以提高跨境商品质量风险检查的精度和效率。通过在计算机系统上实施本方法,可实时检查互联网上售卖的海量跨境商品,使风险商品在上架后很短的时间内就可以被识别出来,从而使消费者和政府监管部门能够及时掌握跨境商品风险信息并做出有效应对。本专利技术提出的跨境电商商品质量风险识别方法包括以下步骤:步骤S1:知识获取,将与跨境电商相关的法律法规、国家标准转化为规则型知识;所述步骤S1包括以下步骤:S11:定义四种风险规则及其对应的语法结构,分别为分类规则、父类规则、配方规则和禁止规则;以BNF范式定义的分类规则语法形式为:CLASSIFICATION_RULE::="IF商品信息包含关键字"argument{","argument}["且不含关键字"keyword{","keyword}]"THEN商品属于类别"keyword父类规则语法形式为:FATHER_CLASS::="IF商品类型是"keyword"THEN商品也属于类型"keyword配方规则语法形式为:INGREDIENT_RULE_LIMIT::="IF商品类别为"keyword"且商品的"keyword("大于"|"小于")number"THEN商品有风险"INGREDIENT_RULE_RANGE::="IF商品类别为"keyword"且商品的"keyword("间于"|"外于")number"-"number"THEN商品有风险"禁止规则的语法形式为:FORBIDDEN_RULE::="IF商品信息包含关键字"argument{","argument}["且不含关键字"keyword{","keyword}]"THEN商品被禁止入境"其中:argument::=keyword{"|"keyword}keyword和number分别为字符串和数字,由用户根据法规、标准的条款进行填写S12:解析用户输入的规则文本,将其转化为符合Drools标准的计算机代码;步骤S2:对商品标题进行解析;所述步骤S2包括以下步骤:S21:对商品标题进行分词;所述步骤S21具体如下:步骤S211:遍历语义词典HowNet中的词语,若其出现在商品标题中,则把该词语加入到临时列表中;步骤S212:遍历临时列表中的词语,若其被列表中的另一个词语包括,则删除该被包括的词语;S22:对商品标题词语赋予权重;所述步骤S22具体如下:步骤S221:构建关键词图G=(V,E),其中V为节点集,由S21生成的分词结果组成,然后基于词语在商品标题中的共现关系构造任意两点之间的边E,两个节点之间仅当它们对应的词语在同一个商品标题中共现时存在边;步骤S222:使用TextRank算法按照如下公式计算节点Vi的权重WS(Vi):其中,d为阻尼系数,取值0.85,代表从关键词图中某一特定点指向其他任意点的概率,wij为关键词图中任两点Vi,Vj之间边的权重,令所有边权重取1,对于一个给定的点Vi,In(Vi)为指向点Vi的集合,Out(Vi)为点Vi指向的点的集合;步骤S223:给关键词图中的点指定任意的初始权重值,并迭代计算直到权重收敛,当关键词图中每一点的权重值在两次迭代之间的差值都小于0.0001时认为迭代收敛,并输出此时每个词语的权重值;步骤S3:对商品按照国标和法规中定义的商品类型进行分类;所述步骤S3包括以下步骤:S31:建立实体概念Entity,赋予其名称、数值、相关实体列表、类型列表、激活规则列表和风险程度六个属性;S32:对于待分类的商品标题,创建与之对应的Entity,提取商品标题中WS(Vi)最大的三个名词性词语作为商品的可能类型加入到该Entity的类型列表中,同时,根据语义词典HowNet取得这三个名词的父类概念,将它们也加入到类型列表中;S33:将商品对应的Entity加入Drools推理机,若触发S11中描述的分类规则,则商品类型得到判明,若商品未触发任何分类规则,则采用如下方式确定其类型:计算词语w和w'之间的互信息MI:其中p(w,w’)是语料库中含有词w和词w'的句子在所有句子中所占的比例,p(w)是含有词w的句子在所有句子中所占的比例;定义词语相关度其中l是以字数衡量的词语长度,S为语料库中所有句子的集合,当两个词语完全相同时,其相关度按照情况I计算,当两个词语包含不同的单字时,其相关度按照情况II计算一个商品标题T与类别定义C的相关度R(T,C)计算如下:其中f(w,d)是文档d中词语w出现的次数,D是所有文档构成的集合经过计算某一商品标题和所有类型定义文档的相关度,可确定相关度最高的文档所对应的类型为该商品所属类型;步骤S4:对商品质量风险进行识别;所述步骤S4包括以下步骤:S41:从数据库中读入n条尚未进行风险识别的跨境商品信息,n取为50每线程;S42:将n条商品信息按照步骤S21进行处理,在执行步骤S22时,从事先运行步骤S22得到的词语权重列表中直接查询出标题词语权重以加快系统处理速度,所谓事先运行步骤S22是指预取数据库中大量的、覆盖尽可能多商品种类的商品信息,用其执行S21和S22得到词语权重,并将这些“词语-权重”信息存入表中并读入内存,系统每隔固定时间用最新的若干条商品信息运行步骤S22并得到新的“词语-权重”列表;S43:将n条经过步骤S2处理的商品信息送入步骤S3执行,若商品能触发分本文档来自技高网...
一种基于规则的跨境电商商品质量风险识别方法

【技术保护点】
一种跨境电商商品质量风险自动识别方法,其特征在于包括以下步骤:步骤S1:知识获取,将与跨境电商相关的法律法规、国家标准转化为规则型知识;所述步骤S1包括以下步骤:S11:定义四种风险规则及其对应的语法结构,分别为分类规则、父类规则、配方规则和禁止规则;以BNF范式定义的分类规则语法形式为:CLASSIFICATION_RULE::="IF商品信息包含关键字"argument{","argument}["且不含关键字"keyword{","keyword}]"THEN商品属于类别"keyword父类规则语法形式为:FATHER_CLASS::="IF商品类型是"keyword"THEN商品也属于类型"keyword配方规则语法形式为:INGREDIENT_RULE_LIMIT::="IF商品类别为"keyword"且商品的"keyword("大于"|"小于")number"THEN商品有风险"INGREDIENT_RULE_RANGE::="IF商品类别为"keyword"且商品的"keyword("间于"|"外于")number"‑"number"THEN商品有风险"禁止规则的语法形式为:FORBIDDEN_RULE::="IF商品信息包含关键字"argument{","argument}["且不含关键字"keyword{","keyword}]"THEN商品被禁止入境"其中:argument::=keyword{"|"keyword}keyword和number分别为字符串和数字,由用户根据法规、标准的条款进行填写S12:解析用户输入的规则文本,将其转化为符合Drools标准的计算机代码;步骤S2:对商品标题进行解析;所述步骤S2包括以下步骤:S21:对商品标题进行分词;所述步骤S21具体如下:步骤S211:遍历语义词典HowNet中的词语,若其出现在商品标题中,则把该词语加入到临时列表中;步骤S212:遍历临时列表中的词语,若其被列表中的另一个词语包括,则删除该被包括的词语;S22:对商品标题词语赋予权重;所述步骤S22具体如下:步骤S221:构建关键词图G=(V,E),其中V为节点集,由S21生成的分词结果组成,然后基于词语在商品标题中的共现关系构造任意两点之间的边E,两个节点之间仅当它们对应的词语在同一个商品标题中共现时存在边;步骤S222:使用TextRank算法按照如下公式计算节点Vi的权重WS(Vi):...

【技术特征摘要】
1.一种跨境电商商品质量风险自动识别方法,其特征在于包括以下步骤:步骤S1:知识获取,将与跨境电商相关的法律法规、国家标准转化为规则型知识;所述步骤S1包括以下步骤:S11:定义四种风险规则及其对应的语法结构,分别为分类规则、父类规则、配方规则和禁止规则;以BNF范式定义的分类规则语法形式为:CLASSIFICATION_RULE::="IF商品信息包含关键字"argument{","argument}["且不含关键字"keyword{","keyword}]"THEN商品属于类别"keyword父类规则语法形式为:FATHER_CLASS::="IF商品类型是"keyword"THEN商品也属于类型"keyword配方规则语法形式为:INGREDIENT_RULE_LIMIT::="IF商品类别为"keyword"且商品的"keyword("大于"|"小于")number"THEN商品有风险"INGREDIENT_RULE_RANGE::="IF商品类别为"keyword"且商品的"keyword("间于"|"外于")number"-"number"THEN商品有风险"禁止规则的语法形式为:FORBIDDEN_RULE::="IF商品信息包含关键字"argument{","argument}["且不含关键字"keyword{","keyword}]"THEN商品被禁止入境"其中:argument::=keyword{"|"keyword}keyword和number分别为字符串和数字,由用户根据法规、标准的条款进行填写S12:解析用户输入的规则文本,将其转化为符合Drools标准的计算机代码;步骤S2:对商品标题进行解析;所述步骤S2包括以下步骤:S21:对商品标题进行分词;所述步骤S21具体如下:步骤S211:遍历语义词典HowNet中的词语,若其出现在商品标题中,则把该词语加入到临时列表中;步骤S212:遍历临时列表中的词语,若其被列表中的另一个词语包括,则删除该被包括的词语;S22:对商品标题词语赋予权重;所述步骤S22具体如下:步骤S221:构建关键词图G=(V,E),其中V为节点集,由S21生成的分词结果组成,然后基于词语在商品标题中的共现关系构造任意两点之间的边E,两个节点之间仅当它们对应的词语在同一个商品标题中共现时存在边;步骤S222:使用TextRank算法按照如下公式计算节点Vi的权重WS(Vi):其中,d为阻尼系数,取值0.85,代表从关键词图中某一特定点指向其他任意点的概率,wij为关键词图中任两点Vi,Vj之间边的权重,令所有边权重取1,对于一个给定的点Vi,In(Vi)为指向点Vi的集合,Out(Vi)为点Vi指向的点的集合;步骤S223:给关键词图中的点指定任意的初始权重值,并迭代计算直到权重收敛,当关键词图中每一点的权重值在两次迭代之间的差值都小于0.0001时认为迭代收敛,并输出此时每个词语的权重值;步骤S3:对商品按照国标和法规中定义的商品类型进行分类;所述步骤S3包括以下步骤:S31:建立实体概念Entity,赋予其名称、数值、相关实体列表、类型列表、激活规则列表和风险程度六个属性;S32:对于待分类的商品标题,创建与之对应的Entity,提取商品标题中WS(Vi)最大的三个名词性词语作为商品的可能类型加入到该Entity的类型列表中,同时,根据语义词典HowNet取得这三个名词的父类概念,将它们也加入到类型列表中;S33:将商品对应的Entity加入Drools推理机,若触发S11中描述的分类规则,则商品类型得到判明,若商品未触发任何分类规则,则...

【专利技术属性】
技术研发人员:何军良宋博马奕葳王煜杨振生
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1