本发明专利技术提供一种商品和服务编码智能识别系统、方法、设备及存储介质,涉及电子商务平台技术领域。本发明专利技术所述的商品和服务编码智能识别系统包括:数据收集模块,用于获取样本数据,其中,样本数据包括历史开票数据;数据处理模块,用于根据历史开票数据构建训练集;模型训练模块,用于构建分类模型,根据训练集对所述分类模型进行训练,得到训练好的分类模型;线上服务模块,用于根据训练好的分类模型,对商品和服务编码进行智能识别。本发明专利技术可以对商品和服务编码进行智能识别,提高机器编码的准确率。率。率。
【技术实现步骤摘要】
商品和服务编码智能识别系统、方法、设备及存储介质
[0001]本专利技术涉及电子商务平台
,具体而言,涉及一种商品和服务编码智能识别系统、方法、设备及存储介质。
技术介绍
[0002]在税务开票时,目前比较普遍采用的是人工编码方式;即纳税人在开具发票时,根据待开票的商品和服务的名称,在税务总局核定的分类表中找到相关联的类别,并选择其对应的税收编码。这种方法的问题在于,税务系统中的商品分类比较精细和繁杂,共包含四千多类,人工比对的人力消耗、错误率都比较高,可能会导致税务数据不准确。
[0003]为了减少人工编码带来的误差,部分纳税人采用机器编码来代替人工操作;在实际开票时,输入待开票的商品和服务名称,由算法模型给出其预测的税收编码。但这种方法存在一定的局限性,对商品和服务编码的分类不准确。
技术实现思路
[0004]本专利技术解决的问题是如何提高机器编码的准确度。
[0005]为解决上述问题,本专利技术提供一种商品和服务编码智能识别系统、方法、设备及存储介质。
[0006]第一方面,本专利技术提供一种商品和服务编码智能识别系统,包括:数据收集模块,用于获取样本数据,其中,所述样本数据包括历史开票数据;数据处理模块,用于根据所述历史开票数据构建训练集;模型训练模块,用于构建分类模型,根据所述训练集对所述分类模型进行训练,得到训练好的分类模型;线上服务模块,用于根据所述训练好的分类模型,对商品和服务编码进行智能识别。
[0007]可选地,所述历史开票数据包括商品名称、规格型号、计量单位和税收编码;
[0008]所述数据处理模块用于对所述商品名称进行预处理,得到预处理后的商品名称;对所述预处理后的商品名称进行分词处理,得到分词数组;根据所述分词数组得到所述商品名称的分词字典;根据所述分词字典对所述分词数组的形式进行标准化处理得到第一整数型数据;
[0009]所述数据处理模块还用于对所述规格型号和计量单位进行预处理,得到预处理后的规格型号和的计量单位;根据所述预处理后的规格型号和计量单位分别构建规格型号字典和计量单位字典;根据所述规格型号字典和所述计量单位字典的键值关系,得到第二整数型数据;
[0010]所述数据处理模块还用于对所述税收编码进行预处理,得到编码字典;根据所述编码字典的键值关系,得到第三整数型数据。
[0011]可选地,所述根据所述历史开票数据构建训练集包括:
[0012]对所述数据处理模块得到的所述第一整数型数据、所述第二整数型数据和所述第三整数型数据按照预设比例进行随机划分,其中一部分作为所述训练集。
[0013]可选地,所述模型训练模块还用于构建单层神经网络、卷积层和池化层;
[0014]所述单层神经网络用于对所述商品名称的分词数组进行嵌入,得到数值向量数组;
[0015]所述卷积层用于对所述数值向量数组进行卷积运算处理得到卷积运算后的数值向量数组;
[0016]所述池化层用于对所述卷积运算后的数值向量数组进行池化,得到一维向量数组;
[0017]所述模型训练模块还用于根据所述规格型号、所述计量单位数据和一维向量数组构建全连接神经网络,所述全连接神经网络用于输出预测结果。
[0018]可选地,所述根据所述训练集对所述分类模型进行训练,得到训练好的分类模型包括:
[0019]模型训练模块对所述训练集中的数据按照预设批次进行划分并训练,得到训练集数据,其中,当所述训练集中的数据每进行一次训练,所述分类模型的网络参数进行一次迭代;
[0020]当所述训练集中的数据进行预设次数训练后,得到全部训练集数据;
[0021]所述分类模型对所述全部训练集数据进行预测得到预测准确率;
[0022]若所述预测准确率满足预设期望准确率,则得到训练好的分类模型。
[0023]可选地,所述商品和服务编码智能识别系统,还包括模型预测模块,所述模型预测模块用于获取输入数据,并根据所述训练好的分类模型对所述输入数据进行预测,得到预测的商品和服务编码。
[0024]可选地,所述商品和服务编码智能识别系统,还包括模型迭代模块,所述模型迭代模块用于获取反馈信息,并根据所述反馈信息对所述训练好的分类模型进行更新迭代。
[0025]本专利技术所述的商品和服务编码智能识别系统,通过收集历史开票数据,对历史开票数据进行预处理,根据数据划分训练集,利用训练集对分类模型进行训练,得到训练好的分类模型,从而可以对商品和服务编码进行智能识别,提高机器编码的准确率;在纳税人开具发票时,分类模型自动地对开票的商品和服务进行分类,并提供相应的税收编码信息,提高纳税人的开票效率。
[0026]第二方面,本专利技术还提供一种商品和服务编码智能识别方法,应用于上述所述的商品和服务编码智能识别系统,包括:
[0027]获取样本数据,其中,所述样本数据包括历史开票数据;根据所述历史开票数据构建训练集;构建分类模型,根据所述训练集对所述分类模型进行训练,得到训练好的分类模型;根据所述训练好的分类模型,对商品和服务编码进行智能识别。
[0028]本专利技术所述的商品和服务编码智能识别方法与所述商品和服务编码智能识别系统相对于现有技术的优势相同,在此不再赘述。
[0029]第三方面,本专利技术还提供一种商品和服务编码智能识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时上述所述商品和服务编码智能识别方法的步骤。
[0030]本专利技术所述的商品和服务编码智能识别设备与所述商品和服务编码智能识别方法相对于现有技术的优势相同,在此不再赘述。
[0031]第四方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述商品和服务编码智能识别方法的步骤。
[0032]本专利技术所述的计算机可读存储介质与所述商品和服务编码智能识别方法相对于现有技术的优势相同,在此不再赘述。
附图说明
[0033]图1为本专利技术实施例所述的商品和服务编码智能识别系统的结构框图;
[0034]图2为本专利技术实施例所述的商品和服务编码智能识别设备的结构框图。
具体实施方式
[0035]为使本专利技术的上述目的、特征和优点能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。
[0036]结合图1所示,本专利技术提供一种商品和服务编码智能识别系统,包括:
[0037]数据收集模块,用于获取样本数据,其中,所述样本数据包括历史开票数据;
[0038]具体地,通过问题的分析,采集相关联的业务数据,并进行相关字段的筛选,从数据仓库中抽取历史开票数据,每一条历史开票数据代表一次纳税人开票记录,对抽取的历史开票数据进行筛选,作为本项目的全量样本数据。
[0039]数据处理模块,用于根据所述历史开票数据构建训练集;
[0040]具体地,基于上一模块收集的数据,通过多种方法进行本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种商品和服务编码智能识别系统,其特征在于,包括:数据收集模块,用于获取样本数据,其中,所述样本数据包括历史开票数据;数据处理模块,用于根据所述历史开票数据构建训练集;模型训练模块,用于构建分类模型,根据所述训练集对所述分类模型进行训练,得到训练好的分类模型;线上服务模块,用于根据所述训练好的分类模型,对商品和服务编码进行智能识别。2.根据权利要求1所述的商品和服务编码智能识别系统,其特征在于,所述历史开票数据包括商品名称、规格型号、计量单位和税收编码;所述数据处理模块用于对所述商品名称进行预处理,得到预处理后的商品名称;对所述预处理后的商品名称进行分词处理,得到分词数组;根据所述分词数组得到所述商品名称的分词字典;根据所述分词字典对所述分词数组的形式进行标准化处理得到第一整数型数据;所述数据处理模块还用于对所述规格型号和计量单位进行预处理,得到预处理后的规格型号和的计量单位;根据所述预处理后的规格型号和计量单位分别构建规格型号字典和计量单位字典;根据所述规格型号字典和所述计量单位字典的键值关系,得到第二整数型数据;所述数据处理模块还用于对所述税收编码进行预处理,得到编码字典;根据所述编码字典的键值关系,得到第三整数型数据。3.根据权利要求2所述的商品和服务编码智能识别系统,其特征在于,所述根据所述历史开票数据构建训练集包括:对所述数据处理模块得到的所述第一整数型数据、所述第二整数型数据和所述第三整数型数据按照预设比例进行随机划分,其中一部分作为所述训练集。4.根据权利要求2所述的商品和服务编码智能识别系统,其特征在于,所述模型训练模块还用于构建单层神经网络、卷积层和池化层;所述单层神经网络用于对所述商品名称的分词数组进行嵌入,得到数值向量数组;所述卷积层用于对所述数值向量数组进行卷积运算处理得到卷积运算后的数值向量数组;所述池化层用于对所述卷积运算后的数值向量数组进行池化,得到一维向量数组;所述模型训练模块还用于...
【专利技术属性】
技术研发人员:张研,陈昊天,洒西涛,邵慧,
申请(专利权)人:安徽航天信息有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。