本发明专利技术为了提供家庭维修服务中用户输入语句识别的准确性,提供了一种基于文本分类和实体抽取模型的家庭维修服务识别方法,包括以下步骤:训练数据获取阶段;数据预处理阶段;文本分类模型训练,记录下文本分类的结果;实体抽取模型训练,记录下实体抽取的结果;结合前面步骤的分类结果确定用户服务最终分类。本发明专利技术结合了文本分类和实体抽取两种模型,对用户在咨询机器人客服时的文本进行家庭维修服务分类的识别,具有更强鲁棒性和更高的准确率。具有更强鲁棒性和更高的准确率。具有更强鲁棒性和更高的准确率。
【技术实现步骤摘要】
基于文本分类和实体抽取模型的家庭维修服务识别方法
[0001]本专利技术属于自然语言处理
,尤其是在家庭维修智能客服中所涉及的基于文本分类和实体抽取模型的家庭维修服务识别方法。
技术介绍
[0002]家庭维修服务通常是指家庭内各种设备的维修,例如水管、电线、墙壁等;以及一些家电修,如冰柜、洗衣机、电视机等。相对于其他类型服务而言,其种类繁多,并且表达问题人员的素质差异较大,以及对维修需要的迫切性要求较高,因此对维修问题快速准确识别的能力要求更高。
[0003]参考附图1中罗列的现有技术方案流程图,其采用以下步骤进行维修服务问题识别:首先对商品名称进行预处理,只保留中文字段;接着通过j ieba分词,将预处理后的商品名称短文本分成若干个词,去除停用词,对得到的词进行短补长切,统一词的长度到事先设定好的词个数;其次将每个词利用Global Entity Linking算法进行实体消歧与链接,通过链接到百度百科的外部知识库,用其结果对短文本中的词扩充解释,丰富上下文语义信息,并将实体链接的结果利用Bert进行word embedding编码,得到相应的特征向量;最后将得到的特征向量喂入Transformer网络,利用self
‑
attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词不同的权重,最后通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签。
[0004]这种方式虽然能够实现智能识别,但却存在以下问题:
[0005]第一,现有技术仅仅是对商品名称短文本进行分类,得到相应的税码类别标签。但商品名称短文本可能会包含一些和商品名称无关的文本,这些无关的文本信息会干扰最终的分类结果。
[0006]第二,对商品文本进行实体链接与消歧时,采用链接到百度百科的外部知识库,若出现链接错误,误差会累积到后面的transformer模型,影响最终的商品名称分类的结果。并且现有网络上的外部知识库涉及到家庭维修服务相关的知识有限,更新也比较慢,这也会导致影响最终分类结果。
[0007]第三,家庭维修服务存在大量结构和语义上都很相似的分类名称,还有一些有包含关系的分类名称。现有技术不能很好地区分这些相近或者有包含地分类。
技术实现思路
[0008]本专利技术旨在解决现有技术中存在的技术问题,提供基于文本分类和实体抽取模型的家庭维修服务识别方法,以此提高分类结果的准确性。
[0009]为了实现本专利技术的上述目的,本专利技术提供基于文本分类和实体抽取模型的家庭维修服务识别方法,包括以下步骤:
[0010]步骤S100:训练数据获取阶段;
[0011]步骤S200:数据预处理阶段;
[0012]步骤S300:文本分类模型训练,记录下文本分类的结果;
[0013]步骤S400:实体抽取模型训练,记录下实体抽取的结果
[0014]步骤S500:结合步骤S300和步骤S400的分类结果确定用户服务最终分类。
[0015]进一步地,所述数据预处理阶段包括以下步骤:
[0016]步骤S210:对从家庭维修客服聊天记录中得到的用户文本数据集进行数据清洗;
[0017]步骤S220:进行文本分类的标注任务,对清洗后的每一条用户输入的数据打上对应的分类标签;
[0018]步骤S230:进行实体抽取的标注任务。
[0019]进一步地,所述文本分类模型训练包括如下操作步骤:
[0020]步骤S310:将文本序列用预训练的tokenizer分成一个个词元;
[0021]步骤S320:在词元序列前加上<cls>标记,该标记的对应输出向量为整条文本的语义表示;在词元序列最后加上<sep>标记,在只有一条文本时代表句末,有两条文本时用来分开两条文本;
[0022]步骤S330:将词元与两个标记一同输入预训练好的BERT模型中,得到整个文本语义的向量表示;
[0023]步骤S340:将文本语义的向量表示输入到一个全连接层中,这个全连接层作为分类器得到每个分类标签的预测数值;
[0024]步骤S350:最后计算损失。
[0025]进一步地,所述实体抽取模型训练包括如下操作步骤:
[0026]步骤S410:将输入文本序列的每一个词元输入到编码器中,这里的词元就是每一个中文字符;
[0027]步骤S420:文本序列经过编码器后,会得到每一个词元对应的语义向量表示;
[0028]步骤S430:将编码器得到的语义向量表示输入到全连接层中;
[0029]步骤S440:经过CRF层得到文本序列中每个词元最终的标签预测得分;
[0030]步骤S450:模型最终的损失值由CRF层计算得到。
[0031]与现有技术相比,本专利技术结合了文本分类和实体抽取两种模型,对用户在咨询机器人客服时的文本进行家庭维修服务分类的识别,具有更强鲁棒性和更高的准确率。
[0032]具体地,可以先用文本分类模型进行比较粗粒度的一级分类,再用实体抽取获取更细粒度的实体信息,这样能过滤掉一些口语化的词或无用的信息,使文本中噪声的影响降低,并且还能区分一些名称和意义比较相近的家庭维修服务,以此提高分类结果的准确性。
附图说明
[0033]图1是现有技术流程图;
[0034]图2是本专利技术基于语义相似度叠加模型的问题匹配方法流程及应用图;
[0035]图3是本专利技术数据预处理流程示意图;
[0036]图4是本专利技术家庭维修服务层级分类示意图;
[0037]图5是本专利技术文本分类模型架构示意图;
[0038]图6是本专利技术实体抽取模型架构示意图;
[0039]图7是本专利技术一实施例中识别家庭维修服务示意图;
具体实施方式
[0040]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。
[0041]在本专利技术的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0042]在本专利技术的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[00本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于文本分类和实体抽取模型的家庭维修服务识别方法,其特征在于:包括以下步骤:步骤S100:训练数据获取阶段;步骤S200:数据预处理阶段;步骤S300:文本分类模型训练,记录下文本分类的结果;步骤S400:实体抽取模型训练,记录下实体抽取的结果步骤S500:结合步骤S300和步骤S400的分类结果确定用户服务最终分类。2.根据权利要求1所述的基于文本分类和实体抽取模型的家庭维修服务识别方法,其特征在于:所述数据预处理阶段包括以下步骤:步骤S210:对从家庭维修客服聊天记录中得到的用户文本数据集进行数据清洗;步骤S220:进行文本分类的标注任务,对清洗后的每一条用户输入的数据打上对应的分类标签;步骤S230:进行实体抽取的标注任务。3.根据权利要求1所述的基于文本分类和实体抽取模型的家庭维修服务识别方法,其特征在于:所述文本分类模型训练包括如下操作步骤:步骤S310:将文本序列用预训练的tokenizer分成一个个词元;步骤S320:在词元序列前加上<c...
【专利技术属性】
技术研发人员:王国伟,朱红坤,贺光华,李奇隆,
申请(专利权)人:重庆川南环保科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。