基于文本分类和实体抽取模型的家庭维修服务识别方法技术

技术编号：38576992 阅读：25 留言：0更新日期：2023-08-26 23:24

本发明专利技术为了提供家庭维修服务中用户输入语句识别的准确性，提供了一种基于文本分类和实体抽取模型的家庭维修服务识别方法，包括以下步骤：训练数据获取阶段；数据预处理阶段；文本分类模型训练，记录下文本分类的结果；实体抽取模型训练，记录下实体抽取的结果；结合前面步骤的分类结果确定用户服务最终分类。本发明专利技术结合了文本分类和实体抽取两种模型，对用户在咨询机器人客服时的文本进行家庭维修服务分类的识别，具有更强鲁棒性和更高的准确率。具有更强鲁棒性和更高的准确率。具有更强鲁棒性和更高的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于文本分类和实体抽取模型的家庭维修服务识别方法

[0001]本专利技术属于自然语言处理
，尤其是在家庭维修智能客服中所涉及的基于文本分类和实体抽取模型的家庭维修服务识别方法。

技术介绍

[0002]家庭维修服务通常是指家庭内各种设备的维修，例如水管、电线、墙壁等；以及一些家电修，如冰柜、洗衣机、电视机等。相对于其他类型服务而言，其种类繁多，并且表达问题人员的素质差异较大，以及对维修需要的迫切性要求较高，因此对维修问题快速准确识别的能力要求更高。
[0003]参考附图1中罗列的现有技术方案流程图，其采用以下步骤进行维修服务问题识别：首先对商品名称进行预处理，只保留中文字段；接着通过j ieba分词，将预处理后的商品名称短文本分成若干个词，去除停用词，对得到的词进行短补长切，统一词的长度到事先设定好的词个数；其次将每个词利用Global Entity Linking算法进行实体消歧与链接，通过链接到百度百科的外部知识库，用其结果对短文本中的词扩充解释，丰富上下文语义信息，并将实体链接的结果利用Bert进行word embedding编码，得到相应的特征向量；最后将得到的特征向量喂入Transformer网络，利用self
‑
attention机制，挖掘不同词对于税码分类的共享程度，赋予不同词不同的权重，最后通过Softmax对其进行分类，将概率最高的税码类别作为商品名称所属类别，最终确定待分类的商品名称的税码类别标签。
[0004]这种方式虽然能够实现智能识别，但却存在以下问题：...

【技术保护点】

【技术特征摘要】
1.基于文本分类和实体抽取模型的家庭维修服务识别方法，其特征在于：包括以下步骤：步骤S100：训练数据获取阶段；步骤S200：数据预处理阶段；步骤S300：文本分类模型训练，记录下文本分类的结果；步骤S400：实体抽取模型训练，记录下实体抽取的结果步骤S500：结合步骤S300和步骤S400的分类结果确定用户服务最终分类。2.根据权利要求1所述的基于文本分类和实体抽取模型的家庭维修服务识别方法，其特征在于：所述数据预处理阶段包括以下步骤：步骤S210：对从家庭维修客服聊天记录中得到的用户文本数据集进行数据清洗；步骤S220：进行文本分类的标注任务，对清洗后的每一条用户输入的数据打上对应的分类标签；步骤S230：进行实体抽取的标注任务。3.根据权利要求1所述的基于文本分类和实体抽取模型的家庭维修服务识别方法，其特征在于：所述文本分类模型训练包括如下操作步骤：步骤S310：将文本序列用预训练的tokenizer分成一个个词元；步骤S320：在词元序列前加上<c...

【专利技术属性】
技术研发人员：王国伟，朱红坤，贺光华，李奇隆，
申请(专利权)人：重庆川南环保科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人