一种基于网约车对话文本的多意图识别方法技术

技术编号:38624729 阅读:20 留言:0更新日期:2023-08-31 18:26
本发明专利技术提供一种基于网约车对话文本的多意图识别方法,包括以下步骤:S1:建立多意图数据集,所述多意图数据集包括单意图线上数据、线上文本多意图标注数据、先验内容处理的组合多意图数据;S2:接收对话文本,从模型层面进行识别,将对话文本存在的多意图问题转化成多个单意图问题,结合场景标签,基于设定的逻辑设定,进行问句回复;S3:对于模型层面不能分析出结果的,则将对话文本从规则层面进行识别,结合场景标签,然后基于设定的逻辑设定,进行问句回复。句回复。句回复。

【技术实现步骤摘要】
一种基于网约车对话文本的多意图识别方法


[0001]本专利技术涉及一种网约车沟通方法,尤其是涉及一种基于网约车对话文本的多意图识别方法。

技术介绍

[0002]伴随的全球AI大力发展,深度学习在各个领域得到了广泛的应用。伴随着人们生活质量的提高,出门打车已经成为了一种生活方式。基于这样的背景,积累了海量的网约车对话数据。在算力、数据、算法都具备的条件下,能够进行深度模型在网约车的尝试,选择的研究方向是意图识别。
[0003]目前市面上的意图识别往往只是局限于单意图识别,这种识别的方式会造成意图语义的缺失,只理解了部分说话人的意图,而丢失了另外一部分的语义。有一部分的多意图识别研究有三类方式,一种是通过标点进行分句,分成单句之后,再对单句进行单意图识别,识别出每一句的单意图后,再组装成多意图标签。另一种方式是通过信息抽取的方式来进行切句,分成单句之后,再对单句进行单意图识别,识别出每一句的单意图后,再组装成多意图标签。还有一种方式是还可以直接通过信息抽取打出意图标签,给出最后的多意图。这些方式能够解决一部分多意图的情况,比如每个单独的句子是一个意图,如果一个单独的句子存在多意图,这些方式可能就无法进行识别。
[0004]单意图识别:单意图识别就是通过分析用户的文本,文本中表达的含义只有一个含义,也就是本句话只有一个意图标签。比如:
[0005]我想订一家酒店。意图:订酒店
[0006]我想订一张火车票。意图:订火车票
[0007]我想订一张飞机票。意图:订飞机票
[0008]明天天气怎么样。意图:查天气
[0009]上面每一句话是一个单独的意图,不存在混合意图的存在。
[0010]缺点和不足:
[0011]单意图识别只能识别一个句子的一个意图,如果一个句子有多个意图,就会造成意图丢失的现象存在,无法完全理解用户的所有语义。比如“明天天气怎么样。我想订一张火车票。”,单意图识别可能只能识别出【查天气】意图或者【订火车票】意图,造成另一半语义的丢失。
[0012]多意图识别——分句单意图识别:
[0013]相较于单意图识别,多意图识别要困难的多。第一种方式首先对问句进行切句,将一句话通过标点符号切割成多句话后,再对每一句话进行单意图识别,将识别出来每一句的意图,去重放到一起组合成多意图的标签。
[0014]明天天气怎么样。我想订一张火车票。意图:查天气,订火车票首先通过“。”进行切句,切割成两句话后变为【“明天天气怎么样”,“我想订一张火车票”】,对这两句话分别进行单意图识别,识别结果为【“查天气”,“订火车票”】,最终“明天天气怎么样。我想订一张火车
票。”的意图标签就是【查天气】,【订火车票】。
[0015]缺点和不足:
[0016]这种方式能够识别出部分的多意图的情况,但是严重依赖标点符号进行切割,如果用户文本没有涉及标点符号可能无法进行多意图识别,造成意图语义的丢失,另外多个句子在进行单意图识别耗时会较高。
[0017]多意图识别——信息抽取分句单意图识别:
[0018]第二种方式是通过BIE信息抽取的方式进行分句,通过对句子进行BIE标注,训练信息抽取识别模型,然后再通过信息抽取模型对一个句子进行BIE预测,最后通过标签组合形成切句结果。比如:“明天天气怎么样我想订一张火车票”,训练数据的标注为BIIIIIEBIIIIIIE,通过这样的标注训练数据训练信息抽取模型。来一句话【我想订飞机票明天天气如何啊】,模型的预测结果是【BIIIIEBIIIIIE】,B到E之间是一个句子,所以可以将【我想订飞机票明天天气如何啊】切割成两个句子,【我想订飞机票,明天天气如何啊】,然后在对这两个句子进行单意图识别。
[0019]缺点和不足:
[0020]这种方式能够识别出部分的多意图的情况,不依赖标签符号进行切割,但是这种方式如果一句话交替蕴含多个意图可能无法进行多意图识别,造成意图语义的丢失。比如:“订两张火车飞机票”。此方案同样存在耗时较高的问题。
[0021]多意图识别——信息抽取多意图识别:
[0022]第三种方式是通过BIE信息抽取的方式直接给出意图信息,通过对句子进行BIE标注,训练信息抽取识别模型,然后再通过信息抽取模型对一个句子进行BIE预测,最后直接通过标签结果给出多意图识别的结果。比如:“明天天气怎么样我想订一张火车票”,训练数据的标注为B

weather I

weather I

weather I

weather I

weather I

weather E

weather B

train I

train I

train I

train I

train I

train I

train E

train,通过这样的标注训练数据训练信息抽取模型。来一句话【我想订飞机票明天天气如何啊】,模型的预测结果是【B

flight I

flight I

flight I

flight I

flight E

flight B

weather I

weather I

weather I

weather I

weather I

weather E

weather】,B到E之间是一个意图,所以【我想订飞机票明天天气如何啊】这个句子识别的结果就是【flight,weather】,也就是【订飞机票,查天气】。
[0023]缺点和不足:
[0024]这种方式能够识别出部分的多意图的情况,直接给出识别结果,不依赖标签符号进行切割,耗时相较于前面两种方式会偏低,但是如果一句话交替蕴含多个意图可能无法进行多意图识别,造成意图语义的丢失。比如:“订两张火车飞机票”。

技术实现思路

[0025]本专利技术提供了一种基于网约车对话文本的多意图识别方法,解决了针对网约车对话文本场景,实现简单且有效的多意图识别问题,其技术方案如下所述:
[0026]一种基于网约车对话文本的多意图识别方法,包括以下步骤:
[0027]S1:建立多意图数据集,所述多意图数据集包括单意图线上数据、线上文本多意图标注数据、先验内容处理的组合多意图数据;
[0028]S2:接收对话文本,从模型层面进行识别,将对话文本存在的多意图问题转化成多个单意图问题,结合场景标签,基于设定的逻辑设定,进行问句回复;
[0029]S3:对于模型层面不能分析出结果的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网约车对话文本的多意图识别方法,包括以下步骤:S1:建立多意图数据集,所述多意图数据集包括单意图线上数据、线上文本多意图标注数据、先验内容处理的组合多意图数据;S2:接收对话文本,从模型层面进行识别,将对话文本存在的多意图问题转化成多个单意图问题,结合场景标签,基于设定的逻辑设定,进行问句回复;S3:对于模型层面不能分析出结果的,则将对话文本从规则层面进行识别,结合场景标签,然后基于设定的逻辑设定,进行问句回复。2.根据权利要求1所述的基于网约车对话文本的多意图识别方法,其特征在于:步骤S1中,单意图线上数据的收集是基于线上的faq数据,在经过收集并分类处理后,形成单意图数据集,然后将单意图数据集加入到多意图数据集中。3.根据权利要求2所述的基于网约车对话文本的多意图识别方法,其特征在于:所述单意图线上数据收集后进行分类,包括以下步骤:S111:将网约车的场景进行分类,包括预约、上车、乘车、下车、结束和评价;S112:对分类的各个场景进行标签化处理,使得单意图线上数据按照标签进行分类,在同一标签内的重复对话内容只保留其中一组;S113:对于分类后的单意图线上数据,形成单意图数据集,所述单意图数据集的数据带有场景标签,将单意图数据集加入到多意图数据集中。4.根据权利要求1所述的基于网约车对话文本的多意图识别方法,其特征在于:步骤S1中,线上文本多意图标注数据是将文本通过BIE信息抽...

【专利技术属性】
技术研发人员:潘昊杰田鹏飞
申请(专利权)人:北京云行在线软件开发有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1