一种问题文本关键字提取方法技术

技术编号:26065804 阅读:57 留言:0更新日期:2020-10-28 16:38
本发明专利技术公开的问题文本关键字提取方法,涉及文本处理技术领域,通过接收用户输入的问题文本并利用IKAnalyzer分词工具,对问题文本进行分词处理,得到该问题文本的多个关键字,利用TF‑IDF算法,分别计算各个关键字的第一TF‑IDF值,根据各个关键字对应的衰减函数,分别计算各个关键字的第二TF‑IDF值,根据第二TF‑IDF值的大小,对各个关键字进行排序,生成关键字集合并将TF‑IDF值最大的关键字作为问题文本的关键字,能够精确提取用户上报的问题文本中的关键字,对预设的问题类型标签及问题描述标签进行修正,提供了产品版本迭代的依据,有助于后续运维绩效评定和功能改进工作,提升了用户体验。

【技术实现步骤摘要】
一种问题文本关键字提取方法
本专利技术涉及文本处理
,具体涉及一种问题文本关键字提取方法。
技术介绍
随着社会的发展,使用共享交通工具(共享单车及共享汽车等)出行已深受人们喜欢。由于用车场景多、用车渠道复杂、车辆来源众多,导致用户在用车过程中经常遇到各类问题,用户通过系统的问题上报或客服留言功能上报问题文本后,如何从问题文本中精确地提取关键字是个关键的问题。目前,主要采用CRM系统维护用户上报的问题文本的问题类型标签及问题分类标签,在上报场景中提示问题类型标签,同时提示该问题类型对应的多个问题描述标签,用户通过选择问题类型标签及标问题描述签确认问题范围,同时录入具体的内容。整个问题文本上报过程中,选择问题类型标签及问题描述标签尤为重要,但实际情况下,可能存在用户问题类型标签及问题描述标签选错或未选择情况(由于用户体验原因,问题类型标签及问题描述标签无法约束强制选择),如,当用车过程中出现因雨刷器无玻璃水而导致雨刷器不能正常使用时,如果用户只选择雨刷器未选择玻璃水,上报的问题文本遗漏玻璃水问题,导致无法完成后续运维绩效评级和功能改进工作,用户体验较差。
技术实现思路
为解决现有技术的不足,本专利技术实施例提供了一种问题文本关键字提取方法,该方法包括以下步骤:接收用户输入的问题文本并利用IKAnalyzer分词工具,对所述问题文本进行分词处理,得到所述问题文本的多个关键字;利用TF-IDF算法,分别计算各个关键字的第一TF-IDF值;根据各个关键字对应的衰减函数,分别计算各个关键字的第二TF-IDF值;根据第二TF-IDF值的大小,对各个关键字进行排序,生成关键字集合并将TF-IDF值最大的关键字作为所述问题文本的关键字。优选地,分别计算各个关键字在的第二TF-IDF值包括:利用公式y=f(x)t,计算各个关键字在对应的衰减函数下的第二TF-IDF值,其中,f(x)为关键字的衰减函数,t为关键字的第一TF-IDF值。优选地,在提取值最大的TF-IDF值对应的关键字作为所述问题文本的关键字之后,所述方法还包括:分别判断所述关键字集合中前设定位数的关键字是否命中预设的问题类型标签,若否,则用所述关键字替换预设的问题类型标签。优选地,在提取值最大的TF-IDF值对应的关键字作为所述问题文本的关键字之后,所述方法还包括:分别判断所述关键字集合中前设定位数的关键字是否命中预设的问题描述标签,若否,则用所述关键字替换预设的问题描述标签。优选地,所述问题文本包括多个问题类型的问题文本。本专利技术实施例提供的问题文本关键字提取方法具有以下有益效果:利用基于衰减函数的TF-IDF算法,能够精确提取用户上报的问题文本中的关键字,对预设的问题类型标签及问题描述标签进行修正,提供了产品版本迭代的依据,有助于后续运维绩效评定和功能改进工作,提升了用户体验。具体实施方式以下结合具体实施例对本专利技术作具体的介绍。本专利技术实施例提供的问题文本关键字提取方法包括以下步骤:S101,接收用户输入的问题文本并利用IKAnalyzer分词工具,对问题文本进行分词处理,得到该问题文本的多个关键字。S102,利用TF-IDF算法,分别计算各个关键字的第一TF-IDF值。作为本专利技术一个具体的实施例,TF-IDF值为关键字的词频与逆文档频率的乘积,关键字的词频为该关键字在车辆当日所上报的问题文本中出现的次数与该关键字在该车辆中30天内所上报的问题文本中出现的次数;逆文档频率的计算公式为f=log(m/n),其中,m为该关键字在该城市中针对所有车辆问题描述的次数,n该关键字在所有城市针对所有车辆问题描述的次数。S103,根据各个关键字对应的衰减函数,分别计算各个关键字的第二TF-IDF值。作为本专利技术一个具体的实施例,假设车辆保养周期为一个月,则关键字为车辆问题、玻璃水的时间衰减函数为y=lgX/10+1,X∈(0-1),表示玻璃水问题的TF-IDF值在0-1个月之内是递增的,递增到一个保养周期为止。其他关键字的衰减函数依据实际情况维护,如发动机异响、车辆卫生情况等。S104,根据第二TF-IDF值的大小,对各个关键字进行排序,生成关键字集合并将TF-IDF值最大的关键字作为问题文本的关键字。可选地,分别计算各个关键字在的第二TF-IDF值包括:利用公式y=f(x)t,计算各个关键字在对应的衰减函数下的第二TF-IDF值,其中,f(x)为关键字的衰减函数,t为关键字的第一TF-IDF值。可选地,在提取值最大的TF-IDF值对应的关键字作为问题文本的关键字之后,该方法还包括:分别判断关键字集合中前设定位数的关键字是否命中预设的问题类型标签,若否,则用关键字替换预设的问题类型标签。可选地,在提取值最大的TF-IDF值对应的关键字作为问题文本的关键字之后,该方法还包括:分别判断关键字集合中前设定位数的关键字是否命中预设的问题描述标签,若否,则用关键字替换预设的问题描述标签。作为本专利技术一个具体的实施例,当用户上报的问题文本为“这辆车的在用车中有异味好像是机油或者汽油味道,开空调也无法除味,导致我开车头晕”、选择的问题描述标签分别为空调、机油,则替换后的描述标签分别为异味、机油。可选地,问题文本包括多个问题类型的问题文本。作为本专利技术一个具体的实施例,问题文本包括针对车辆自身问题的描述、使用车辆感受的问题(车位不好找等)。本专利技术实施例提供的问题文本关键字提取方法,通过接收用户输入的问题文本并利用IKAnalyzer分词工具,对问题文本进行分词处理,得到该问题文本的多个关键字,利用TF-IDF算法,分别计算各个关键字的第一TF-IDF值,根据各个关键字对应的衰减函数,分别计算各个关键字的第二TF-IDF值,根据第二TF-IDF值的大小,对各个关键字进行排序,生成关键字集合并将TF-IDF值最大的关键字作为问题文本的关键字,能够精确提取用户上报的问题文本中的关键字,对预设的问题类型标签及问题描述标签进行修正,提供了产品版本迭代的依据,有助于后续运维绩效评定和功能改进工作,提升了用户体验。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本申请的本文档来自技高网...

【技术保护点】
1.一种问题文本关键字提取方法,其特征在于,包括:/n接收用户输入的问题文本并利用IKAnalyzer分词工具,对所述问题文本进行分词处理,得到所述问题文本的多个关键字;/n利用TF-IDF算法,分别计算各个关键字的第一TF-IDF值;/n根据各个关键字对应的衰减函数,分别计算各个关键字的第二TF-IDF值;/n根据第二TF-IDF值的大小,对各个关键字进行排序,生成关键字集合并将TF-IDF值最大的关键字作为所述问题文本的关键字。/n

【技术特征摘要】
1.一种问题文本关键字提取方法,其特征在于,包括:
接收用户输入的问题文本并利用IKAnalyzer分词工具,对所述问题文本进行分词处理,得到所述问题文本的多个关键字;
利用TF-IDF算法,分别计算各个关键字的第一TF-IDF值;
根据各个关键字对应的衰减函数,分别计算各个关键字的第二TF-IDF值;
根据第二TF-IDF值的大小,对各个关键字进行排序,生成关键字集合并将TF-IDF值最大的关键字作为所述问题文本的关键字。


2.根据权利要求1所述的问题文本关键字提取方法,其特征在于,分别计算各个关键字在的第二TF-IDF值包括:
利用公式y=f(x)t,计算各个关键字在对应的衰减函数下的第二TF-IDF值,其中,f(x)为关键字的衰减函数,t为关键字的第一T...

【专利技术属性】
技术研发人员:齐明肖鹏王珏侯胜龙
申请(专利权)人:北京首汽智行科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1