基于TF-IDF算法的校园机器人算法优化制造技术

技术编号:35869711 阅读:21 留言:0更新日期:2022-12-07 11:03
本发明专利技术提供基于TF

【技术实现步骤摘要】
基于TF

IDF算法的校园机器人算法优化


[0001]本专利技术主要涉及校园机器人
,具体涉及基于TF

IDF算法的校园机器人算法优化。

技术介绍

[0002]本专利技术涉及信息检索与数据挖掘领域,具体地,涉及一种基于改进地TF

IDF智能服务机器人自动问答的算法优化。
[0003]随着人工智能技术的不断发展,智能服务机器人在各个行业应用越来越广泛。高校智慧校园规划也把最新的信息技术融入到教育教学管理软硬件建设中,也推出了面向广大学生的智能服务机器人。这些实体机器人配备了自动问答系统来回答学生的常见问题,例如:学分查询、入学缴费、个人课表等。
[0004]自动问答系统是指以自然语言理解技术为核心,首先识别学生的问题,并把问题与后台配置信息进行匹配,从而实现学生和机器的有效交流。现有问答系统流程是机器人获取学生的提问语句,将提问语句与问答库中的问题进行对比,获取相应的答案。然而,面对复杂的问题以及特殊的问法,例如口语化、个性化表达等,现有的问答系统显得较为吃力。我们需要引入一种改进的TF

IDF算法,并结合对语料冗余词剔除、自定义分词等预处理技术,使智能服务机器人的答案更准确。
[0005]TF

IDF(term frequency

inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF代表词频(Term Frequency),表示语料出现的次数除以该问答库中的总句数。IDF代表逆文本频率指数(Inverse Document Frequency),表示问答库里包含的问答句总数除以语料,公式如下所示。
[0006]其中,为词频,是第j个文档第i个特征在文档中出现的次数;为文档频率,是第j个文档第i个特征项在所有文档中出现的次数。
[0007]学生问题和问答库中的问题最后都转化为文本的形式,判断学生问题的意图就是要寻找和学生问题最接近的问题答案,在自然语言处理中通常利用向量之间的相似度来计算两个文本的相似程度,常用欧式距离、余弦距离等距离公式。
[0008]传统TF

IDF通过TF来获取文本内部信息过于简单,忽略了词在文本中的其他特征;通过IDF获取文本外部信息时,仅考虑了特征项在文本集中出现的文档数作为词语重要程度的衡量参数,而忽略了特征项在文本集中的类别分布情况,因此不能准确地表现特征项的类别区分能力。

技术实现思路

[0009]专利技术要解决的技术问题本专利技术的提供了基于TF

IDF算法的校园机器人算法优化,用以解决上述
技术介绍
中存在的技术问题。
[0010]技术方案为达到上述目的,本专利技术提供的技术方案为:基于TF

IDF算法的校园机器人算法优化,包括以下步骤:TF

IDF算法优化;对训练语料库进行分类,以提高或降低某类别特征词的权重;拆词模型优化;通过实体词配置功能,将校园通用易错词进行了归纳整理,并前置于TF

IDF优化算法拆词模型中;冗余词剔除;在拆词模型实际拆词后,对常用的冗余词进行剔除,并前置于TF

IDF优化算法拆词模型中。
[0011]进一步的,对TF

IDF算法进行优化包括以下步骤;利用k

means聚类算法对训练语料库进行分类;计算第j个文档中第i个特征项所对应的类别权重,计算公式如下;其中,为文档频率的均值,为类别k中第i个特征词出现的次数,为第i个特征词在类别间出现的均值。
[0012]最后利用优化的TF

IDF算法进行计算最终结果进行识别,计算公式如下;进一步的,拆词模型优化主要自定义分词有校园卡、综合素质学分、学科竞赛、文化创新活动、学术与行业讲座、智慧运动、调停课、培养方案、诚信管理、智慧资助、完美校园、校园通讯录、座位预约、校车时刻、校园卡交易、报修管理、安小信、课表查询、学分查询、校园卡余额、新生报道流程、学分绩点、休学流程、退学流程、辅修毕业要求、缓考流程、参军保留学籍、辅修收费标准。进一步的,常用的冗余词有礼貌用语、语气助词,并支持对冗余词进行配置添加,在拆词模型实际拆词后,对词组与预设的冗余词进行匹配,并删除其在模糊度计算公式中的得分。
[0013]进一步的,还包括包括使用上述算法优化的校园机器人。
[0014]有益效果
采用本专利技术提供的技术方案,与现有技术相比,具有如下有益效果:本专利技术设计合理,通过改进的TF

IDF算法,加入分类权重系数,分类权重系数的设置可以增强关键语句在问答库中的权重;拆词模型优化可以避免因为拆词使校园场景的特定词被拆成更小的词,从而导致识别不准确影响最后结果;冗余词剔除可以排除无用词的干扰;通过三种优化提高关键词的权重,让优化后的TF

IDF公式得出的结果更高,答案匹配更准确。
附图说明
[0015]图1为本专利技术的流程示意图;图2为本专利技术的冗余词匹配比对表示意图。
具体实施方式
[0016]为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述,附图中给出了本专利技术的若干实施例,但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。
[0017]在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“页”、“底”“内”、“外”、"顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0018]此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0019]在本专利技术中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“设有”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。
实施例
[0020]参照附图1

2,一种基于TF

IDF算法的校园机器人算法优化,基于TF

IDF算法的校园机器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于TF

IDF算法的校园机器人算法优化,其特征在于:包括以下步骤:TF

IDF算法优化;对训练语料库进行分类,以提高或降低某类别特征词的权重;拆词模型优化;通过实体词配置功能,将校园通用易错词进行了归纳整理,并前置于TF

IDF优化算法拆词模型中;冗余词剔除;在拆词模型实际拆词后,对常用的冗余词进行剔除,并前置于TF

IDF优化算法拆词模型中。2.根据权利要求1所述的基于TF

IDF算法的校园机器人算法优化,其特征在于:对TF

IDF算法进行优化包括以下步骤;利用k

means聚类算法对训练语料库进行分类;计算第j个文档中第i个特征项所对应的类别权重σ
ij
,计算公式如下;其中,df
e
为文档频率的均值,C
ik
为类别k中第i个特征词出现的次数,为第i个特征词在类别间出现的均值;最...

【专利技术属性】
技术研发人员:汪忠国张宝
申请(专利权)人:安徽信息工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1