【技术实现步骤摘要】
基于多模态自然语言特征的轨道交通行业术语提取方法
本专利技术涉及自然语言处理、数据挖掘
,更具体地说,它涉及基于多模态自然语言特征的轨道交通行业术语提取方法。
技术介绍
目前,我国的轨道交通行业在近年来得到了迅猛发展,因此对该行业各岗位、各工种相关工作人员的技术能力和服务水平提出了更高的要求,加之该行业涉及领域广泛、涉及学科众多、知识体系复杂,从而对轨道交通行业的教育培训系统也提出了更高的要求。因此,传统的教育理念和技术手段已经无法满足学员对相关教育培训系统的在线化、个性化和智能化需求。基于此,以知识图谱为核心的轨道交通智慧教育培训系统便应运而生。然而,在知识图谱的构建过程,首先需要从该行业知识库、教材和工程资料中对知识实体的名称进行抽取,常见的专业术语的提取方法主要包括分词技术、行业词典匹配和命名实体识别等方法,无论那种方法都对行业词典或标注语料库有着极强的依赖。现有的术语词汇抽取技术都需要使用已有的标注数据集对模型进行训练,其中标注数据集的构建需要花费大量的人力和物力,并且若构建的词典内容不够准确、词条数量不足时,都会影响对专业术语的提取效果,很难完全抽取出所有的术语词汇。然而,对于轨道交通行业而言,到目前为止,尚未有一套充足、完备的行业词典,所以依赖于词典的方法都无法实现自动、快速、高效的提取行业术语的需求。因此,如何研究设计一种基于多模态自然语言特征的轨道交通行业术语提取方法是我们目前急需解决的问题。
技术实现思路
本专利技术的目的是提供基于多模态自然语言特征的轨道交 ...
【技术保护点】
1.基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,包括以下步骤:/nS1:对行业语料库中的文档标题进行识别和提取,并根据过滤词词库对识别和提取的行业术语进行过滤,得到第一批候选词词库;/nS2:根据过滤词词库对行业语料库进行文本切分、筛选后得到由文本单元构成的预选词列表,并对预选词列表循环迭代过滤后得到第二批候选词词库;/nS3:通过分词模型和词性标注模型对语料进行分词和词性标注,将连续相邻的类名词合并成名词性短语,抽取名词性短语后得到第三批候选词词库;/nS4:对分词列表去除处理后得到预选分词列表、词频统计列表,根据预选分词列表、词频统计列表进行二元共现分析后得到由二元词对构成的第四批候选词词库;/nS5:根据预选分词列表、词频统计列表进行三元共现分析得到由三元词对构成的第五批候选词词库;/nS6:根据邻接字对二元词对和/或三元词对进行扩展,得到第六批候选词词库;/nS7:对所有批次的候选词词库求解并集后得到最终行业术语库。/n
【技术特征摘要】
1.基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,包括以下步骤:
S1:对行业语料库中的文档标题进行识别和提取,并根据过滤词词库对识别和提取的行业术语进行过滤,得到第一批候选词词库;
S2:根据过滤词词库对行业语料库进行文本切分、筛选后得到由文本单元构成的预选词列表,并对预选词列表循环迭代过滤后得到第二批候选词词库;
S3:通过分词模型和词性标注模型对语料进行分词和词性标注,将连续相邻的类名词合并成名词性短语,抽取名词性短语后得到第三批候选词词库;
S4:对分词列表去除处理后得到预选分词列表、词频统计列表,根据预选分词列表、词频统计列表进行二元共现分析后得到由二元词对构成的第四批候选词词库;
S5:根据预选分词列表、词频统计列表进行三元共现分析得到由三元词对构成的第五批候选词词库;
S6:根据邻接字对二元词对和/或三元词对进行扩展,得到第六批候选词词库;
S7:对所有批次的候选词词库求解并集后得到最终行业术语库。
2.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,在步骤S1中,所述过滤词词库具体为:根据开源汉语词典建立的由介词、连词、助词、副词等常用虚词构成的词库。
3.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,在步骤S2中,所述第二批候选词词库具体为:
S201:对行业语料库进行预处理:
通过标题识别规则将标题编号剔除,并将标题内容作为一个独立的文本行;
根据标点符号和特殊符号将语料进行切分,并去除掉标点符号和特殊符号后得到文本集;
S202:在文本集中筛选出字符串长度小于指定阈值的文本单元,构成预选词列表;
S203:循环迭代预选词列表,通过过滤词词库将预选词的前置过滤词和后置过滤词全部删除,得到第二批候选词词库。
4.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,在步骤S4、S5中,所述分词列表去除停用词和过滤词具体为:
S401:根据加载的停用词词库和过滤词词库去除分词列表中的停用词和过滤词,得到预选分词列表;
S402:对预选分词列表进行一元共现分析后得到预选分词列表中所有词语的词频统计列表,一元共现分析的计算公式为:
其中,Wi表示预选分词列表中的某词语,C(Wi)表示某词语在预选分词列表中出现的次数,T表示预选分词列表中分词的总数,P(Wi)表示某词语在预选分词列表中出现的概率。
5.根据权利要求4所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,所述二元...
【专利技术属性】
技术研发人员:刘永浩,曹幂,林海,温俊,周逸夫,李涛,张帆,
申请(专利权)人:嘉兴运达智能设备有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。