一种构建施工关键词库的方法、装置、设备及存储介质制造方法及图纸

技术编号:35923542 阅读:11 留言:0更新日期:2022-12-10 11:11
本发明专利技术公开了一种构建施工关键词库的方法、装置、设备及存储介质,该方法包括:对待处理施工语料进行分词,以得到包含多个分词的分词结果;获取预设的施工核心词,并从所述分词结果中筛选出包含所述施工核心词的一级分词;计算所述分词结果中除所述一级分词之外的其他分词与所述施工核心词的相似度,并将相似度大于预设阈值的设置为二级分词;将所述一级分词和所述二级分词作为施工关键词添加到预设的施工关键词库中;本发明专利技术能够高效构建施工关键词库。键词库。键词库。

【技术实现步骤摘要】
一种构建施工关键词库的方法、装置、设备及存储介质


[0001]本专利技术涉及计算机数据处理
,特别涉及一种构建施工关键词库的方法、装置、设备及存储介质。

技术介绍

[0002]在建筑施工过程中会产生大量施工语料,当需要构建一个建筑施工方面的施工关键词库时,可以基于施工语料进行关键词提取和词库构建。但由于建筑施工类型的施工关键词与其他类型的关键词的构成有所不同,施工关键词往往是由多个建筑施工相关的词语组合而成,例如“钢筋混凝土墙”,但是现有的分词工具携带的词库中关于建筑施工相关的关键词较少,使用现有技术中常用的分词工具无法准确提取完整的施工关键词,所以在现有的构建施工关键词库的过程中,还需依赖建筑专家的经验和相关技术资料,通过人工总结提炼出施工关键词的方式来构建施工关键词库,这种方式使得构建过程无法与施工关键词更新换代的速度相适应,且对建筑专家的能力要求较高。因此,利用现有技术构建施工关键词库不仅需要耗费大量的时间和资源,还难以覆盖海量施工文本中施工关键词的多元化表达。
[0003]因此,如何高效准确的构建施工关键词库成为了本领域技术人员亟待解决的技术难题。

技术实现思路

[0004]本专利技术的目的在于提供一种构建施工关键词库的方法、装置、设备及存储介质,能够高效、准确的构建施工关键词库。
[0005]根据本专利技术的一个方面,提供了一种构建施工关键词库的方法,所述方法包括:
[0006]对待处理施工语料进行分词,以得到包含多个分词的分词结果;
[0007]获取预设的施工核心词,并从所述分词结果中筛选出包含所述施工核心词的一级分词;
[0008]计算所述分词结果中除所述一级分词之外的其他分词与所述施工核心词的相似度,并将相似度大于预设阈值的设置为二级分词;
[0009]将所述一级分词和所述二级分词作为施工关键词添加到预设的施工关键词库中。
[0010]可选的,在所述对待处理施工语料进行分词,以得到包含多个分词的分词结果之前,所述方法还包括:
[0011]获取施工语料样本,并利用成分句法分析模型对所述施工语料样本进行成分句法分析以得到包含在所述施工语料样本中的各个样本短语以及每个样本短语的短语类型;
[0012]判断所述样本短语的短语长度是否小于与所述短语类型所对应的最大长度,若是,则将所述样本短语作为候选词条,若否,则根据所述最大长度从所述样本短语中确定出候选词条;
[0013]计算所述候选词条在所述施工语料样本中的词频、凝固度和自由度,并当所述词
频、凝固度和自由度满足预设条件时,将所述候选词条设置为关键词条。
[0014]可选的,所述对待处理施工语料进行分词,以得到包含多个分词的分词结果,包括:
[0015]判断在所述待处理施工语料中是否存在所述关键词条,若是,则将存在的关键词条作为长分词;
[0016]对所述待处理施工语料中除所述长分词之外的语料进行分词,以得到短分词;
[0017]将所述长分词和所述短分词形成所述分词结果。
[0018]可选的,所述获取预设的施工核心词,并从所述分词结果中筛选出包含所述施工核心词的一级分词,包括:
[0019]获取预设的多个正则表达式;其中,一个正则表达式对应一个施工核心词;
[0020]依次遍历各个正则表达式,并判断在所述分词结果中是否存在满足当前遍历到的正则表达式的目标分词,若是,则将所述目标分词设置为一级分词,若否,则遍历下一正则表达式。
[0021]可选的,所述计算所述分词结果中除所述一级分词之外的其他分词与所述施工核心词的相似度,并将相似度大于预设阈值的设置为二级分词,包括:
[0022]通过预设的词向量模型将所述施工核心词转换为核心词向量,并将所述分词结果中除所述一级分词之外的其他分词转换为分词向量;
[0023]依次遍历各个核心词向量,分别计算每个分词向量与当前遍历到的核心词向量的余弦距离,并将余弦距离大于所述预设阈值的分词向量所对应的分词设置为二级分词。
[0024]可选的,所述将所述一级分词和所述二级分词作为施工关键词添加到预设的施工关键词库中,包括:
[0025]获取与所述一级分词对应的施工核心词所属的一级施工组,并为所述一级分词添加与所述一级施工组对应的施工组标签;
[0026]获取与所述二级分词对应的施工核心词所属的二级施工组,并为所述二级分词添加与所述二级施工组对应的施工组标签;
[0027]根据所述施工组标签将所述一级分词和所述二级分词添加在所述施工关键词库对应的施工组中。
[0028]可选的,在所述将所述一级分词和所述二级分词作为施工关键词添加到预设的施工关键词库中之后,所述方法还包括:
[0029]获取施工文本,利用所述施工关键词库从所述施工文本中识别出目标关键词;其中,所述目标关键词包含在所述施工关键词库中;
[0030]从所述施工文本中确定出多个段落,并分别统计每个段落的关键词特征;其中,所述关键词特征包括:关键词数量和关键词词频;
[0031]根据每个段落的文字数量和关键词特征,利用预设算法计算出每个段落的重要值;
[0032]将重要值最高的段落标记为施工关键段落。
[0033]为了实现上述目的,本专利技术还提供一种构建施工关键词库的装置,所述装置包括:
[0034]分词模块,用于对待处理施工语料进行分词,以得到包含多个分词的分词结果;
[0035]包含模块,用于获取预设的施工核心词,并从所述分词结果中筛选出包含所述施
工核心词的一级分词;
[0036]相似模块,用于计算所述分词结果中除所述一级分词之外的其他分词与所述施工核心词的相似度,并将相似度大于预设阈值的设置为二级分词;
[0037]添加模块,用于将所述一级分词和所述二级分词作为施工关键词添加到预设的施工关键词库中。
[0038]为了实现上述目的,本专利技术还提供一种计算机设备,该计算机设备具体包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述介绍的构建施工关键词库的方法的步骤。
[0039]为了实现上述目的,本专利技术还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述介绍的构建施工关键词库的方法的步骤。
[0040]本专利技术提供的构建施工关键词库的方法、装置、设备及存储介质,通过使用成分句法分析模型提取建筑施工相关的关键词条,再基于关键词条对待处理施工语料进行分词,并从分词结果中筛选出与预设的施工核心词相关的分词并构成施工关键词库,由于提取出的建筑施工相关的关键词条可以协助分词,极大的提高了分词效率和分词准确度,以使得可以精准地从分词结果中筛选出建筑施工相关的关键词,并与预设的施工核心词共同构建分类清晰、词汇量庞大的施工关键词库,减少了人工挑选施工关键词的工作量,提高了筛选施工关键词的准确度,为施工项目的数字化管本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建施工关键词库的方法,其特征在于,所述方法包括:对待处理施工语料进行分词,以得到包含多个分词的分词结果;获取预设的施工核心词,并从所述分词结果中筛选出包含所述施工核心词的一级分词;计算所述分词结果中除所述一级分词之外的其他分词与所述施工核心词的相似度,并将相似度大于预设阈值的设置为二级分词;将所述一级分词和所述二级分词作为施工关键词添加到预设的施工关键词库中。2.根据权利要求1所述的构建施工关键词库的方法,其特征在于,在所述对待处理施工语料进行分词,以得到包含多个分词的分词结果之前,所述方法还包括:获取施工语料样本,并利用成分句法分析模型对所述施工语料样本进行成分句法分析以得到包含在所述施工语料样本中的各个样本短语以及每个样本短语的短语类型;判断所述样本短语的短语长度是否小于与所述短语类型所对应的最大长度,若是,则将所述样本短语作为候选词条,若否,则根据所述最大长度从所述样本短语中确定出候选词条;计算所述候选词条在所述施工语料样本中的词频、凝固度和自由度,并当所述词频、凝固度和自由度满足预设条件时,将所述候选词条设置为关键词条。3.根据权利要求2所述的构建施工关键词库的方法,其特征在于,所述对待处理施工语料进行分词,以得到包含多个分词的分词结果,包括:判断在所述待处理施工语料中是否存在所述关键词条,若是,则将存在的关键词条作为长分词;对所述待处理施工语料中除所述长分词之外的语料进行分词,以得到短分词;将所述长分词和所述短分词形成所述分词结果。4.根据权利要求1所述的构建施工关键词库的方法,其特征在于,所述获取预设的施工核心词,并从所述分词结果中筛选出包含所述施工核心词的一级分词,包括:获取预设的多个正则表达式;其中,一个正则表达式对应一个施工核心词;依次遍历各个正则表达式,并判断在所述分词结果中是否存在满足当前遍历到的正则表达式的目标分词,若是,则将所述目标分词设置为一级分词,若否,则遍历下一正则表达式。5.根据权利要求1所述的构建施工关键词库的方法,其特征在于,所述计算所述分词结果中除所述一级分词之外的其他分词与所述施工核心词的相似度,并将相似度大于预设阈值的设置为二级分词,包括:通过预设的词向量模型将所述施工核心词转换为核心词向量,并将所述分词结果中除...

【专利技术属性】
技术研发人员:马聚
申请(专利权)人:广联达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1