ISO19650标准文本的多语句关联分析方法及系统技术方案

技术编号:34133765 阅读:15 留言:0更新日期:2022-07-14 16:05
本发明专利技术提供了一种ISO 19650标准文本的多语句关联分析方法及系统,涉及信息处理技术领域,该方法包括:步骤S1:对ISO 19650标准系列中的语句进行分词和换词处理,获得经过预处理的语句;步骤S2:对经过预处理的语句进行依存句法分析,获取语句中词语之间的依存关系;步骤S3:根据依存关系到语义关系的转换规则,针对语句中词语间的依存关系进行推理,得到单个语句中词语之间的语义关系;步骤S4:将单个语句中的语义关系导入图数据库,将ISO标准的本体模型导入图数据库,建立各个句子中词语与本体模型中词语的链接,推理多个语句之间的关联关系。本发明专利技术能够克服语料库不足导致的ISO 19650标准中文文本的语义信息提取困难,同时也有助于解决ISO 19650语句间关联和参引的自动分析面临的困难。动分析面临的困难。动分析面临的困难。

【技术实现步骤摘要】
ISO 19650标准文本的多语句关联分析方法及系统


[0001]本专利技术涉及信息处理
,具体地,涉及一种基于NLP和本体模型的ISO19650标准系列文本中多语句间的关联分析方法。

技术介绍

[0002]工程项目开发要求所有参与者及时传达明确的信息。除了IFC文件格式,他们还需要一个信息管理框架来支持他们的协作。ISO 19650标准系列提供了这样一个框架来建立可靠的信息源。由于由5部分组成的ISO 19650标准系列构成了一个复杂的系统,建筑行业希望能够捕获这些标准中的语义信息。
[0003]但是,人工提取ISO 19650标准系列中语义信息不仅耗时,成本也很高。因此,需要专门开发了一种基于NLP的语义信息提取方法,进而借助ISO 19650标准的本体模型自动分析各个标准条文之间的关联和参引关系。
[0004]公开号为CN110096692B的专利技术专利,公开了一种语义信息处理方法和装置,该语义信息处理方法包括根据得到的题干,将题干划分为已知条件和结论两部分;根据得到的已知条件和结论,提取已知条件和结论中的显性语义信息;当已知条件和/或结论中存在隐性语义信息时,提取已知条件和/结论中的隐性语义信息;合并提取到的显性语义信息和隐性语义信息,得到题干的语义信息。

技术实现思路

[0005]针对现有技术中的缺陷,本专利技术提供一种ISO 19650标准文本的多语句关联分析方法及系统。
[0006]根据本专利技术提供的一种ISO 19650标准文本的多语句关联分析方法及系统,所述方案如下:
[0007]第一方面,提供了一种ISO 19650标准文本的多语句关联分析方法,所述方法包括:
[0008]步骤S1:对ISO 19650标准系列中的语句进行分词和换词处理,获得经过预处理的语句;
[0009]步骤S2:对经过预处理的语句进行依存句法分析,获取语句中词语之间的依存关系;
[0010]步骤S3:根据依存关系到语义关系的转换规则,针对语句中词语间的依存关系进行推理,得到单个语句中词语之间的语义关系;
[0011]步骤S4:将单个语句中的语义关系导入图数据库,将ISO标准的本体模型导入图数据库,建立各个句子中词语与本体模型中词语的链接,推理多个语句之间的关联关系。
[0012]优选地,所述步骤S1包括:
[0013]步骤S1.1:获取中文版ISO 19650标准系列的文本文件;
[0014]步骤S1.2:按每个标准条目抽取语句,并进行语句分词;
[0015]步骤S1.3:对分词得到的词语进行换词,用上位词替换专业术语。
[0016]优选地,所述文本文件为docx文件,使用开源ZLib库将docx文件解压到一组XML文件中,然后从这些解压文件中按照ISO 19650标准系列的条目编码规律分析XML文件,从中提取标准的条目内容,删除所有字体和段落排版,最后生成一个包含语句列表的纯文本文件。
[0017]优选地,所述步骤S2包括:通过依存关系解析器对语句进行句法树分析,为语句中的每个词语都标记一个词性,找出语句中的中心词,确定与中心词关联的非中心词,将非中心词再作为中心词开始下一轮的相关非中心词的查找,最后获得一个多层次的依存句法树。
[0018]优选地,所述步骤S3包括:语义关系推理,设计依存关系到语义关系的映射规则,根据该映射规则将所述依存句法树转化为二元的语义关系。
[0019]第二方面,提供了一种ISO 19650标准文本的多语句关联分析系统,所述系统包括:
[0020]模块M1:对ISO 19650标准系列中的语句进行分词和换词处理,获得经过预处理的语句;
[0021]模块M2:对经过预处理的语句进行依存句法分析,获取语句中词语之间的依存关系;
[0022]模块M3:根据依存关系到语义关系的转换规则,针对语句中词语间的依存关系进行推理,得到单个语句中词语之间的语义关系;
[0023]模块M4:将单个语句中的语义关系导入图数据库,将ISO标准的本体模型导入图数据库,建立各个句子中词语与本体模型中词语的链接,推理多个语句之间的关联关系。
[0024]优选地,所述模块M1包括:
[0025]模块M1.1:获取中文版ISO 19650标准系列的文本文件;
[0026]模块M1.2:按每个标准条目抽取语句,并进行语句分词;
[0027]模块M1.3:对分词得到的词语进行换词,用上位词替换专业术语。
[0028]优选地,所述文本文件为docx文件,使用开源ZLib库将docx文件解压到一组XML文件中,然后从这些解压文件中按照ISO 19650标准系列的条目编码规律分析XML文件,从中提取标准的条目内容,删除所有字体和段落排版,最后生成一个包含语句列表的纯文本文件。
[0029]优选地,所述模块M2包括:通过依存关系解析器对语句进行句法树分析,为语句中的每个词语都标记一个词性,找出语句中的中心词,确定与中心词关联的非中心词,将非中心词再作为中心词开始下一轮的相关非中心词的查找,最后获得一个多层次的依存句法树。
[0030]优选地,所述模块M3包括:语义关系推理,设计依存关系到语义关系的映射规则,根据该映射规则将所述依存句法树转化为二元的语义关系。
[0031]与现有技术相比,本专利技术具有如下的有益效果:
[0032]本专利技术通过映射规则从句法关系中推断领域语义关系,极大地克服语料库不足带来的困难,且通过实验验证了所提出的信息提取方法的可行性和实用性。
附图说明
[0033]通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:
[0034]图1为本专利技术整体流程示意图;
[0035]图2为依存句法树的框架示意图;
[0036]图3为一个句子的依存树示例;
[0037]图4为典型的语义关系示意图;
[0038]图5为从句法关系到语义关系的转换示意图;
[0039]图6为Neo4J图数据库中存储的知识图谱;
[0040]图7为推断标准语句之间关联关系的案例。
具体实施方式
[0041]下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。
[0042]本专利技术实施例提供了一种基于NLP标准文本的多语句间的关联分析方法,参照图1所示,该方法具体包括:
[0043]步骤S1:对ISO 19650中的语句进行分词和换词处理,获得经过预处理的语句。
[0044]该步骤S1具体包括:
[0045]步骤S1.1:获取ISO 19650标准系列中文翻译文本的文件。
[0046]步骤S1.2:按标准条目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种ISO 19650标准文本的多语句关联分析方法,其特征在于,包括:步骤S1:对ISO 19650标准系列中的语句进行分词和换词处理,获得经过预处理的语句;步骤S2:对经过预处理的语句进行依存句法分析,获取语句中词语之间的依存关系;步骤S3:根据依存关系到语义关系的转换规则,针对语句中词语间的依存关系进行推理,得到单个语句中词语之间的语义关系;步骤S4:将单个语句中的语义关系导入图数据库,将ISO标准的本体模型导入图数据库,建立各个句子中词语与本体模型中词语的链接,推理多个语句之间的关联关系。2.根据权利要求1所述的ISO 19650标准文本的多语句关联分析方法,其特征在于,所述步骤S1包括:步骤S1.1:获取中文版ISO 19650标准系列的文本文件;步骤S1.2:按每个标准条目抽取语句,并进行语句分词;步骤S1.3:对分词得到的词语进行换词,用上位词替换专业术语。3.根据权利要求2所述的ISO 19650标准文本的多语句关联分析方法,其特征在于,所述文本文件为docx文件,使用开源ZLib库将docx文件解压到一组XML文件中,然后从这些解压文件中按照ISO 19650标准系列的条目编码规律分析XML文件,从中提取标准的条目内容,删除所有字体和段落排版,最后生成一个包含语句列表的纯文本文件。4.根据权利要求1所述的ISO 19650标准文本的多语句关联分析方法,其特征在于,所述步骤S2包括:通过依存关系解析器对语句进行句法树分析,为语句中的每个词语都标记一个词性,找出语句中的中心词,确定与中心词关联的非中心词,将非中心词再作为中心词开始下一轮的相关非中心词的查找,最后获得一个多层次的依存句法树。5.根据权利要求1所述的ISO 19650标准文本的多语句关联分析方法,其特征在于,所述步骤S3包括:语义关系推理,设计依存关系到语义关系的映射规则,根据该映射规则将所述依存句法树转化为二元的语义关系。6.一种ISO...

【专利技术属性】
技术研发人员:吴冰刘伟军宋元斌胡锡燎诸言涵曹金浩张波陈科技王淑红王婷婷张琳琳杨嘉睿陈赛慧杨铁涵黄江倩林贺
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1