产生实体关系抽取模型的装置及方法制造方法及图纸

技术编号:36730927 阅读:12 留言:0更新日期:2023-03-04 09:57
本发明专利技术提供一种产生实体关系抽取模型的装置及方法。该装置接收待标注文本,基于待标注文本中的多个字段以及实体关系数据库中的该等实体信息与该等关系信息,产生对应各该字段的至少一待标注实体信息以及对应各该字段的至少一待标注关系信息。该装置根据改良式标注格式对各该字段的该至少一待标注实体信息及该至少一待标注关系信息进行标注。该装置由该至少一标注后实体信息与该至少一标注后关系信息产生多个组合且存储至实体关系数据库。以预训练语言模型为基础,该装置将该等组合输入至预训练语言模型,以产生实体关系抽取模型。型。型。

【技术实现步骤摘要】
产生实体关系抽取模型的装置及方法


[0001]本专利技术涉及一种产生实体关系抽取模型的装置及方法。具体而言,本专利技术尤其涉及一种执行预标注程序及训练模型程序以产生实体关系抽取模型的装置及方法。

技术介绍

[0002]知识抽取是知识管理中最重要的第一步,知识抽取是在大量文件中萃取有用的知识,其中包含实体与关系。通过这些知识,能使得各种应用服务在遇到需要作出判断的场景时,能快速并且精准的做出决定,完成该场景的任务。许多应用及解决方案都仰赖结构化文本信息的知识来完成特定的功能,例如:搜寻引擎、自动导航、知识问答、推荐系统以及对话机器人等等,若欲进一步提升其知识程度则需要利用知识图谱及语义知识库,因此实体关系抽取是建构知识库的关键技术之一。
[0003]现有的实体关系抽取方法,主要以人工规则模板及句法结构分析为主。具体而言,人工规则模板是利用领域专家设计的模板规则进行匹配,在面对新的领域或数据时需要重新设计新的模板,除了设计耗时之外,亦仅适用于小的领域。句法结构则是由语言分析学家剖析单一语言的句法规则及结构来构建句法,针对输入文本句子进行结构拆分并辨别实体名词与动词关系,然而存在全句标注的成本极高且无法快速转换领域或语言等缺点。因此,不论采用前述的哪种实体关系抽取方法,均需要专家或学者的介入,耗费大量的人工标注成本及时间,亦无法快速且弹性的针对不同领域转换。
[0004]有鉴于此,如何有效率且自动化的产生实体关系抽取模型,乃业界亟需努力的目标。

技术实现思路

[0005]本专利技术的一目的在于提供一种产生实体关系抽取模型的装置。该装置包含一存储器及一处理器,该处理器电性连接至该存储器。该存储器用以存储一实体关系数据库,其中该实体关系数据库至少包含多个实体信息及多个关系信息。该处理器用以执行一预标注程序及一训练模型程序,其中该预标注程序包含下列步骤:该处理器接收一待标注文本。该处理器基于该待标注文本中的多个字段以及该实体关系数据库中的该等实体信息与该等关系信息,产生对应各该字段的至少一待标注实体信息以及对应各该字段的至少一待标注关系信息。该处理器根据一改良式标注格式对各该字段的该至少一待标注实体信息及该至少一待标注关系信息进行标注,以产生至少一标注后实体信息及至少一标注后关系信息。该处理器由该至少一标注后实体信息与该至少一标注后关系信息产生多个组合且存储至该实体关系数据库。该训练模型程序包含下列步骤:该处理器以一预训练语言模型为基础,将该等组合输入至该预训练语言模型,以产生一实体关系抽取模型。
[0006]本专利技术的另一目的在于提供一种产生实体关系抽取模型的方法。该方法用于一产生实体关系抽取模型的装置,该产生实体关系抽取模型的装置包含一存储器及一处理器,该存储器存储一实体关系数据库,其中该实体关系数据库至少包含多个实体信息及多个关
系信息,该产生实体关系抽取模型的方法由该处理器所执行且包含下列步骤:执行一预标注程序及一训练模型程序,其中该预标注程序包含下列步骤:接收一待标注文本;基于该待标注文本中的多个字段以及该实体关系数据库中的该等实体信息与该等关系信息,产生对应各该字段的至少一待标注实体信息以及对应各该字段的至少一待标注关系信息;根据一改良式标注格式对各该字段的该至少一待标注实体信息及该至少一待标注关系信息进行标注,以产生至少一标注后实体信息及至少一标注后关系信息;由该至少一标注后实体信息与该至少一标注后关系信息的多个组合且存储至该实体关系数据库;其中,该训练模型程序包含下列步骤:以一预训练语言模型为基础,将该等组合输入至该预训练语言模型,以产生一实体关系抽取模型。
[0007]由上述说明可知,传统的实体关系抽取模型训练通常需要重头开始训练,且需要经过大量的人工标注/介入所产生的输入数据才能达成效果。有别于传统的模型产生方式,本专利技术所提供的产生实体关系抽取模型技术(至少包含装置及方法)架构在预训练模型上,并通过预标注程序的机制,快速标注输入数据并扩增实体关系数据库,自动化的产生大量的数据,而不需要人力的介入,因而使得实体关系抽取模型能够快速地被训练。此外,本专利技术更通过改良式标注格式的信息,加速实体关系抽取模型的训练速度。因而解决了现有技术中,实体关系抽取模型均需要专家或学者的介入,耗费大量的人工标注成本及时间,亦无法快速且弹性的针对不同领域转换的缺点。
[0008]以下将结合附图阐述本专利技术的详细技术及实施方式,俾使本专利技术所属
中技术人员能理解所请求保护的专利技术的技术特征。
附图说明
[0009]图1描绘依据本专利技术一实施例的产生实体关系抽取模型的装置的架构示意图;
[0010]图2描绘第一实施方式中实体关系数据库的示意图;
[0011]图3系描绘第一实施方式中扩增后的实体关系数据库的示意图;
[0012]图4描绘第一实施方式中训练实体关系抽取模型的架构的示意图;以及
[0013]图5描绘第二实施方式的产生实体关系抽取模型的方法的流程图。
[0014]附图标号说明:
[0015]1:产生实体关系抽取模型的装置
[0016]11:存储器
[0017]13:收发接口
[0018]15:处理器
[0019]133:待标注文本
[0020]400:实体关系数据库
[0021]409:神经网络
[0022]411:输入层
[0023]413:预训练语言模型
[0024]415:序列层
[0025]S501

S509:步骤
具体实施方式
[0026]以下将通过实施方式来解释本专利技术所提供的产生实体关系抽取模型的装置及方法。然而,该等实施方式并非用以限制本专利技术需在如该等实施方式所述的任何环境、应用或方式方能实施。因此,关于实施方式的说明仅为阐释本专利技术的目的,而非用以限制本专利技术的范围。应理解,在以下实施方式及附图中,与本专利技术非直接相关的元件已省略而未示出,且各元件的尺寸以及元件间的尺寸比例仅为例示而已,而非用以限制本专利技术的范围。
[0027]本专利技术的第一实施方式为一产生实体关系抽取模型的装置1,其架构示意图描绘于图1。于本实施方式中,产生实体关系抽取模型的装置1包含一存储器11、一收发接口13及一处理器15,处理器15电性连接至存储器11及收发接口13。存储器11可为一存储器、一通用串列总线(Universal Serial Bus;USB)盘、一硬盘、一光盘、一随身盘或本专利技术所属
中技术人员所知且具有相同功能的任何其他存储媒体或电路。收发接口13为一可接收及传输数据的接口或本专利技术所属
中技术人员所知悉的其他可接收及传输数据的接口,收发接口13可通过例如:外部装置、外部网页、外部应用程序等等来源接收数据。处理器15可为各种处理单元、中央处理单元(Central Processing Unit;CPU)、微处理器或本专利技术所属
中技术人员所知悉的其他计算装置。于某些实施方式中,产生实体关系抽取模型的装置1可为但不限于是移动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种产生实体关系抽取模型的装置,包含:存储器,用以存储实体关系数据库,其中所述实体关系数据库至少包含多个实体信息及多个关系信息;以及处理器,电性连接至所述存储器,用以执行预标注程序及训练模型程序,其中所述预标注程序包含下列步骤:接收待标注文本;基于所述待标注文本中的多个字段以及所述实体关系数据库中的所述多个实体信息与所述多个关系信息,产生对应各所述字段的至少一待标注实体信息以及对应各所述字段的至少一待标注关系信息;根据改良式标注格式对各所述字段的所述至少一待标注实体信息及所述至少一待标注关系信息进行标注,以产生至少一标注后实体信息及至少一标注后关系信息;以及由所述至少一标注后实体信息与所述至少一标注后关系信息产生多个组合且存储至所述实体关系数据库;其中,所述训练模型程序包含下列步骤:以预训练语言模型为基础,将所述多个组合输入至所述预训练语言模型,以产生实体关系抽取模型。2.根据权利要求1所述的产生实体关系抽取模型的装置,其中所述实体关系数据库是由爬虫程序及实体关系数据库建构程序产生,其中执行所述爬虫程序包含下列步骤:收集多个知识库数据内容,各所述知识库数据内容包含多个条目名称及对应各所述条目名称的条目内文;以及对所述各所述条目内文进行断句处理,以产生输入数据;其中,所述实体关系数据库建构程序包含下列步骤:将所述输入数据输入至实体关系抽取系统,以产生输出数据,其中所述输出数据包含多笔三元组数据,各所述三元组数据包含多个实体信息、至少一关系信息及信心分数;以及基于所述信心分数,将输出数据中所述信心分数超越预设值的所述多个三元组数据存储至所述实体关系数据库。3.根据权利要求1所述的产生实体关系抽取模型的装置,其中产生对应各所述字段的所述至少一待标注实体信息以及对应各所述字段的所述至少一待标注关系信息包含下列步骤:比对所述待标注文本中的所述多个字段以及所述实体关系数据库中的所述多个实体信息,以产生对应各所述字段的所述至少一待标注实体信息;以及比对包含至少二个待标注实体信息的各所述字段以及所述实体关系数据库中的所述多个关系信息,以产生对应各所述字段的所述至少一待标注关系信息。4.根据权利要求1所述的产生实体关系抽取模型的装置,其中由所述至少一标注后实体信息与所述至少一标注后关系信息产生所述多个组合包含下列步骤:根据各所述字段的所述至少一标注后实体信息及所述至少一标注后关系信息于所述字段的先后顺序,产生各所述字段中的所述至少一标注后实体信息与所述至少一标注后关系信息的所述多个组合。5.根据权利要求1所述的产生实体关系抽取模型的装置,其中所述训练模型程序还包
含:将输入层及序列层与所述预训练语言模型串接;以及将所述实体关系数据库中包含所述改良式标注格式的所述多个组合输入至所述输入层,配合所述预训练语言模型及所述序列层,以产生所述实体关系抽取模型。6.根据权利要求1所述的产生实体关系抽取模型的装置,其中所述改良式标注格式是由传统序列标注格式及对应所述传统序列标注格式的实体标签及关系标签所组成。7.一种产生实体关系抽取模型的方法,用于产生实体关系抽取模型...

【专利技术属性】
技术研发人员:曾俋颖张琼之邱德旺
申请(专利权)人:台达电子工业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1