【技术实现步骤摘要】
产生实体关系抽取模型的装置及方法
[0001]本专利技术涉及一种产生实体关系抽取模型的装置及方法。具体而言,本专利技术尤其涉及一种执行预标注程序及训练模型程序以产生实体关系抽取模型的装置及方法。
技术介绍
[0002]知识抽取是知识管理中最重要的第一步,知识抽取是在大量文件中萃取有用的知识,其中包含实体与关系。通过这些知识,能使得各种应用服务在遇到需要作出判断的场景时,能快速并且精准的做出决定,完成该场景的任务。许多应用及解决方案都仰赖结构化文本信息的知识来完成特定的功能,例如:搜寻引擎、自动导航、知识问答、推荐系统以及对话机器人等等,若欲进一步提升其知识程度则需要利用知识图谱及语义知识库,因此实体关系抽取是建构知识库的关键技术之一。
[0003]现有的实体关系抽取方法,主要以人工规则模板及句法结构分析为主。具体而言,人工规则模板是利用领域专家设计的模板规则进行匹配,在面对新的领域或数据时需要重新设计新的模板,除了设计耗时之外,亦仅适用于小的领域。句法结构则是由语言分析学家剖析单一语言的句法规则及结构来构建句法,针对输入文本句子进行结构拆分并辨别实体名词与动词关系,然而存在全句标注的成本极高且无法快速转换领域或语言等缺点。因此,不论采用前述的哪种实体关系抽取方法,均需要专家或学者的介入,耗费大量的人工标注成本及时间,亦无法快速且弹性的针对不同领域转换。
[0004]有鉴于此,如何有效率且自动化的产生实体关系抽取模型,乃业界亟需努力的目标。
技术实现思路
[0005]本专利技术的一目的在 ...
【技术保护点】
【技术特征摘要】
1.一种产生实体关系抽取模型的装置,包含:存储器,用以存储实体关系数据库,其中所述实体关系数据库至少包含多个实体信息及多个关系信息;以及处理器,电性连接至所述存储器,用以执行预标注程序及训练模型程序,其中所述预标注程序包含下列步骤:接收待标注文本;基于所述待标注文本中的多个字段以及所述实体关系数据库中的所述多个实体信息与所述多个关系信息,产生对应各所述字段的至少一待标注实体信息以及对应各所述字段的至少一待标注关系信息;根据改良式标注格式对各所述字段的所述至少一待标注实体信息及所述至少一待标注关系信息进行标注,以产生至少一标注后实体信息及至少一标注后关系信息;以及由所述至少一标注后实体信息与所述至少一标注后关系信息产生多个组合且存储至所述实体关系数据库;其中,所述训练模型程序包含下列步骤:以预训练语言模型为基础,将所述多个组合输入至所述预训练语言模型,以产生实体关系抽取模型。2.根据权利要求1所述的产生实体关系抽取模型的装置,其中所述实体关系数据库是由爬虫程序及实体关系数据库建构程序产生,其中执行所述爬虫程序包含下列步骤:收集多个知识库数据内容,各所述知识库数据内容包含多个条目名称及对应各所述条目名称的条目内文;以及对所述各所述条目内文进行断句处理,以产生输入数据;其中,所述实体关系数据库建构程序包含下列步骤:将所述输入数据输入至实体关系抽取系统,以产生输出数据,其中所述输出数据包含多笔三元组数据,各所述三元组数据包含多个实体信息、至少一关系信息及信心分数;以及基于所述信心分数,将输出数据中所述信心分数超越预设值的所述多个三元组数据存储至所述实体关系数据库。3.根据权利要求1所述的产生实体关系抽取模型的装置,其中产生对应各所述字段的所述至少一待标注实体信息以及对应各所述字段的所述至少一待标注关系信息包含下列步骤:比对所述待标注文本中的所述多个字段以及所述实体关系数据库中的所述多个实体信息,以产生对应各所述字段的所述至少一待标注实体信息;以及比对包含至少二个待标注实体信息的各所述字段以及所述实体关系数据库中的所述多个关系信息,以产生对应各所述字段的所述至少一待标注关系信息。4.根据权利要求1所述的产生实体关系抽取模型的装置,其中由所述至少一标注后实体信息与所述至少一标注后关系信息产生所述多个组合包含下列步骤:根据各所述字段的所述至少一标注后实体信息及所述至少一标注后关系信息于所述字段的先后顺序,产生各所述字段中的所述至少一标注后实体信息与所述至少一标注后关系信息的所述多个组合。5.根据权利要求1所述的产生实体关系抽取模型的装置,其中所述训练模型程序还包
含:将输入层及序列层与所述预训练语言模型串接;以及将所述实体关系数据库中包含所述改良式标注格式的所述多个组合输入至所述输入层,配合所述预训练语言模型及所述序列层,以产生所述实体关系抽取模型。6.根据权利要求1所述的产生实体关系抽取模型的装置,其中所述改良式标注格式是由传统序列标注格式及对应所述传统序列标注格式的实体标签及关系标签所组成。7.一种产生实体关系抽取模型的方法,用于产生实体关系抽取模型...
【专利技术属性】
技术研发人员:曾俋颖,张琼之,邱德旺,
申请(专利权)人:台达电子工业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。