学习数据生成装置、方法以及程序制造方法及图纸

技术编号:35848398 阅读:17 留言:0更新日期:2022-12-07 10:30
学习数据生成装置(1)具有:短语提取部(14),其从输入语句中提取原因表达和结果表达;以及短语变更部(15、15a、15b),其通过“交换所述原因表达和所述结果表达”、以及“将所述原因表达和所述结果表达中的一方作为变更对象句子并将所述变更对象句子更换为与所述变更对象句子不相似的更换候选句子”中的至少一方,生成变更后的语句。生成变更后的语句。生成变更后的语句。

【技术实现步骤摘要】
【国外来华专利技术】学习数据生成装置、方法以及程序


[0001]本专利技术涉及学习数据生成装置、学习数据生成方法以及学习数据生成程序。

技术介绍

[0002]存在自动地获得对语句中包含的因果关系进行说明的表达(称作“因果关系表达”)的技术。获得因果关系表达的技术大致有2种。第1技术是以使用特定的关键词或模板来获得因果关系表达的技术为代表的、不使用监督数据的技术。例如,使用了“为此”或“因此”这样的暗示因果关系表达存在的线索表达的技术相当于该技术。第2技术是以收集包含因果关系表达的句子和不包含因果关系表达的句子并进行使用了机器学习的语句分类的技术为代表的、使用监督数据的技术。例如,使用输入语句和在输入语句的何处存在原因或结果的标签,通过以Conditional Random Field(CRF:条件随机场)为代表的序列标注来估计语句的因果关系部位的技术相当于该技术。这2种技术与其说是矛盾的,不如说处于互补的关系。即,进行如下这样的利用:使用利用关键词或模板等自动地收集到的监督数据,通过机器学习获得因果关系表达的估计模型。
[0003]作为使用关键词或模板等收集的监督数据,需要收集2种数据。第1数据是正例。在自动地获得因果关系表达的技术中,包含因果关系表达的语句、或者在语句中的某个部位标注为有原因或结果的语句为正例。第2数据是反例。在自动地获得因果关系表达的技术中,不包含因果关系表达的语句、或者在语句中的某个部位标注为没有原因或结果的语句为反例。
[0004]专利文献1提出了如下技术:将使用监督数据进行学习而得到的因果关系表达的估计模型用于估计短语间的关系性,该监督数据是使用关键词或模板等自动地收集到的。在专利文献1中,在获得正例时,使用暗示因果关系表达存在的线索表达。例如,如果是“因为下雨地面被淋湿。”这样的句子,则使用“因为”这样的线索表达,获得原因表达(“下雨”)、结果表达(“地面被淋湿”)和线索表达(“因为”)。另一方面,在获得反例时,随机地置换通过正例获得的要素中的原因表达或结果表达的要素。例如,在获得了原因表达(“下雨”)和结果表达(“地面被淋湿”)的情况下,作为反例,获得原因表达(“下雨”)和随机置换后的结果表达(“从梯子上掉下”)。这样,在专利文献1中,正例和反例都能够自动地获得。
[0005]现有技术文献
[0006]专利文献
[0007]专利文献1:日本特开2019

153093号公报

技术实现思路

[0008]专利技术要解决的课题
[0009]专利文献1记载的反例的获得方法能够通过随机地置换通过正例获得的要素中的原因或结果的要素来进行收集,因此简便。但是,通过该方法获得的反例对获得的事例的恰当性的研究不充分,因此有可能获得不是反例的数据或作为日语不恰当的数据作为反例。
例如,考虑如下情况:在作为正例得到原因表达(“下雨”)和结果表达(“地面被淋湿”)的状况下,随机地调换结果表达的要素的结果是,生成了“农作物增加”这样的事例。在专利文献1中,获得“因为下雨农作物增加。”作为反例。另一方面,在从人眼观察的情况下,可认为获得的结果表达具有因果关系,因此不能说是恰当的反例。这样,在专利文献1记载的反例的获得方法中,存在有可能获得不恰当的事例作为反例的问题。
[0010]本专利技术正是为了解决上述课题而完成的,其目的在于抑制不恰当的反例的生成。
[0011]用于解决课题的手段
[0012]本专利技术的学习数据生成装置的特征在于,具有:短语提取部,其从输入语句中提取原因表达和结果表达;以及短语变更部,其通过“交换所述原因表达和所述结果表达”、以及“将所述原因表达和所述结果表达中的一方作为变更对象句子并将所述变更对象句子更换为与所述变更对象句子不相似的更换候选句子”中的至少一方,生成变更后的语句。
[0013]本专利技术的学习数据生成方法是学习数据生成装置执行的方法,其特征在于,具有以下步骤:从输入语句中提取原因表达和结果表达;以及通过“交换所述原因表达和所述结果表达”、以及“将所述原因表达和所述结果表达中的一方作为变更对象句子并将所述变更对象句子更换为与所述变更对象句子不相似的更换候选句子”中的至少一方,生成变更后的语句。
[0014]专利技术效果
[0015]根据本专利技术,能够抑制不恰当的反例的生成。
附图说明
[0016]图1是概略地表示实施方式1的学习数据生成装置的结构的功能框图。
[0017]图2是表示实施方式1的学习数据生成装置的硬件结构的例子的图。
[0018]图3是表示实施方式1的学习数据生成装置的动作的流程图。
[0019]图4是概略地表示实施方式2的学习数据生成装置的结构的功能框图。
[0020]图5是表示实施方式2的学习数据生成装置的动作的流程图。
[0021]图6是概略地表示实施方式3的学习数据生成装置的结构的功能框图。
[0022]图7是表示实施方式3的学习数据生成装置的动作的流程图。
具体实施方式
[0023]以下,参照附图对实施方式的学习数据生成装置、学习数据生成方法以及学习数据生成程序进行说明。在附图中,对相同或同样的结构标注相同的标号。以下的实施方式只不过是例子,能够适当地组合实施方式以及适当地变更各实施方式。
[0024]实施方式1
[0025]图1是概略地表示实施方式1的学习数据生成装置1的结构的功能框图。学习数据生成装置1是能够实施实施方式1的学习数据生成方法的装置。学习数据生成装置1也可以是作为能够执行实施方式1的学习数据生成程序的信息处理装置的计算机。如图1所示,学习数据生成装置1具有短语提取部14和短语变更部15。另外,学习数据生成装置1也可以具有输入部11、基本分析部12、线索表达存储部13、事例有效性评价用数据存储部16和事例有效性评价部17。
[0026]输入部11受理输入语句。输入语句例如是包含根据线索表达而获得的因果关系表达的语句。因果关系表达是说明语句中包含的因果关系的表达。
[0027]基本分析部12将由输入部11受理的因果关系表达分隔书写为词素等单位表达。单位表达是词素、或者包含1个以上词素的单词等。“分隔书写”是指在语句中在词的分隔中夹着空白进行记述。在输入语句是如英语等那样分隔书写的语句的情况下,也可以不进行基本分析部12的处理。
[0028]线索表达存储部13是存储蓄积有多个线索表达的线索表达数据库(线索表达DB)的存储装置。“线索表达”是指在语句中找到特定部位的基础上成为线索的表达,也称作“连接表达”。存储的线索表达只要是“由于”、“因为”、“因此”等短语间的关系性暗示因果关系的表达,则可以是任何表达。例如,线索表达是通过表示短语间的关系性的表达而预先确定的,例如有“于是”(例如,“~于是就”)、“假如”(例如,“~假如那样”)、“情况”(例如,“~情况下”)、“时”(例如,“进行了~时”)、“时”(例如,“当~时”)、“如果”(例如,“如果进行~的话”)、“因此”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种学习数据生成装置,其特征在于,该学习数据生成装置具有:短语提取部,其从输入语句中提取原因表达和结果表达;以及短语变更部,其通过“交换所述原因表达和所述结果表达”、以及“将所述原因表达和所述结果表达中的一方作为变更对象句子并将所述变更对象句子更换为与所述变更对象句子不相似的更换候选句子”中的至少一方,生成变更后的语句。2.根据权利要求1所述的学习数据生成装置,其特征在于,所述短语提取部从所述输入语句中提取线索表达,根据所述线索表达提取所述原因表达和所述结果表达。3.根据权利要求2所述的学习数据生成装置,其特征在于,所述短语提取部参照蓄积有多个线索表达的线索表达数据库,提取所述线索表达。4.根据权利要求3所述的学习数据生成装置,其特征在于,该学习数据生成装置具有存储所述线索表达数据库的线索表达存储部。5.根据权利要求1~4中的任意一项所述的学习数据生成装置,其特征在于,所述短语变更部从蓄积有多个更换候选句子的更换候选句子数据库中,提取与所述变更对象句子不相似的所述更换候选句子,所述短语变更部将所述变更对象句子更换为提取出的所述更换候选句子。6.根据权利要求5所述的学习数据生成装置,其特征在于,所述短语变更部求出所述变更对象句子与所述更换候选句子数据库内的语句之间的相似度,基于将所述相似度与预先确定的阈值进行比较而得到的结果来提取所述更换候选句子。7.根据权利要求5或6所述的学习数据生成装置,其特征在于,该学习数据生成装置具有存储所述更换候选句子数据库的更换候选句子存储部。8.根据权利要求1~7中的任意一项所述的学习数据生成装置,其特征在于,...

【专利技术属性】
技术研发人员:冈隆之介伍井启恭内出隼人
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1