文本匹配装置以及方法、和文本分类装置以及方法制造方法及图纸

技术编号:12889322 阅读:134 留言:0更新日期:2016-02-17 23:17
本发明专利技术提供可靠性高地自动收集属于某归类的信息并合适且及时地进行匹配的系统。文本分类装置(30)用词素解析部(52)和依赖被依赖解析部(54)对收集的文本的依赖被依赖进行解析。问题报告收集装置(64)基于文本的依赖被依赖关系确定文本中的由名词+谓语构成的核,使用名词的分类(负面系/非负面系)和谓语的分类(活性/非活性)的组合以称作核结构矩阵的手法将文本分类为问题报告和除此以外的部分。支援信息收集装置(66)、需求联络收集装置(68)也同样收集支援信息、需求联络。匹配装置(76)将合适的支援信息(问题信息)相对于用称作共现核矩阵的手法使由问题报告收集装置(64)以及支援信息收集装置(66)收集的问题报告以及支援信息匹配而得到的问题信息(支援信息)建立关联。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用于整理因特网等网络上的信息并提示给用户的技术,特别涉及取得 在网络上的各种系统投稿的信息之间的匹配、对需要某些信息的用户效率良好地提供所需 要的信息的系统。
技术介绍
因特网普及,在其上运行各种系统。例如在因特网上,不仅Web页面以及博客等, Twitter、Facebook、LinkedIn等所谓的社交网络服务(SNS)的利用也不断推进。这样的系 统用在用户间的信息交换等中,能实现因特网的普及前无法想象的信息的流通。在这样的 系统上,经常流过庞大的信息,在要搜索某个人对某问题的回答时,存在该回答的可能性极 高。但是,从大量的信息中发现自己所找寻的信息是不可能的。 在以满足这样的需要为目的的服务中,有所谓的信息检索服务。在典型的信息检 索服务中,经常从因特网上收集大量的信息,将其数据库化并附加索引。在接收到某些信息 检索请求(例如指定了关键词的信息检索请求)时,这些提供服务的网站的计算机(群) 通过利用了关键词的索引检索对关联信息进行检索,附加基于信息检索技术而定义的评分 (表征针对检索请求的回答的准确度的数值),以该评分的降序将数据回发给检索的请求 者。将该信息以作为针对基于关键词的检索请求的回答认为合适的顺序提供给用户。其结 果,用户若连接到这样的信息检索服务来进行检索,就能某种程度取得自己所需要的信息。 然而,由于在网络上充满大量的信息,因此在用户进行信息检索时,有较多情况下 极难搜索所寻求的信息这样的问题。例如,在显示的项目多、用户不需要的信息靠前显示 的情况下,用户需要追加合适的关键词,或者变更关键词,或者变更检索条件来缩小检索结 果。但是在成为基础的信息过多的情况下,难以寻找能找出准确的信息的关键词。 但是,在因特网上,对于针对某问题的解决方案、某支援信息,存在与需要其的人 的需求相关的记载(以下将其称作「需求联络」)等的可能性极高。例如考虑某用户在博客 等记载、发送关于「妹妹正在为特应症困扰」这样的问题的报告的情况。如此,以下将针对 问题进行报告的记载称作「问题报告」。在Web上,对这样的问题报告,存在「从附近的医生 听说了甜茶对特应症有效这样的说明」等这样的为了解决问题而有用的信息,这是毫无疑 问的。以下将这样的信息称作「支援信息」。另外,在发送了如「在计算机的某0S上运行的 应用X被强制关闭了。正头疼呢,请教不会强制关闭的方法」那样需求什么的记载(以下将 这样的记载称作「需求联络」)的情况下,认为「若使用软件a,应用X就不会崩溃了」这样 的解决方案存在于Web上几乎毫无疑问。但是,如前述那样,由于在因特网上充满信息,用 户准确入手自己所寻求的信息是极其困难的。因特网上的信息越多则这样的问题越大,用 户所寻求的信息越详细,则越难解决。 这样的问题特别显著化是在灾害时。当前,在灾害时在因特网上产生大量的信息。 不能使用电话的可能性也很高。为此,在人以及组织间的沟通中产生大的困难。 灾害时最成为问题是如何早期支援受灾者、和使受灾者所需要的支援、和支援组 织等所提供的支援持续有效率地匹配。若在受灾者和支援团体等间的沟通顺畅进行,就有 能迅速进行对受灾者的支援的可能性。但是,如前述那样,在灾害时,受灾者和支援团体等 的沟通变得极端困难。若时间流逝,则信息的数量会进一步变多,会变得难以找出需要的信 息。为此,考虑不能将合适的支援物资送到需要某些支援的受灾者的身边的情形。 例如,在2011年3月的东日本大地震中,经由Web以及SNS等,从受灾者大量发送 了「在〇〇市过敏体质的幼儿用奶粉不足」这样的问题报告、和「请向〇〇市送去过敏体质 的幼儿用奶粉」这样的需求联络等。但是,这些信息埋没在和地震一起产生的大量的信息 中,其中的大量信息未被能提供支援的行政机关、支援团体、志愿者等认识到。另一方面, 行政机关、支援团体以及志愿者们也发送了「将二千个用于过敏体质的儿童的奶粉送到了 〇〇市」这样的支援信息,但其大部分并未送到需要信息的受灾者。即使在行政机关、支援 团体或志愿者等成功认识到来自受灾者的问题以及需求的情况下,也会产生多个组织应对 相同问题以及需求的结果,在1个地方集中必要以上的支援物资,不仅浪费支援物资以及 时间还会产生使支援物资的保管变得困难这样的问题。本来只要将需要量送到受灾者身 边,应将这以外的支援物资送往其他受灾者。认为这样的问题都是由实际需要救援的人们、 和要进行支援的人们未进行良好的沟通引起的。 其中,这样的问题并不限于灾害时,在日常中也会发生。例如在寻找针对与计算机 相关的某问题的回答、或者寻找针对特应症的对策的情况下,也能在所谓的检索服务网站 寻找回答。但能在检索网站检索的信息不仅包含针对问题的回答,还包含这以外的大量的 信息。因此,对寻找针对特定的问题的回答的用户而言,特别是对早期发现合适的回答是很 重要的用户而言,检索网站用起来绝不容易。 反之,要提供对某问题自己解决的结果的用户对需要该回答的用户及时给出回答 也是困难的。若碰巧另外的用户知道寻求针对某问题的回答这件事,并且自己知道针对该 问题的回答,则向该用户联络回答并不难。但是,在因特网那样大量用户发送大量信息的地 方,这样的情况极其稀少。谋求用于将有用的信息及时联络给合适的人或组织的机制。为 此,需要收集问题报告、需求联络以及支援信息、并合适地使它们匹配的技术。 专利技术的概要 专利技术要解决的课题 关于确定、收拾问题报告这样的技术,作为在投稿于SNS的讯息中确定、收集 与流行性感冒的流行相关的问题报告的技术,有在Aron Culotta. 2012. Lightweight methods to estimate influenza rates and alcohol sales volume from twitter messages. Language Resources and Evaluation,pages 1-22中公开的技术。另外,作为 在投稿于SNS的讯息的中确定、收集与山火相关的问题报告的技术,有在Sarah Vieweg, Amanda L. Hughes, Kate Starbird,and Leysia Palen. 2010. Microblogging during two natural hazards events :what twitter may contribute to situational awareness. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, CHI'10,pages 1079-1088,NewYork,NY,USA.ACM.中公开的技术。但在这些技术中有以 下那样的问题。 现有技术限定特定的灾害(例如:山火)或传染病(例如:流行性感冒)等对象来 确定、收集问题报告。但是,特别是在灾害等中,很多情况下会从1个问题向想定外的问题 发展。例如在东日本大地震中,地震向海啸以及核电站事故发展。进而,作为面对放出的辐 射能的对策,由于封闭房间,怠于换气,会出现产生一氧化碳中毒这样的问题。即,仅限于特 定的范畴来收集问题报告并不充本文档来自技高网...

【技术保护点】
一种文本匹配装置,在分类为属于第1归类或者第2归类的文本的集合中,将所述第2归类的文本相对于所述第1归类的文本建立对应,其中,包含于所述集合中的文本通过利用了机器学习的文本分类装置被分类为所述第1归类以及所述第2归类,所述机器学习将构成该文本的1个或多个词素、该1个或多个词素的依赖被依赖信息、以及由包含于所述文本中的名词和该名词所依赖的谓语的组合构成的句的核内的名词的分类和谓语的分类的组合用作特征,所述文本匹配装置包括:存储单元,其将所述第1归类的文本、和所述第2文本相互区别来存储;文本配对生成单元,其从所述存储单元生成由所述第1归类的文本和所述第2归类的文本构成的文本的配对;匹配用特征生成单元,其根据所述配对生成匹配用的特征,该匹配用的特征包含用所述文本分类装置将由所述文本配对生成单元生成的所述配对内的文本分类时的所述特征;和匹配单元,其使用由所述匹配用特征生成单元生成的匹配用特征来判定构成所述配对的2个文本互相是否匹配,所述匹配单元包含机器学习模型,该机器学习模型预先使用匹配用的学习数据,根据所述匹配特征来判定文本的配对是否匹配,从而学习完毕。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:佐野大树伊什特万·瓦尔加鸟泽健太郎桥本力大竹清敬河合刚巨吴钟勋史蒂恩·德萨哲
申请(专利权)人:国立研究开发法人情报通信研究机构
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1