计算计算机网络上电子文档的重要性的计算机装置和方法制造方法及图纸

技术编号:2827302 阅读:191 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及用于计算计算机网络上电子文档的重要性的计算机装置和方法。对包括表达之前记录的每个消息内容中的赞成、不赞成、批评、同意等短语的程度加以量化。给接收包括同意和赞成短语的消息响应的消息加上正分,并且给接收包括表明批评和不赞成短语的消息响应的消息加上负分。还给包括符合用户兴趣的短语的消息加上正分。通过对这些分数计以总和来计算每个消息的总重要性,并继而判断具有高总重要性的消息与用户兴趣一致。

【技术实现步骤摘要】

技术介绍
本专利技术涉及计算机装置、计算机程序和方法,以上三项用于计 算计算机网络上电子文档的重要性,并且尤其涉及计算机装置、计 算机程序和方法,以上三项用于基于包括在第二文档中的关于第一 电子文档的评论来计算第 一 电子文档的重要性,第二文档与被标定 用于计算重要性的第一电子文档相关联。页面、博客等中的大量电子文档之中在短时间内高精确度地查找网 络用户感兴趣的事物。与用户兴趣一致的电子文档对于他/她是高度 重要的。作为用于自动判断计算机网络上web页面的重要性的技术中的 一种技术,Google的PageRank是众所周知的。细节在Lawrence Page、 Sergey Brin、 Rajeev Motwani、 Terry Winograd的The PageRank Citation Ranking: Bringing Order to the Web ( 1998 )中描述。简而言之,PageRank是一种用于在递归关系的基础上判断网络 上的 一组web页面的重要性的技术,其中链接自大量较高质量的web 页面的web页面也是较高质量的web页面。特别地,基于从其他web 页面到特定web页面的链接数量、到由高度推荐的web页面提供的 特定web页面的链接的存在、以及在具有到特定web页面的链接的 页面上的链接数量来计算特定web页面的重要性。换句话说,PageRank是一种用于通过使用web页面之间的链接 来计算每个web页面的相对重要性的技术。PageRank不提供分析第一 web页面的内容、以及基于包括在第 一 web页面的内容中的关于第二 web页面的评论来计算第二 web页 面的重要性的功能。而且,在最近几年,已经尝试分析诸如社会连网服务或博客之类的客户生成的介质中的web发表和讨论,以指定客户的潜在需要 和观念,并且利用指定的需要等来开发新的产品和市场。在Influence Diffusion Model in Text-Based Communication, Journal of the Japanese Society for Artificial Intelligence(2002) ( no.3 vol. 17SP-B, pp.259-267)中公开了一种方法,该方法用于通过文本 分析来衡量电子公告板上的具体评论在对该评论随后的回复中所被 引用到何种程度,并且从而计算该具体评论对于其他评论的影响的 程度。Mining and Summarizing Conversation Data on Electrical Message Boards the 16th Annual Convention of the Japanese Society for Artificial Intelligence(2002)中公开了 一种方法,该方法针对电子公 告板上的每个发表基于以下三个指标来计算发表的重要性(1 )当 前发表的多少内容涉及之前发表中的主题,其中当前发表是回复所 述之前发表的,(2 )使用了多少新单词,(3 )在提供一个主题作 为发表中的新信息之后,直到该主题在稍后的发表中作为旧信息被 引用时,其存在多少发表。然而,这些文档没有描述用于分析包括在每个发表的内容中关 于另一个发表的内容的评论且因此用于确定每个发表内容的重要性 的方法,其中所述评论例如是同意或不同意的评论发表。Hironori Tomobe和Katashi Nagao ( 2005 ) , Discussion Mining:gijiroku shuugou karano chishiki hakken(i寸i仑才g^屈来自时间集的 知识发现),the 67th Annual Convention of the Information Processing Society of Japan中公开了 一种方法,该方法基于链接自重要评价的评价 以及链接到重要评价的评价在时间(minutes)集合中是重要的概念,通 过使用活动的传播来计算评价的重要性。换句话说,文档公开了一种从网络配置方面分析时间的方法,其不 包括分析每个评价的内容从而计算每个评价的重要性。在IBM日本有限公司2004年7月26日的Homepage jyonohyouban wo shunjini bunseki(web网站上的信誉的瞬时分析),中公开的 信誉分析方案涉及一种通过应用IBM (注册商标)的TAKM (文本分析和 知识挖掘)对发送到公司的客户评论瞬时分类为有利的^H仑和不利的评 论的技术。然而,此技术不包括计算包括在网络上的讨论帖中的每个消息 的重要性。因此,没有公开或提出用于通过使用对与特定消息对应 的另 一个帖内容的分析来计算该特定消息的重要性的方法。如上所述,根据传统的技术,不可能分析消息链中每个消息的 内容,其中消息链对应于诸如在计算机网络上的讨论帖之类的之前 发表的消息,并且不可能在包括在另 一个消息中的关于消息的评论 的基础上自动确定每个消息的重要性,例如,评论是批评性的(负 面的)或同意的(正面的)等。
技术实现思路
根据本专利技术,提供一种计算机程序,该计算机程序在以下基础 上计算每个电子文档的总重要性(i)多个电子文档,从没有被其 他电子文档参考的开始电子文档到没有参考其他文档的结束电子文 档以进行参考和被参考的关系彼此链连接,(ii)关于进行参考和被 参考关系的信息,(iii)重要短语,以及(iv)诸如同意短语、不同 意短语以及主题改变短语之类的响应系数确定短语,(i)到(iv) 存储在存储设备中。该计算机程序是使计算机操作如下的 一 个程序 (a)用于在第一短语和包括在多个电子文档之中的给定电子文 档中的短语之间的相似性程度的基础上计算该给定电子文档的本身 重要性的装置;(b )用于在关于进行参考和被参考关系的信息的基础上识别至 少一个对给定电子文档加以参考的第二电子文档的装置;(c )用于在包括在其他电子文档中的短语和响应系数确定短语 之间的至少 一个相似度的基础上对照给定电子文档计算响应系数的装置;(d) 用于在给定电子文档的本身重要性、响应系数、和第二电子文档的总重要性的基础上计算给定电子文档的总重要性的装置; 以及(e) 用于通过将装置(a)到(d)应用到多个电子文档中的每 一对来计算多个电子文档中每一个的总重要性的装置。因此,被具有高的总重要性和高响应系数的其他电子文档参考 的电子文档具有高的总重要性。而且,被参考的电子文档自己的本 身重要性越高,电子文档的总重要性变得越高。在上述计算机程序中,优选的是通过将装置(a)到(d)顺序地 应用到每对链连接的电子文档,用于计算多个电子文档中每一个的 总重要性的装置计算每个电子文档的总重要性,开始于开始电子文 档和该开始电子文档参考的电子文档的对,沿着链条朝向结束电子 文档。这是因为被参考电子文档的重要性取决于参考该被参考电子 文档的电子文档的重要性。另外,在该计算机程序中,用于计算给定电子文档的总重要性 的装置可以在以下基础上进一步计算给定电子文档的总重要性,所 述基础是通过之前分别向响应系数以及其他电子文档的总重要性 分配预定的权重而获得的值;以及给定电子文档本文档来自技高网
...

【技术保护点】
一种方法,基于以下内容计算多个电子文档中的至少一个电子文档的重要性:(i)多个电子文档,(ii)关于每对所述电子文档之间的参考关系的信息,(iii)重要短语,以及(iv)响应系数确定短语,(i)到(iv)存储在存储设备中,所述方法包括以下步骤:    (a)在重要短语和包括在所述多个电子文档之中的给定电子文档中的短语之间的相似度的基础上,计算所述给定电子文档的本身重要性,    (b)在所述参考信息的基础上,识别至少一个对所述给定电子文档加以参考的其他电子文档,    (c)在包括在所述其他电子文档中的短语和响应系数确定短语之间的至少一个相似度的基础上,对照所述给定电子文档计算所述响应系数,    (d)在所述给定电子文档的所述本身重要性、所述响应系数、和所述其他电子文档的总重要性的基础上,计算所述给定电子文档的总重要性,以及    (e)通过将(a)到(d)的步骤应用到所述电子文档组中具有直接进行参考和直接被参考的相互关系的每对电子文档中来计算电子文档组中的每个所述电子文档的总重要性,其中所述给定电子文档和所述其他电子文档通过进行参考和被参考的关系在所述参考信息的基础上直接或间接地彼此链接。...

【技术特征摘要】
JP 2007-1-22 2007-0116331.一种方法,基于以下内容计算多个电子文档中的至少一个电子文档的重要性(i)多个电子文档,(ii)关于每对所述电子文档之间的参考关系的信息,(iii)重要短语,以及(iv)响应系数确定短语,(i)到(iv)存储在存储设备中,所述方法包括以下步骤(a)在重要短语和包括在所述多个电子文档之中的给定电子文档中的短语之间的相似度的基础上,计算所述给定电子文档的本身重要性,(b)在所述参考信息的基础上,识别至少一个对所述给定电子文档加以参考的其他电子文档,(c)在包括在所述其他电子文档中的短语和响应系数确定短语之间的至少一个相似度的基础上,对照所述给定电子文档计算所述响应系数,(d)在所述给定电子文档的所述本身重要性、所述响应系数、和所述其他电子文档的总重要性的基础上,计算所述给定电子文档的总重要性,以及(e)通过将(a)到(d)的步骤应用到所述电子文档组中具有直接进行参考和直接被参考的相互关系的每对电子文档中来计算电子文档组中的每个所述电子文档的总重要性,其中所述给定电子文档和所述其他电子文档通过进行参考和被参考的关系在所述参考信息的基础上直接或间接地彼此链接。2.根据权利要求1所述的方法,其中用于计算所述多个电子文档 中每个电子文档的所述总重要性的步骤从开始电子文档和所述开始 电子文档参考的电子文档构成的 一对电子文档开始,沿着链接朝向 结束电子文档,通过将所述(a)到(d)的步骤依次应用到每对链 接的电子文档来计算所述多个电子文档的每个电子文档的所述总重 要性。3. 根据权利要求1所述的方法,其中用于计算所述给定电子文档 的所述总重要性的步骤在以下内容的基础上进 一 步计算所述给定电子文档的所述总重要性通过之前向所述响应系数和所述其他电子 文档的所述总重要性分别分配预定的权重而获得的值;以及所述给 定电子文档的所述本身重要性。4. 根据权利要求3所述的方法,其中0<所述分配的权重<1。5. 根据权利要求1所述的方法,其中当不存在对所述电子文档对 中的一个电子文档加以参考的电子文档时,用于计算所述多个电子 文档的每个电子文档的所述总重要性的步骤通过在使用所述电子文 档对中的 一个电子文档的所述本身重要性作为其总重要性的情况 下,将所述(a)到(d)的步骤应用到所述电子文档对来计算组成 所述对的所述每个电子文档的所述总重要性。6. 根据权利要求1所述的方法,其中当存在对所述电子文档对中 的一个电子文档加以参考的多个电子文档时,用于计算每个所述电 子文档的所述总重要性的步骤在多个参考电子文档的每一个电子文 档的所述总重要性的基础上计算所述电子文档对中的 一 个电子文档 的所述总重要性。7. 根据权利要求6所述的方法,其中用于计算所述总重要性的步 骤将每个所述进行参考的电子文档的所述总重要性的总和计算作为 所述电子文档对中的一个电子文档的所述总重要性。8. 根据权利要求1所述的方法,其中所述响应系数确定短语包括 以下短语中的至少一个短语(i)同意短语、(ii)不同意短语以 及(iii)主题改变短语。9. 一种计算机程序,所述计算机程序基于以下内容计算每个电子 文档的总重要性(i)从没有被任何其他文档参考的开始电子文档 到没有参考任何其他文档的结束电子文档以进行参考和被参考关系 彼此链连接的多个电子文档,(ii)关于进行参考和被参考关系的信 息,(iii)重要短语,以及(iv)响应系数确定短语,(i)到(iv) 存储在存储设备中,所述计算机程序使计算机执行权利要求1-8中任何一项的方法步骤。10. —种计算机装置,所述计算机装置基于以下内容计算多个电子文档中的至少一个电子文档的重要性(i)所述多个电子文档, (ii)每个所述电子文档之间...

【专利技术属性】
技术研发人员:中村英史村上明子那须川哲哉
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1