当前位置: 首页 > 专利查询>辛柯俊专利>正文

一种对企业信息中自然语义的专家学习拟合方法及系统技术方案

技术编号:16456200 阅读:39 留言:0更新日期:2017-10-25 20:41
本发明专利技术提出了一种对企业信息中自然语义的专家学习拟合方法及系统,包括:爬取互联网上的企业名称和企业信息;对获取的企业信息进行分词操作;建立企业搜索网站,允许用户输入企业名称或关键词进行搜索,检测用户点击的词汇,并自动启动对该词汇的搜索;统计用户对各个词语的点击频率,过滤出点击频率高的多个词汇作为该企业的特征词汇,并利用上述词汇创立一个新型的字典;将企业之间共同的特征作为连接点,连接不同的企业,以形成企业之间的关联关系图;根据企业之间的关联关系图,搜索出与该企业相关的业务关联企业。本发明专利技术引入专家交互学习系统,学习到有关产业链结构的知识,进而自动拟合出相关企业之间的产业链结构。

An expert learning fitting method and system for natural semantic in enterprise information

The invention provides an expert on natural semantic learning and enterprise information system, the fitting method comprises the following steps: crawling on the Internet business name and business information; word segmentation operation to obtain the enterprise information; the establishment of enterprise search website, allows the user to enter the business name or keyword search, the user clicks on the detection of vocabulary. The vocabulary of the search and start automatically; the user clicks on each word frequency statistics, filter out the high frequency of multiple click words as the feature words of the enterprise, and the creation of a new vocabulary dictionary; will the common characteristics between enterprises as a connection point, the connection of different enterprises to form between enterprises the relationship between enterprises; according to the relation graph, the search business enterprises associated with the company. The invention introduces an expert interactive learning system to learn the knowledge of the industrial chain structure, and automatically fits the industrial chain structure between the related enterprises.

【技术实现步骤摘要】
一种对企业信息中自然语义的专家学习拟合方法及系统
本专利技术涉及计算机网络
,特别涉及一种对企业信息中自然语义的专家学习拟合方法及系统。
技术介绍
现有的企业信息综合网站,大都是对企业信息的简单罗列,并且是主要针对单一企业的信息汇总和分析。现有技术的缺点是存在缺少一种对企业之间的相互关系进行分析的方式。其中,如何分析各个企业的基本信息,然后通过自然语义的方式对企业信息的含义进行识别,以实现计算机自动化对该企业关系分析,是当前需要解决的技术问题。
技术实现思路
本专利技术的目的旨在至少解决所述技术缺陷之一。为此,本专利技术的目的在于提出一种对企业信息中自然语义的专家学习拟合方法及系统。为了实现上述目的,本专利技术的实施例提供一种对企业信息中自然语义的专家学习拟合方法,包括:步骤S1,爬取互联网上的企业名称和企业信息;步骤S2,对获取的企业信息进行分词操作;步骤S3,建立企业搜索网站,允许用户输入企业名称或关键词进行搜索,在向用户显示企业时,将分词信息嵌入到企业介绍中,以在接收到用户的点击操作时,检测用户点击的词汇,并自动启动对该词汇的搜索;步骤S4,统计用户对各个词语的点击频率,过滤出点击频率高的多个词汇作为该企业的特征词汇,并利用上述词汇创立一个新型的字典,所述字典记录有该企业的产业链特征词汇;步骤S5,将企业之间共同的特征作为连接点,连接不同的企业,以形成企业之间的关联关系图;步骤S6,根据所述企业之间的关联关系图,搜索出与该企业相关的业务关联企业。进一步,在所述步骤S1中,爬取的数据源包括:企业官网、广告黄页、行业门户。进一步,在所述步骤S2中,采用字典匹配法、词频统计法进行分词操作。进一步,在所述步骤S4中,将点击频率高的词汇以特殊标记进行突出显示。进一步,在所述步骤S5中,所述企业之间共同的特征包括:多个企业的特征词汇中的相同词汇或近义词。本专利技术实施例还提供一种对企业信息中自然语义的专家学习拟合系统,包括:爬取模块,用于爬取互联网上的企业名称和企业信息;分词模块,用于爬取的企业信息进行分词操作;词汇搜索模块,用于建立企业搜索网站,并运行用户输入企业名称或关键词进行搜索,在向用户显示企业时,将分词信息嵌入到企业介绍中,并在接收到用户的点击操作时,检测用户点击的词汇,自动启动对该词汇的搜索;过滤及字典建立模块,用于统计用户对各个词语的点击频率,过滤出点击频率高的多个词汇作为该企业的特征词汇,并利用上述词汇创立一个新型的字典,其中,所述字典记录有该企业的产业链特征词汇;关联关系图建立模块,用于将企业之间共同的特征作为连接点,连接不同的企业,以形成企业之间的关联关系图;关联企业搜索模块,用于根据所述企业之间的关联关系图,搜索出与该企业相关的业务关联企业。进一步,所述爬取模块爬取的数据源包括:企业官网、广告黄页、行业门户。进一步,所述过滤及字典建立模块用于采用字典匹配法、词频统计法进行分词操作。进一步,所述过滤及字典建立模块用于将点击频率高的词汇以特殊标记进行突出显示。进一步,在所述步骤S5中,所述企业之间共同的特征包括:多个企业的特征词汇中的相同词汇或近义词。根据本专利技术实施例的对企业信息中自然语义的专家学习拟合方法及系统,通过建立计算机和专家交互学习系统,使得计算机能够以较高的准确率从企业介绍文本中识别出描述该企业特征的词汇,进而根据这些特征词汇构造企业与企业之间的关联关系,然后再次引入专家交互学习系统,使得计算机能够学习到有关产业链结构的知识,进而自动拟合出相关企业之间的产业链结构,即上下游关系和竞争关系。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术实施例的对企业信息中自然语义的专家学习拟合方法的流程图;图2为根据本专利技术实施例的对企业信息中自然语义的专家学习拟合系统的结构图;图3为根据本专利技术实施例的新的搜索的示意图;图4为根据本专利技术实施例的业务关联企业的示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。如图1所示,本专利技术实施例的对企业信息中自然语义的专家学习拟合方法,包括如下步骤:步骤S1,爬取互联网上的企业名称和企业信息。在本专利技术的一个实施例中,爬取的数据源包括:企业官网、广告黄页、行业门户等。需要说明的是,爬取的数据源不限于上述举例,还可以为其他数据源,在此不再赘述。步骤S2,对获取的企业信息进行分词操作。在本步骤中,采用字典匹配法、词频统计法进行分词操作。下面分别对两种分词方法进行说明。(1)字典匹配法:字典法是根据字典中的词汇逐个到文本中查找,查找命中就记录为一个词。(2)词频统计法:词频法不依赖字典,而是计算文本中任意两个字同时出现的频率进行统计,频率计算以大量自然文本为语料库,同时出现频率高的字成为词的可能性较大。分词完成后需要去除助词、副词、连接词等等无意义词,依赖现有通用字典完成。另外还需要建立自己的自定义词典,将在企业搜索环境中意义不大的词也去除掉,例如“有限”、“公司”、“创新”等词。步骤S3,建立企业搜索网站,允许用户输入企业名称或关键词进行搜索。网站能够无广告干扰地、清晰明确地输出相关企业的介绍以及官方网站。这个应用对关注企业创新和产业链形势的专家来说是非常有意义的,可以节约大量时间。在向用户显示企业时,将分词信息嵌入到企业介绍中,以在接收到用户的点击操作时,检测用户点击的词汇,并自动启动对该词汇的搜索。即,用户可以点击介绍文本中的词汇发起一个新的搜索。如图3所示,显示分词界面,包括多个分词信息。如果用户(专家)点击“移动通讯”则系统会自动发起一个新的搜索,这个操作方便了专家发起新的查询,查询与当前企业相关的其它企业。步骤S4,统计用户对各个词语的点击频率,过滤出点击频率高的多个词汇作为该企业的特征词汇,并利用上述词汇创立一个新型的字典,字典记录有该企业的产业链特征词汇。在本步骤中,将点击频率高的词汇以特殊标记进行突出显示。如图3所示,对于分词中有些显然不属于企业特征,例如“统一”、“开放”、“创新奖”等等,专家们点击这些词发起新的查询的概率显然比较低。而“移动通讯”、“数码电子”、“照明”、“手机制造商”等等词汇被点击的概率会比较高。因此通过统计专家点击词的频率就可以过滤出该企业的特征词汇,当点击次数足够多时就可以建立出一个新的字典,这个字典列举出了产业链特征词汇,并且会被不断丰富完善。计算机在分词之后可以把这个字典中出现的词以较高的亮度显示出来,甚至只显示字典中出现的词。步骤S5,将企业之间共同的特征作为连接点,连接不同的企业,以形成企业之间的关联关系图。需要说明的是,企业之间共同的特征包括:多个企业的特征词汇中的相同词汇或近义词。即,共同特征不限于完全相同的企业特征词汇,还可以为意义较为相近的特征词汇,具体如何判断是否为近义词可以通过现有的查找近义词的算法获取,在此不再赘述。步骤S6,根据企业之间的关联关系图本文档来自技高网...
一种对企业信息中自然语义的专家学习拟合方法及系统

【技术保护点】
一种对企业信息中自然语义的专家学习拟合方法,其特征在于,包括如下步骤:步骤S1,爬取互联网上的企业名称和企业信息;步骤S2,对获取的企业信息进行分词操作;步骤S3,建立企业搜索网站,允许用户输入企业名称或关键词进行搜索,在向用户显示企业时,将分词信息嵌入到企业介绍中,以在接收到用户的点击操作时,检测用户点击的词汇,并自动启动对该词汇的搜索;步骤S4,统计用户对各个词语的点击频率,过滤出点击频率高的多个词汇作为该企业的特征词汇,并利用上述词汇创立一个新型的字典,所述字典记录有该企业的产业链特征词汇;步骤S5,将企业之间共同的特征作为连接点,连接不同的企业,以形成企业之间的关联关系图;步骤S6,根据所述企业之间的关联关系图,搜索出与该企业相关的业务关联企业。

【技术特征摘要】
1.一种对企业信息中自然语义的专家学习拟合方法,其特征在于,包括如下步骤:步骤S1,爬取互联网上的企业名称和企业信息;步骤S2,对获取的企业信息进行分词操作;步骤S3,建立企业搜索网站,允许用户输入企业名称或关键词进行搜索,在向用户显示企业时,将分词信息嵌入到企业介绍中,以在接收到用户的点击操作时,检测用户点击的词汇,并自动启动对该词汇的搜索;步骤S4,统计用户对各个词语的点击频率,过滤出点击频率高的多个词汇作为该企业的特征词汇,并利用上述词汇创立一个新型的字典,所述字典记录有该企业的产业链特征词汇;步骤S5,将企业之间共同的特征作为连接点,连接不同的企业,以形成企业之间的关联关系图;步骤S6,根据所述企业之间的关联关系图,搜索出与该企业相关的业务关联企业。2.如权利要求1所述的对企业信息中自然语义的专家学习拟合方法,其特征在于,在所述步骤S1中,爬取的数据源包括:企业官网、广告黄页、行业门户。3.如权利要求1所述的对企业信息中自然语义的专家学习拟合方法,其特征在于,在所述步骤S2中,采用字典匹配法、词频统计法进行分词操作。4.如权利要求1所述的对企业信息中自然语义的专家学习拟合方法,其特征在于,在所述步骤S4中,将点击频率高的词汇以特殊标记进行突出显示。5.如权利要求1所述的对企业信息中自然语义的专家学习拟合方法,其特征在于,在所述步骤S5中,所述企业之间共同的特征包括:多个企业的特征词汇中的相同词汇或近义词。6.一种对企业信息中自然语义的专家学...

【专利技术属性】
技术研发人员:辛柯俊
申请(专利权)人:辛柯俊
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1