慧科讯业有限公司专利技术

慧科讯业有限公司共有10项专利

  • 本发明涉及一种语音文本的校正方法和装置。语音文本的校正方法包括:获取语音文本;利用文本校正模型对语音文本进行校正。生成文本校正模型的方法包括:获取特定领域的新词和包括新词的新词文本;根据新词文本生成训练文本;利用训练文本和掩码语言模型对...
  • 本公开涉及从文本中识别行业专有名词的方法和装置。该方法包括:对文本进行断词(11),获得经断词的文本;从经断词的文本中抽取种子词前后相邻的词语作为词夹(12),所述种子词是已知的行业专有名词;从文本中抽取词夹所夹的词语作为候选词(13)...
  • 本发明公开了一种新词识别方法和装置。新词识别方法包括:获取候选词;计算所述候选词的内部凝固度;根据计算出的内部凝固度和预设的凝固度阈值,判断所述候选词是否为新词。本发明的技术方案通过将任意候选词的内部凝固度与预设的凝固度阈值进行比较,从...
  • 本发明提供一种高扩展性的多标签的文本分类方法和装置,包括多标签文本分类的方法和装置,以及多标签文本分类方法和装置可使用的构建话题分类模板的方法和装置。多标签文本分类的方法包括:对接收到的待分类的文本进行预处理;计算经过所述预处理后的文本...
  • 本发明涉及一种针对互联网中文文本的关键词提取方法和系统,所述方法包括:构建出由文本中单词组成的词汇表;根据所述词汇表,构建出关键词候选集;计算出所述关键词候选集中每个单词的得分;计算出所述关键词候选集中每个短语的得分;将所述关键词候选集...
  • 本发明提供了一种基于网络媒体数据流发现热点话题的方法,包括:根据预设的时间间隔,从网络媒体平台获取当前时间窗口t内的多篇不同类型的文本数据,并对所获取的数据进行预处理;采用分类算法识别经预处理的每篇文本数据的类别,并根据所识别的类别对各...
  • 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
    本发明提供了一种构建行业知识图谱数据库的方法,包括以下步骤:从数据源获取行业数据;对所述行业数据进行数据处理,以提取与所述行业相关的实体以及对应的实体属性和/或实体关系;基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库...
  • 一种基于混合数据类型数据的挖掘方法
    本发明公开的数据挖掘方法,用于挖掘混合数据类型数据,通过在图像数据中挖掘主体信息,并在文本数据中挖掘场景或情感信息,并对获取的信息进行分类聚合从而获得特定主体信息与特定场景或情感信息的相关性。由于本发明基于混合数据类型数据,从而有效地避...
  • 本实用新型涉及一种重复文本识别系统,包括:用于将电子文本内容按照标点符号分割为多个短句的分割单元、用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列的转换单元、用于存储数字序列组的搜索引擎、用于在搜索引擎中的两个数字序列组的相似...
  • 本发明涉及一种重复文本识别系统,包括:分割单元,用于将电子文本内容按照标点符号分割为多个短句;转换单元,用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列;搜索引擎,用于存储数字序列组,其中每一数字序列组包括同一电子文本内容的多...
1