-
公开(公告)号:CN105718586B
公开(公告)日:2018-12-28
申请号:CN201610051438.1
申请日:2016-01-26
申请人: 中国人民解放军国防科学技术大学 , 长沙市源本信息科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种分词方法和装置,装置包括包括用于训练词标注模型的分词&标注模块和CRF训练模块,以及用于分词应用的初始分词模块、词标注模块和词合并模块。首先使用CRF训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N‑最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N‑最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。采用CRF进行词标注,考虑了全局上下文信息,有利于提高词合并的准确性。
-
公开(公告)号:CN105488033B
公开(公告)日:2018-01-02
申请号:CN201610050952.3
申请日:2016-01-26
申请人: 中国人民解放军国防科学技术大学 , 长沙市源本信息科技有限公司
摘要: 本发明提供一种关联计算的预处理方法及装置,该方法在对文本分词的基础上,使用LDA模型算法对文本进行主题聚类计算得到文档‑主题概率分布以及主题‑词概率分布。然后通过文档‑主题概率分布计算出文本的非相关主题集合,通过主题‑词概率分布计算出文本的非相关词,从而将与文档主题内容不相关的词识别提取出来。将过滤结果用于进一步的关联计算。从而降低了非相关词对关联计算的干扰。
-
公开(公告)号:CN105740359A
公开(公告)日:2016-07-06
申请号:CN201610051439.6
申请日:2016-01-26
申请人: 中国人民解放军国防科学技术大学
CPC分类号: G06F17/30864 , G06F17/2775 , G06Q40/04
摘要: 本发明提供一种个股识别的方法及装置,该方法基于人工分类好的语料文本,用其对进行模型训练,得到用于文本中是否含有个股进行标注的个股识别CRF模型,通过对文本分词结果使用个股标注模型进行标注从而将分词结果中包含的个股识别出来。
-
公开(公告)号:CN105740355B
公开(公告)日:2019-03-26
申请号:CN201610050995.1
申请日:2016-01-26
申请人: 中国人民解放军国防科学技术大学
IPC分类号: G06F16/958 , G06F16/31
摘要: 本发明提供一种基于聚集文本密度的网页正文提取方法及装置,该方法根据标签分隔网页HTML的方法,对网页文本内容进行分割,从而有效将其中的各类文本分开。无需定制特殊的网站提取规则,通用性强;无需使用复杂的文本挖掘手段,该方法简单高效,对各类网页正文提取准确高效。
-
公开(公告)号:CN105740355A
公开(公告)日:2016-07-06
申请号:CN201610050995.1
申请日:2016-01-26
申请人: 中国人民解放军国防科学技术大学
IPC分类号: G06F17/30
CPC分类号: G06F17/30896 , G06F17/30616
摘要: 本发明提供一种基于聚集文本密度的网页正文提取方法及装置,该方法根据标签分隔网页HTML的方法,对网页文本内容进行分割,从而有效将其中的各类文本分开。无需定制特殊的网站提取规则,通用性强;无需使用复杂的文本挖掘手段,该方法简单高效,对各类网页正文提取准确高效。
-
公开(公告)号:CN105718586A
公开(公告)日:2016-06-29
申请号:CN201610051438.1
申请日:2016-01-26
申请人: 中国人民解放军国防科学技术大学 , 长沙市源本信息科技有限公司
IPC分类号: G06F17/30
CPC分类号: G06F17/3071 , G06F17/30707
摘要: 本发明公开了一种分词方法和装置,装置包括用于训练词标注模型的分词&标注模块和CRF训练模块,以及用于分词应用的初始分词模块、词标注模块和词合并模块。首先使用CRF训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N?最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N?最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。采用CRF进行词标注,考虑了全局上下文信息,有利于提高词合并的准确性。
-
公开(公告)号:CN105718584A
公开(公告)日:2016-06-29
申请号:CN201610051276.1
申请日:2016-01-26
申请人: 中国人民解放军国防科学技术大学 , 长沙市源本信息科技有限公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30905
摘要: 本发明提供一种网页正文提取的方法及装置,其中方法将经过预处理去噪的网页HTML文本中每个文本切片的特征值进行计算,之后通过不同的聚合规则,对文本切片列表中满足要求的文本进行多次聚合,最终得到符合要求的网页正文。该方法简单高效,避免了全文人工制定提取规则的繁琐。可以根据具体网页类型实现相关网页的自动正文提取。
-
公开(公告)号:CN105718584B
公开(公告)日:2019-01-29
申请号:CN201610051276.1
申请日:2016-01-26
申请人: 中国人民解放军国防科学技术大学 , 长沙市源本信息科技有限公司
IPC分类号: G06F16/957
摘要: 本发明提供一种网页正文提取的方法及装置,其中方法将经过预处理去噪的网页HTML文本中每个文本切片的特征值进行计算,之后通过不同的聚合规则,对文本切片列表中满足要求的文本进行多次聚合,最终得到符合要求的网页正文。该方法简单高效,避免了全文人工制定提取规则的繁琐。可以根据具体网页类型实现相关网页的自动正文提取。
-
公开(公告)号:CN105740359B
公开(公告)日:2018-12-07
申请号:CN201610051439.6
申请日:2016-01-26
申请人: 中国人民解放军国防科学技术大学
摘要: 本发明提供一种个股识别的方法及装置,该方法基于人工分类好的语料文本,用其对进行模型训练,得到用于文本中是否含有个股进行标注的个股识别CRF模型,通过对文本分词结果使用个股标注模型进行标注从而将分词结果中包含的个股识别出来。
-
公开(公告)号:CN105740354B
公开(公告)日:2018-11-30
申请号:CN201610050982.4
申请日:2016-01-26
申请人: 中国人民解放军国防科学技术大学 , 长沙市源本信息科技有限公司
IPC分类号: G06F17/30
摘要: 本发明提供一种自适应潜在狄利克雷模型选择的方法及装置,其中的方法根据语料库规模初始化一个经验主题个数K,通过计算LDA模型的主题‑词概率分布的平均余弦距离相似性测度不断更新主题个数K,通过若干轮迭代计算得到相对于初始主题个数更适合当前语料库的K值,并输出对应的LDA模型作为最终的结果模型。通过动态调整主题个数K,在一定程度上避免了因个人经验主观设置K导致的模型不合理问题,提高了模型的精度。
-
-
-
-
-
-
-
-
-