专利检索 ap:("北明智通(北京)科技有限公司") AND inv:"唐先明" 第 1 页

1.

发明公开
基于LDA主题模型的文献分类方法和系统有权

公开(公告)号：CN109492092A

公开(公告)日：2019-03-19

申请号：CN201811147398.6

申请日：2018-09-29

申请人： 北明智通(北京)科技有限公司

发明人： 史晓凌 , 唐先明 , 景帅 , 刘锋 , 陈新荣 , 王晓丽

IPC分类号： G06F16/35

摘要： 本发明公开了一种基于LDA主题模型的文献分类方法，包括以下步骤：步骤一、预编初始监督字典，初始监督字典里的词包括多个类，并且与LDA主题模型的主题一一对应；步骤二、获取待分类文献中的所有的词，并计算每个词属于每个主题的概率，获得聚类字典；步骤三、根据聚类字典组成新的监督字典；步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题，将出现的词最多的主题作为该篇文献的主题，完成对待分类文献的分类。本发明还公开了一种基于LDA主题模型的文献分类系统。本发明的方法既保持了规则分类方法的准确性，又具有LDA的联想聚类能力，分类结果准确，工程量小。

2.

发明公开
基于trie和LCS算法的文献分类方法和系统有权

公开(公告)号：CN109543023A

公开(公告)日：2019-03-29

申请号：CN201811147380.6

申请日：2018-09-29

申请人： 中国石油化工股份有限公司石油勘探开发研究院 , 北明智通(北京)科技有限公司

发明人： 唐先明 , 王晓丽 , 陈新荣 , 邓达康 , 韩宝东 , 史晓凌 , 郭攀红 , 张德浩 , 谭培波 , 张学龙

IPC分类号： G06F16/335 , G06F16/35 , G06F16/9032

摘要： 本发明公开了一种基于trie和LCS算法的文献分类方法，包括以下步骤：步骤一、预编初始分类字典和初始排除字典；步骤二、将初始分类字典中的每一个字符串扩展得到扩展字符串，根据初始排除字典对得到的扩展字符串过滤后构建字典树；步骤三、调用字典树查找待分类文献中的每一个句子中出现的所有的字符串，取其中含有的属于初始分类字典中的最长的字符串作为最长公共子序列，最长公共子序列及其对应的类作为该一个句子的最终字符串及最终类，将一篇文献中出现频率最多的最终类作为其所属的类。本发明还公开了一种基于trie和LCS算法的文献分类系统。本发明省略了分词过程，以稳定的字符串为特征，准确度高，降低了对上下文的依赖。