-
公开(公告)号:CN109190112A
公开(公告)日:2019-01-11
申请号:CN201810906764.5
申请日:2018-08-10
申请人: 合肥工业大学
摘要: 本发明实施方式提供一种基于双通道特征融合的专利分类方法、系统及存储介质,属于专利文档分类技术领域。所述专利分类方法包括:读取需要被分类的专利文档,将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量,以生成word2vec词向量序列和POS词性向量序列;对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量;采用全连接层将所述第一句向量映射为第二句向量,其中,所述专利文档的类别的数量、所述全连接层的节点的数量和所述第二句向量的维度相等;采用softmaxt分类层对所述第二句向量进行归一化处理。
-
公开(公告)号:CN109190112B
公开(公告)日:2022-12-06
申请号:CN201810906764.5
申请日:2018-08-10
申请人: 合肥工业大学
IPC分类号: G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62 , G06Q50/18
摘要: 本发明实施方式提供一种基于双通道特征融合的专利分类方法、系统及存储介质,属于专利文档分类技术领域。所述专利分类方法包括:读取需要被分类的专利文档,将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量,以生成word2vec词向量序列和POS词性向量序列;对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量;采用全连接层将所述第一句向量映射为第二句向量,其中,所述专利文档的类别的数量、所述全连接层的节点的数量和所述第二句向量的维度相等;采用softmaxt分类层对所述第二句向量进行归一化处理。
-
公开(公告)号:CN109800289B
公开(公告)日:2022-05-17
申请号:CN201910141807.X
申请日:2019-02-26
申请人: 合肥工业大学
IPC分类号: G06F16/33 , G06F16/958
摘要: 本发明实施方式提供一种鉴定网络用户的方法及系统、网络信息的屏蔽方法及系统,属于网络信息的识别技术领域。该方法包括:获取目标用户集合;获取每个目标用户发布的历史文本信息;采用LDA主题模型对历史文本信息进行分析,确定每个目标用户的专长领域;根据专长领域确定目标用户集合中每两个目标用户的相似度以构建相似度矩阵;获取目标用户的粉丝数量、回答数量和获赞数量以计算目标用户的节点属性特征值;获取目标用户集合中每两个目标用户之间的关注关系以构建关注矩阵;根据专长领域、相似度矩阵、以及关注矩阵构建目标用户的转移概率矩阵,采用PageRank算法根据节点属性特征值与转移概率矩阵获取每个目标用户的评分。
-
公开(公告)号:CN110598209B
公开(公告)日:2022-11-04
申请号:CN201910774424.6
申请日:2019-08-21
申请人: 合肥工业大学
IPC分类号: G06F40/284 , G06F40/247
摘要: 本发明提供一种用于提取关键词的方法、系统及存储介质,属于关键词的提取技术领域。所述方法包括:对每篇文档分别进行预处理以得到对应的候选关键词集合;构建候选关键词图;构成一个候选关键词词典;构建候选关键词词典的相似度矩阵;计算候选关键词集合中每个候选关键词在对应文档中的重要性;采用层次分析法确定相似度矩阵、词语节点出度特征、词语节点位置特征以及词语节点频次特征的特征系数;分别计算每个候选关键词的词语综合影响力;采用公式(1)对每个候选关键词图的候选关键词进行迭代计算,针对每个候选关键词图,根据权重值的大小对每个候选关键词进行降序排序,选取前N个候选关键词作为候选关键词图对应的文本的关键词集合。
-
公开(公告)号:CN109376226A
公开(公告)日:2019-02-22
申请号:CN201811324875.1
申请日:2018-11-08
申请人: 合肥工业大学
IPC分类号: G06F16/332 , G06F16/35
摘要: 本发明实施方式提供一种投诉文本的分类模型、构建方法、系统、分类方法和系统,属于文本分类技术领域。所述分类模型包括:预处理模块,用于读取所述投诉文本,并对所述投诉文本进行预处理;BTM模块,用于对所述投诉文本进行处理以生成主题向量;Doc2vec模块,用于对所述投诉文本进行处理以生成词向量;将所述主题向量和所述词向量进行拼接以生成特征向量;ER分类器,用于根据所述特征向量对所述投诉文本进行分类以生成分类结果。
-
公开(公告)号:CN110598209A
公开(公告)日:2019-12-20
申请号:CN201910774424.6
申请日:2019-08-21
申请人: 合肥工业大学
IPC分类号: G06F17/27
摘要: 本发明提供一种用于提取关键词的方法、系统及存储介质,属于关键词的提取技术领域。所述方法包括:对每篇文档分别进行预处理以得到对应的候选关键词集合;构建候选关键词图;构成一个候选关键词词典;构建候选关键词词典的相似度矩阵;计算候选关键词集合中每个候选关键词在对应文档中的重要性;采用层次分析法确定相似度矩阵、词语节点出度特征、词语节点位置特征以及词语节点频次特征的特征系数;分别计算每个候选关键词的词语综合影响力;采用公式(1)对每个候选关键词图的候选关键词进行迭代计算,针对每个候选关键词图,根据权重值的大小对每个候选关键词进行降序排序,选取前N个候选关键词作为候选关键词图对应的文本的关键词集合。
-
公开(公告)号:CN110427959A
公开(公告)日:2019-11-08
申请号:CN201910513241.9
申请日:2019-06-14
申请人: 合肥工业大学
摘要: 本发明提供一种投诉文本的分类方法、系统和存储介质,涉及文本分类领域。包括以下步骤:获取投诉文本,对投诉文本预处理;基于预训练的Doc2vec模型对投诉文本进行处理,获取文本特征向量;基于预训练的隐含狄利克雷分布模型对投诉文本进行处理,获取主题特征向量;基于文本特征向量和主题特征向量获取文本向量;基于预训练的支持向量机模型对文本向量处理,得到第一分类结果;基于预训练的随机森林模型对文本向量处理,得到第二分类结果;基于bagging方法对第一分类结果和第二分类结果进行处理,得到投诉文本的分类结果。本发明可以将投诉文本准确分类。
-
公开(公告)号:CN109800289A
公开(公告)日:2019-05-24
申请号:CN201910141807.X
申请日:2019-02-26
申请人: 合肥工业大学
IPC分类号: G06F16/33 , G06F16/958
摘要: 本发明实施方式提供一种鉴定网络用户的方法及系统、网络信息的屏蔽方法及系统,属于网络信息的识别技术领域。该方法包括:获取目标用户集合;获取每个目标用户发布的历史文本信息;采用LDA主题模型对历史文本信息进行分析,确定每个目标用户的专长领域;根据专长领域确定目标用户集合中每两个目标用户的相似度以构建相似度矩阵;获取目标用户的粉丝数量、回答数量和获赞数量以计算目标用户的节点属性特征值;获取目标用户集合中每两个目标用户之间的关注关系以构建关注矩阵;根据专长领域、相似度矩阵、以及关注矩阵构建目标用户的转移概率矩阵,采用PageRank算法根据节点属性特征值与转移概率矩阵获取每个目标用户的评分。
-
公开(公告)号:CN108846120A
公开(公告)日:2018-11-20
申请号:CN201810676963.1
申请日:2018-06-27
申请人: 合肥工业大学
摘要: 本发明提供一种用于对文本集进行分类的方法、系统及存储介质,属于文本分类算法技术领域。方法包括:读取需要被分类的文本集并对所述文本集进行预处理;确定所述文本集的困惑度;在所述困惑度取最小值的情况下,确定所述文本集的主题数;根据所述主题数采用BTM模型生成所述文本集的主题向量;采用Doc2vec模型根据所述文本集生成特征向量;合并所述主题向量和所述特征向量以生成所述文本集的特征空间向量;将所述特征空间向量作为SVM分类器的原始输入空间向量输入SVM分类器以进行分类。用于对文本集进行分类的方法、系统及存储介质,该方法、系统及存储介质可以提高文本分类算法的效率。
-
-
-
-
-
-
-
-