用于提取关键词的方法、系统及存储介质

    公开(公告)号:CN110598209B

    公开(公告)日:2022-11-04

    申请号:CN201910774424.6

    申请日:2019-08-21

    IPC分类号: G06F40/284 G06F40/247

    摘要: 本发明提供一种用于提取关键词的方法、系统及存储介质,属于关键词的提取技术领域。所述方法包括:对每篇文档分别进行预处理以得到对应的候选关键词集合;构建候选关键词图;构成一个候选关键词词典;构建候选关键词词典的相似度矩阵;计算候选关键词集合中每个候选关键词在对应文档中的重要性;采用层次分析法确定相似度矩阵、词语节点出度特征、词语节点位置特征以及词语节点频次特征的特征系数;分别计算每个候选关键词的词语综合影响力;采用公式(1)对每个候选关键词图的候选关键词进行迭代计算,针对每个候选关键词图,根据权重值的大小对每个候选关键词进行降序排序,选取前N个候选关键词作为候选关键词图对应的文本的关键词集合。

    半监督分类方法和系统
    2.
    发明授权

    公开(公告)号:CN111414473B

    公开(公告)日:2021-09-07

    申请号:CN202010089862.1

    申请日:2020-02-13

    IPC分类号: G06F16/35 G06F40/279

    摘要: 本发明提供一种半监督分类方法和系统,涉及文本数据处理技术领域。本发明使用文本向量模型层,在不损失样本或者特征的情况下获得样本之间的分歧,取代现有的半监督分类方法中的重采样与随机子空间方法,能有效降低文本样本数量的损失或特征的损失,同时,使用基分类器组的设计,使用不同的基分类器获取相同样本的不同特征,获得基分类器之间的分歧,进一步降低特征的损失,从而有效了提高了半监督分类方法的分类结果准确度。

    基于多注意力机制的问题分类方法、系统及存储介质

    公开(公告)号:CN110727765A

    公开(公告)日:2020-01-24

    申请号:CN201910958230.1

    申请日:2019-10-10

    摘要: 本发明实施方式提供一种基于多注意力机制的问题分类方法、系统及存储介质,属于问题分类技术领域。所述问题分类方法包括:获取待分类的文本;采用word2vec模型将所述文本转化为对应的词向量序列;根据词向量序列形成基于疑问词注意力机制的词向量矩阵;采用预设的标注集对所述文本进行词性标注并编码以形成词性向量序列;采用公式(1)分别计算所述词向量序列中的每个向量的系数;采用公式(2)对每个系数进行标准化处理;采用公式(3)确定词性注意力机制的词向量矩阵;将两种词向量矩阵进行卷积操作形成组合矩阵;将组合矩阵输入LSTM得到具有时序特征的特征矩阵,接着使用自注意力机制得到特征向量,根据特征向量确定文本的类别。

    基于多粒度建模的半监督文本分类方法和系统

    公开(公告)号:CN112214597B

    公开(公告)日:2022-09-06

    申请号:CN202011004053.2

    申请日:2020-09-22

    IPC分类号: G06F16/35 G06N3/08

    摘要: 本发明提供一种基于多粒度建模的半监督文本分类方法和系统,涉及数据处理技术和机器学习技术领域。本发明使用多粒度的文本建模方式形成三通道的文本向量模型层,分别从字符级、词语级、句子级三个级别对同一文本进行文本建模,再将三个级别的建模分别作为三个通道,并将三个通道的输出输入给三个基分类器组,在不损失样本或者特征的情况下获得样本之间的分歧,取代了传统的重采样与随机子空间方法;同时,九个基分类器集成为三个基分类器组的设计,集成了不同基分类器的优点,使用不同的基分类器获取相同样本的不同特征,获得基分类器之间的分歧,从而有效提高了半监督文本分类方法的分类结果准确度。

    基于SFM-DCNN的层次特征文本分类方法和系统

    公开(公告)号:CN111400492B

    公开(公告)日:2022-08-19

    申请号:CN202010097431.X

    申请日:2020-02-17

    摘要: 本发明提供一种基于SFM‑DCNN的层次特征文本分类方法和系统,涉及文本分类领域。本发明在特征选择阶段,使用语义特征句向量来表示待分类文本,语义特征句向量能够高效捕获上下文语义联系、空间信息和位置信息等多种语义信息,并将获取的信息进行强化,能够捕获高级的全局语义信息,从而能够有效的提高文本分类的准确率;在特征获取阶段,采用多通道层次特征,能够在获得关键特征的同时进行多层次特征获取,对特征起到强化作用,有效减少了特征的丢失,从而进一步提高文本分类的准确率。

    基于多注意力机制的问题分类方法、系统及存储介质

    公开(公告)号:CN110727765B

    公开(公告)日:2021-12-07

    申请号:CN201910958230.1

    申请日:2019-10-10

    摘要: 本发明实施方式提供一种基于多注意力机制的问题分类方法、系统及存储介质,属于问题分类技术领域。所述问题分类方法包括:获取待分类的文本;采用word2vec模型将所述文本转化为对应的词向量序列;根据词向量序列形成基于疑问词注意力机制的词向量矩阵;采用预设的标注集对所述文本进行词性标注并编码以形成词性向量序列;采用公式(1)分别计算所述词向量序列中的每个向量的系数;采用公式(2)对每个系数进行标准化处理;采用公式(3)确定词性注意力机制的词向量矩阵;将两种词向量矩阵进行卷积操作形成组合矩阵;将组合矩阵输入LSTM得到具有时序特征的特征矩阵,接着使用自注意力机制得到特征向量,根据特征向量确定文本的类别。

    用于提取关键词的方法、系统及存储介质

    公开(公告)号:CN110598209A

    公开(公告)日:2019-12-20

    申请号:CN201910774424.6

    申请日:2019-08-21

    IPC分类号: G06F17/27

    摘要: 本发明提供一种用于提取关键词的方法、系统及存储介质,属于关键词的提取技术领域。所述方法包括:对每篇文档分别进行预处理以得到对应的候选关键词集合;构建候选关键词图;构成一个候选关键词词典;构建候选关键词词典的相似度矩阵;计算候选关键词集合中每个候选关键词在对应文档中的重要性;采用层次分析法确定相似度矩阵、词语节点出度特征、词语节点位置特征以及词语节点频次特征的特征系数;分别计算每个候选关键词的词语综合影响力;采用公式(1)对每个候选关键词图的候选关键词进行迭代计算,针对每个候选关键词图,根据权重值的大小对每个候选关键词进行降序排序,选取前N个候选关键词作为候选关键词图对应的文本的关键词集合。

    投诉文本的分类方法、系统和存储介质

    公开(公告)号:CN110427959A

    公开(公告)日:2019-11-08

    申请号:CN201910513241.9

    申请日:2019-06-14

    IPC分类号: G06K9/62 G06F17/27 G06Q30/02

    摘要: 本发明提供一种投诉文本的分类方法、系统和存储介质,涉及文本分类领域。包括以下步骤:获取投诉文本,对投诉文本预处理;基于预训练的Doc2vec模型对投诉文本进行处理,获取文本特征向量;基于预训练的隐含狄利克雷分布模型对投诉文本进行处理,获取主题特征向量;基于文本特征向量和主题特征向量获取文本向量;基于预训练的支持向量机模型对文本向量处理,得到第一分类结果;基于预训练的随机森林模型对文本向量处理,得到第二分类结果;基于bagging方法对第一分类结果和第二分类结果进行处理,得到投诉文本的分类结果。本发明可以将投诉文本准确分类。

    鉴定网络用户的方法及系统、网络信息的屏蔽方法及系统

    公开(公告)号:CN109800289A

    公开(公告)日:2019-05-24

    申请号:CN201910141807.X

    申请日:2019-02-26

    IPC分类号: G06F16/33 G06F16/958

    摘要: 本发明实施方式提供一种鉴定网络用户的方法及系统、网络信息的屏蔽方法及系统,属于网络信息的识别技术领域。该方法包括:获取目标用户集合;获取每个目标用户发布的历史文本信息;采用LDA主题模型对历史文本信息进行分析,确定每个目标用户的专长领域;根据专长领域确定目标用户集合中每两个目标用户的相似度以构建相似度矩阵;获取目标用户的粉丝数量、回答数量和获赞数量以计算目标用户的节点属性特征值;获取目标用户集合中每两个目标用户之间的关注关系以构建关注矩阵;根据专长领域、相似度矩阵、以及关注矩阵构建目标用户的转移概率矩阵,采用PageRank算法根据节点属性特征值与转移概率矩阵获取每个目标用户的评分。

    鉴定网络用户的方法及系统、网络信息的屏蔽方法及系统

    公开(公告)号:CN109800289B

    公开(公告)日:2022-05-17

    申请号:CN201910141807.X

    申请日:2019-02-26

    IPC分类号: G06F16/33 G06F16/958

    摘要: 本发明实施方式提供一种鉴定网络用户的方法及系统、网络信息的屏蔽方法及系统,属于网络信息的识别技术领域。该方法包括:获取目标用户集合;获取每个目标用户发布的历史文本信息;采用LDA主题模型对历史文本信息进行分析,确定每个目标用户的专长领域;根据专长领域确定目标用户集合中每两个目标用户的相似度以构建相似度矩阵;获取目标用户的粉丝数量、回答数量和获赞数量以计算目标用户的节点属性特征值;获取目标用户集合中每两个目标用户之间的关注关系以构建关注矩阵;根据专长领域、相似度矩阵、以及关注矩阵构建目标用户的转移概率矩阵,采用PageRank算法根据节点属性特征值与转移概率矩阵获取每个目标用户的评分。