基于CRP聚类的词语多原型向量表示及词义消歧方法

    公开(公告)号:CN109033307A

    公开(公告)日:2018-12-18

    申请号:CN201810783010.5

    申请日:2018-07-17

    IPC分类号: G06F17/30 G06F17/27 G06K9/62

    摘要: 本发明公开了一种基于CRP聚类的词语多原型向量表示及词义消歧方法,包括步骤一:对海量文本语料集中的文本进行提纯预处理获得纯文本,基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,对文本语料集中目标多义词语按照聚类簇类别标记,在标记的文本语料集上训练获得多义词语的多原型向量表示;步骤二:对目标短文本预处理获得短文本词语序列,识别词语序列中目标多义词语,计算目标多义词语上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间相似度,将相似度最大值聚类簇类别所对应词向量表示作为多义词语在上下文中特定词义的词向量表示,对多义词进行词义消歧。本发明解决了词语表示中一词多义表示问题及词义表示中歧义识别问题。

    一种协作频谱感知方法及相关装置

    公开(公告)号:CN108768564A

    公开(公告)日:2018-11-06

    申请号:CN201810521498.4

    申请日:2018-05-17

    IPC分类号: H04B17/382 H04B15/00 G06K9/62

    摘要: 本申请公开了一种协作频谱感知方法,包括:对已知信号进行经验模态分解得到多个本征模态函数信号分量,去除所述多个本征模态函数信号分量的高频部分得到处理信号;对所述处理信号进行特征提取处理,得到信号特征;根据聚类算法对所述信号特征进行分类,根据分类结果进行训练得到分类模型;当接收到未知信号时,根据所述分类模型对所述未知信号进行分类。通过经验模态分解去除已知信号的噪声,降低噪声对特征提取的影响,提高频谱感知的精度和准确率。本申请还公开一种协作频谱感知系统、协作频谱感知装置以及计算机可读存储介质,具有上述有益效果。

    一种自适应可能C均值聚类的茶叶中红外光谱分类方法

    公开(公告)号:CN107886115A

    公开(公告)日:2018-04-06

    申请号:CN201711027252.3

    申请日:2017-10-27

    申请人: 江苏大学

    IPC分类号: G06K9/62 G01N21/3563

    摘要: 本发明公开了一种自适应可能C均值聚类的茶叶中红外光谱分类方法,包括步骤:(1)茶叶样本中红外光谱采集;(2)用多元散射矫正(MSC)进行茶叶样本中红外光谱的预处理;(3)对茶叶样本中红外光谱进行降维处理和鉴别信息提取;(4)用自适应可能C均值聚类方法鉴别茶叶品种。本发明解决了用基于欧氏距离的改进型可能C-均值(IPCM)聚类方法在聚类分析茶叶的中红外光谱数据时聚类效果不理想的问题,本发明采用基于模糊协方差矩阵的自适应距离测度来代替IPCM聚类方法中的欧氏距离测度。本发明具有检测速度快,检测准确率高,绿色无污染,所需茶叶样本少等优点。

    一种城市弱势群体聚类和评价方法、系统

    公开(公告)号:CN107832775A

    公开(公告)日:2018-03-23

    申请号:CN201710934252.5

    申请日:2017-10-09

    IPC分类号: G06K9/62

    CPC分类号: G06K9/6265 G06K9/6221

    摘要: 本发明公开了一种城市弱势群体聚类和评价方法、系统,包括依照预设城市弱势群体分类画像模型,建立城市弱势群体聚类集合;对所述城市弱势群体聚类集合数据进行预处理,计算新的城市弱势群体聚类集合的中心点;判断所述城市弱势群体聚类集合的中心点与新的城市弱势群体聚类集合的中心点是否相同,若所述城市弱势群体聚类集合的中心点与新的城市弱势群体聚类集合的中心点不相同,采用改进的分组遗传算法得到城市弱势群体数据子集;对所述城市弱势群体数据子集进行综合分析,得到所述城市弱势群体数据子集中每个数据对象的综合评分。本发明不需要关于待分类数据的先验分布知识,也不会受初始解选择的影响而得到次优解。

    一种基于临界值数据划分的并行KNN文本分类方法

    公开(公告)号:CN107832456A

    公开(公告)日:2018-03-23

    申请号:CN201711192239.3

    申请日:2017-11-24

    申请人: 云南大学

    IPC分类号: G06F17/30 G06K9/62

    摘要: 本发明属于数据处理技术领域,公开了一种基于临界值数据划分的并行KNN文本分类方法,包括:训练集文本重定义,经过预处理后,训练集中的文本就会被处理成统一的格式,将通过词条将文本中的信息处理成键值对的形式;确定新文本的向量,使用TF-IDF方式处理新的文本;确定K个文本;文本的权重计算;比较类的权重值的大小,根据词条的权重将词条分到对应的中心点的集合中。本发明只需要和中心点集合中的数据进行相似度求解,然后进行分类减少分类时间开销;另外在对文本间的相似度计算的余弦定理上进行了改进,利用MapReduce的分布式编程优势处理文本相似度计算后的键值对,从而提高文本分类的效率。

    一种基于关注关系确定目标用户的处理方法和装置

    公开(公告)号:CN107451612A

    公开(公告)日:2017-12-08

    申请号:CN201710638605.7

    申请日:2017-07-31

    IPC分类号: G06K9/62

    CPC分类号: G06K9/6268 G06K9/6221

    摘要: 本发明提供了一种基于关注关系的用户兴趣处理方法和装置,涉及计算机技术领域,所述方法包括:通过获得N个用户,所述N个用户中的每个用户具有第一标签,所述第一标签用于表征所述N个用户的兴趣指标;根据所述N个用户中的每个用户的关注关系,获得P个用户;根据所述P个用户获得所述P个用户中M个用户的第二标签,其中,所述第二标签用于表征所述M个用户的兴趣指标,其中,第二标签不同于所述第一标签。解决了现有技术中由于各个社交网络关注关系形成了复杂的图谱关系,导致无法快速获得社交用户的兴趣分类,从而无法快速进行群体兴趣分析的技术问题。达到了简化群体兴趣计算分析、深入挖掘关系链的潜在价值的技术效果。