一种基于异质数据的人物相似度刻画方法

    公开(公告)号:CN107577782A

    公开(公告)日:2018-01-12

    申请号:CN201710827978.9

    申请日:2017-09-14

    Abstract: 本发明公开了一种基于异质数据的人物相似度刻画方法,属于数据挖掘领域。本发明首先搜集用户的微博文本,获取用户之间的关注关系以及各用户的基本信息,针对不同类型数据的特点个性化选择处理方式,并对于微博文本采用Doc2vec模型,结合上下文信息将文本表示成向量,再根据定义的相似度函数衡量相似度,最后将不同维度得到的矩阵进行融合,刻画用户最终的相似度。本发明引入了多种社交网络信息,包括社交关系数据、用户属性数据和用户文本数据等,通过对不同类型的信息加以综合考虑,以得到更全面的人物相似度刻画方法;同时本发明提供了对于多种数据的处理和计算方案,利用完整的数据和加权融合方法,个性化计算不同偏好的人物相似度。

    一种社交网络低质量图像中的字幕识别方法

    公开(公告)号:CN107480671A

    公开(公告)日:2017-12-15

    申请号:CN201610406013.8

    申请日:2016-06-08

    CPC classification number: G06K9/3266

    Abstract: 本发明为一种社交网络低质量图像中的字幕识别方法,包括(1)图像预处理;(2)MSER提取;(3)文字检测;(4)区域合成;(5)文本检测;最终获取识别结果。本发明支持对社交网络中低质量图像中字幕的检测。支持对低质量图像字幕的识别,低质量主要表现为字幕嵌入在复杂图像背景中、字幕中字符分辨率低,且笔画模糊,部分相邻字符粘连;支持识别常用低质量中英文字符、数字和标点符号,其中中文字符集至少包括GB2312-1内的3755个简体汉字。

    PCI‑E多缓冲区DMA数据传输方法

    公开(公告)号:CN104239248B

    公开(公告)日:2017-06-06

    申请号:CN201410472222.3

    申请日:2014-09-16

    Abstract: 本发明提供了一种PCI‑E多缓冲区DMA数据传输方法,涉及PCI‑E数据传输技术领域。本方法在数据源系统和数据目的系统中各自分配N块物理内存,分别对两个系统中的N块物理内存通过双向链表建立空闲内存池及工作内存池;从空闲内存池获取用于写入数据的内存,写入数据的内存加入工作内存池;在环形缓冲区中写入所要操作的内存的物理起始地址和大小。本发明通过空闲内存池及工作内存池的使用减少内存拷贝次数和系统调用次数;通过环形缓冲区增加DMA的数据传输速率。本发明在大数据量的传输下降低了系统的等待开销,提高了传输效率。

    一种微博突发话题检测方法及装置

    公开(公告)号:CN106294333A

    公开(公告)日:2017-01-04

    申请号:CN201510236634.1

    申请日:2015-05-11

    Abstract: 本发明提供一种微博突发话题检测方法及装置,用以解决目前微博突发话题难以识别的问题,该方法包括,提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题,该方案能够提高微博突发话题检测的准确率。

Patent Agency Ranking