-
公开(公告)号:CN108090222B
公开(公告)日:2020-07-07
申请号:CN201810011460.2
申请日:2018-01-05
Applicant: 中国科学院计算技术研究所 , 中科天玑数据科技股份有限公司
IPC: G06F16/27
Abstract: 本发明公开了一种数据库集群节点间数据同步系统,涉及数据处理领域。所述系统包括配置单元、元数据存储单元、元数据判断单元、读写判断单元、Paxos同步单元、日志存储单元和日志重现单元。本发明解决了现有数据库同步方法中异步方式可能导致数据库集群数据不一致的问题,也解决了同步方式可能因为某个节点阻塞导致性能低下的问题;最后,本发明所述数据库集群节点间数据同步系统也支持不同方向的数据同步,没有只能将数据从主数据库同步到从数据库的限制。
-
公开(公告)号:CN108090222A
公开(公告)日:2018-05-29
申请号:CN201810011460.2
申请日:2018-01-05
Applicant: 中国科学院计算技术研究所 , 中科天玑数据科技股份有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据库集群节点间数据同步系统,涉及数据处理领域。所述系统包括配置单元、元数据存储单元、元数据判断单元、读写判断单元、Paxos同步单元、日志存储单元和日志重现单元。本发明解决了现有数据库同步方法中异步方式可能导致数据库集群数据不一致的问题,也解决了同步方式可能因为某个节点阻塞导致性能低下的问题;最后,本发明所述数据库集群节点间数据同步系统也支持不同方向的数据同步,没有只能将数据从主数据库同步到从数据库的限制。
-
公开(公告)号:CN104077417B
公开(公告)日:2018-05-22
申请号:CN201410342939.6
申请日:2014-07-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种社交网络中的人物标签推荐方法和系统,所述方法包括:基于被推荐用户的社交对象发布的文本内容,将社交对象划分为在语义空间上相似的多个类簇;其中,每个社交对象发布的文本内容由该社交对象发布的多个短文本消息组成。所述方法还包括:对于所述多个类簇中的每个类簇,将该类簇中的社交对象所对应的标签进行冗余处理,得到与该类簇对应的标签集合以提供给被推荐用户。本发明解决了现有人物标签推荐技术中,标签推荐质量不高的问题,以及能使标签推荐的结果更具个性化并且更加多样化。
-
公开(公告)号:CN104933139A
公开(公告)日:2015-09-23
申请号:CN201510337334.2
申请日:2015-06-17
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/30864 , G06Q50/01
Abstract: 本发明提供一种社交网络用户身份虚实映射的方法及装置,涉及网络数据挖掘技术,能够较准确地推测出社交网络中个体用户的真实身份。所述方法包括:获取身份待定用户的三度好友并生成相应的社交网络拓扑结构图,所述三度好友包括所述身份待定用户的好友、好友的好友以及好友的好友的好友;在所述社交网络拓扑结构图中查找完全子图;根据所述完全子图中各身份已知的好友的身份特征属性,确定所述身份待定用户的身份特征属性。
-
公开(公告)号:CN104866558A
公开(公告)日:2015-08-26
申请号:CN201510252840.1
申请日:2015-05-18
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/30598 , G06K9/66
Abstract: 本发明提供一种社交网络账号映射模型训练方法,包括:1)将映射关系已知的微博s账号集合中的任一个账号与微博t账号集合中的任一个账号进行两两组合构成训练集;2)对每一个账号组合提取账号组合特征向量,包括:该账号组合中两个账号各自的文本特征,两个账号在各自所属微博中的社交关系特征,以及两个账号的扩展共同邻居特征,扩展共同邻居是两个账号各自的邻居账号中,那些已知属于同一个自然人的邻居账号对;3)基于机器学习技术进行训练得到社交网络账号映射模型。本发明还提供了相应的社交网络账号映射方法及系统。本发明能够减少关系数据稀疏性对映射结果的不利影响,有效地提高社交网络账号映射的准确率。
-
公开(公告)号:CN103823879A
公开(公告)日:2014-05-28
申请号:CN201410072608.5
申请日:2014-02-28
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30345 , G06F17/30634
Abstract: 本发明提供一种面向在线百科的知识库自动更新的方法,该方法实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;从所获取的知识语料识别知识的变化,以及将基于所识别的知识的变化来更新知识库。该方法实时感知更新的知识,自动判断更新知识在知识库中所处的位置,以及将更新的知识,自动合并添加到知识库中,可避免知识库的滞后性并满足用户对知识库时新性的要求。
-
公开(公告)号:CN103745014A
公开(公告)日:2014-04-23
申请号:CN201410042782.5
申请日:2014-01-29
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06Q50/01 , G06F17/3087
Abstract: 本发明提供一种社交网络用户虚实映射方法和系统,所述方法包括:根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;以及将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。本发明可根据社交网络用户的唯一标识将该用户映射到一个或多个工作单位,提高了社交网络用户虚实映射的精确度。
-
公开(公告)号:CN103729474A
公开(公告)日:2014-04-16
申请号:CN201410032746.0
申请日:2014-01-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30705 , G06F17/30861
Abstract: 本发明提供了一种用于识别论坛用户马甲账号的方法。该方法基于训练集中各用户账号及每个文本的特征向量来训练分类模型,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号,然后基于所述分类结果来识别马甲账号。该方法从论坛用户账号发言的文本数据中选取特征,通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系,提高了识别马甲账号的概率。而且针对网络语言的语法不严谨,并且有许多的网络用语的特点,通过提取用户发言文本中有效的特征进行分析,规避了词库更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,提高了马甲识别的准确率。
-
公开(公告)号:CN101464907B
公开(公告)日:2011-05-11
申请号:CN200910076589.2
申请日:2009-01-09
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种文本维度压缩及尺度调整方法,包括下列步骤:1)用特征空间的特征向量表示文本xj;2)根据训练集中的样本x计算文本xj待投影的k个方向,其中k为文本xj所属语料的类别个数;3)将文本xj投影到该k个方向,表示为(xj,1N,...,xj,iN,...,xj,kN),其中1≤i≤k;4)根据训练集中的样本x计算每个类Ci在对应方向上投影的尺度相关统计量;5)根据所述(xj,1N,...,xj,iN,...,xj,kN)和所述尺度相关统计量,计算所述文本xj的新的表示(xj,1R,...,xj,iR,...,xj,kR)。根据本发明的文本维度压缩及尺度调整方法对文本空间进行处理,不仅降低了语料的维度,还使语料的分布更为合理,该方法的应用使文本分类的精度有效提高。
-
公开(公告)号:CN101727463A
公开(公告)日:2010-06-09
申请号:CN200810225033.0
申请日:2008-10-24
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种文本训练方法,包括下列步骤:1)计算每类训练样本集的中心向量;2)根据训练样本集的中心向量对所述训练样本集中的样本进行分类;3)对分类不正确的样本,根据设定的拉近权dragweight和推远权pushweight修正所述分类不正确的样本的所属类别A的中心向量或/和被错分到的类别B的中心向量。根据该训练方法所得到的中心向量对文本进行分类不仅精度高,而且速度快。
-
-
-
-
-
-
-
-
-