专利检索 ap:("国家计算机网络与信息安全管理中心" OR "中国科学院信息工程研究所") AND inv:"吴广君" 第 1 页

1.

发明公开
一种大数据多区间查询条件下的基数估计方法及装置有权

公开(公告)号：CN103544258A

公开(公告)日：2014-01-29

申请号：CN201310484503.6

申请日：2013-10-16

申请人： 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所

发明人： 云晓春 , 徐小琳 , 王明华 , 刘阳 , 李志辉 , 吴广君 , 王树鹏 , 王勇 , 常为领

IPC分类号： G06F17/30

CPC分类号： G06F17/30864

摘要： 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置，包括以下步骤：按照数值属性对大数据预先划分成多个分区；建立树形索引结构，每个分区作为树形索引结构的一个节点；获取待写入树形索引结构的数据源，对支持区间查询条件的数据源进行倒排索引处理；将经过倒排索引处理的数据源写入树形索引结构中的节点内，将数据源的相应部分分别写入数据文件及基数估算器内；根据区间查询条件在树形索引结构中查询满足区间查询条件的节点，得到节点中的基数估算器，对基数估算器进行逻辑处理，得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率，在任意多区间查询条件下，具备较高的查询效率，使用了大数据增量更新技术提高索引数据在线更新效率。

2.

发明授权
一种大数据多区间查询条件下的基数估计方法及装置有权

公开(公告)号：CN103544258B

公开(公告)日：2016-11-30

申请号：CN201310484503.6

申请日：2013-10-16

申请人： 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所

发明人： 云晓春 , 徐小琳 , 王明华 , 刘阳 , 李志辉 , 吴广君 , 王树鹏 , 王勇 , 常为领

IPC分类号： G06F17/30

摘要： 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置，包括以下步骤：按照数值属性对大数据预先划分成多个分区；建立树形索引结构，每个分区作为树形索引结构的一个节点；获取待写入树形索引结构的数据源，对支持区间查询条件的数据源进行倒排索引处理；将经过倒排索引处理的数据源写入树形索引结构中的节点内，将数据源的相应部分分别写入数据文件及基数估算器内；根据区间查询条件在树形索引结构中查询满足区间查询条件的节点，得到节点中的基数估算器，对基数估算器进行逻辑处理，得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率，在任意多区间查询条件下，具备较高的查询效率，使用了大数据增量更新技术提高索引数据在线更新效率。

3.

发明公开
安全检测的时序数据实时异常发现方法及电子装置审中-实审

公开(公告)号：CN111694860A

公开(公告)日：2020-09-22

申请号：CN202010350182.0

申请日：2020-04-28

申请人： 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所

发明人： 吴兴明 , 熊颖 , 张慧琳 , 强倩 , 赵志慧 , 王振宇 , 吴广君 , 王树鹏

IPC分类号： G06F16/245 , G06F16/22

摘要： 本发明提供一种安全检测的时序数据实时异常发现方法及电子装置，该方法步骤包括：根据配置文件，创建或读取TimescaleDB时序数据库表；将所述时序数据实时插入所述TimescaleDB时序数据库表，并经哈希函数计算处理进行分桶，邻居数据被哈希到相同的桶中；计算每个桶内数据数量与所有桶内的桶内数据数量的平均值，并根据一设定阈值判断所述时序数据是否异常。本发明提高了异常检测应用的写入与查询性能，不需要存储所有的历史数据，能够大幅度节省空间，在发生意外如断电的情况时不会发生数据丢失和应用失效，不需要对样本进行标注，也无需进行模型训练。易于部署和降低开发成本。

4.

发明公开
一种针对海量高噪音口语化短文本的文本筛选方法审中-实审

公开(公告)号：CN113761903A

公开(公告)日：2021-12-07

申请号：CN202010504536.2

申请日：2020-06-05

申请人： 国家计算机网络与信息安全管理中心

发明人： 戚梦苑 , 孙晓晨 , 万辛 , 李沁 , 刘发强 , 孙旭东 , 倪善金 , 吴广君 , 梁睿琪

IPC分类号： G06F40/289 , G06F40/30 , G06F40/232 , G06F16/35 , G06N3/04

摘要： 本发明提出一种针对海量高噪音口语化短文本的文本筛选方法，属于自然语言处理领域，通过对训练语料和待筛选的目标文本进行预处理；对预处理后的训练语料中的标注的正类语料进行句式信息提取，区分出业务强相关句式和弱相关句式；利用提取的句式信息对预处理后的目标文本进行句式匹配，将业务强相关句式的匹配结果归为正类文本，对业务弱相关句式的匹配结果进行以下步骤的处理；对目标文本和训练语料都进行文本处理，将处理后的文本转化为词向量表示；使用训练语料的词向量表示训练文本分类模型，将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类，实现对目标文本的文本筛选。

5.

发明公开
一种基于多GPU的强连通图检测方法有权

公开(公告)号：CN110264392A

公开(公告)日：2019-09-20

申请号：CN201910371236.9

申请日：2019-05-06

申请人： 中国科学院信息工程研究所

发明人： 吴广君 , 王树鹏 , 侯骏腾 , 李斌斌

IPC分类号： G06T1/20 , G06T1/60

摘要： 本发明提出一种基于多GPU的强连通图检测方法，包括以下步骤：加载图数据并统一存储格式；对图数据进行预处理，包括按照分区个数进行图分割并进行分区保存，对相互链接的处于不同分区的顶点进行复制顶点处理；将预处理好的数据存入多个GPU中，以复制顶点为中心进行广度优先遍历并记录复制边信息；将复制边传回CPU，检测强连通图并标记属于同一个强连通图的顶点；将标记的顶点传回上述多个GPU中，进行强连通图检测。

6.

发明公开
一种基于特征同构共享描述的多源异构离群点检测方法失效

公开(公告)号：CN109993198A

公开(公告)日：2019-07-09

申请号：CN201811600061.6

申请日：2018-12-26

申请人： 中国科学院信息工程研究所

发明人： 张磊 , 王树鹏 , 吴广君

IPC分类号： G06K9/62

摘要： 本发明提出了一种基于特征同构共享描述的多源异构离群点检测方法，通过在特征同构空间中统一地检测来自异构数据集的离群点，以避免浪费不同来源之间的互补信息，并提高多源离群点的识别率，能够解决在一个一致的特征同构空间中识别所有类型的多源异构离群点的问题。

7.

发明公开
基于Spark框架的分布式概要数据结构的构建方法及查询方法有权

公开(公告)号：CN108388603A

公开(公告)日：2018-08-10

申请号：CN201810113980.4

申请日：2018-02-05

申请人： 中国科学院信息工程研究所

发明人： 吴广君 , 党向磊 , 王树鹏 , 杨怡欣 , 赵百强

IPC分类号： G06F17/30

摘要： 本发明提供一种基于Spark框架的分布式概要数据结构的构建方法及查询方法，以Spark平台为基础，利用q-digest结构获得数据区间分布情况，BloomFilter获取组员存在信息，HyperLogLogPlus记录数据基数信息，实现高吞吐低延迟的处理能力，且能够快速响应查询要求，有效适应Spark分布式计算环境，返回误差可控的近似计算结果。本发明还提供一种基于Spark框架的分布式概要数据结构的构建及查询系统。

8.

发明公开
一种基于非确定主动学习的多分类器训练方法及分类方法有权

公开(公告)号：CN104657744A

公开(公告)日：2015-05-27

申请号：CN201510046879.8

申请日：2015-01-29

申请人： 中国科学院信息工程研究所

发明人： 张晓宇 , 王树鹏 , 吴广君

IPC分类号： G06K9/62

CPC分类号： G06K9/6256 , G06K9/627

摘要： 本发明公开了一种基于非确定主动学习的多分类器训练方法及分类方法。本方法为：1)选取或初始化一多分类器；对未标注样本集中的每一样本，利用该多分类器计算该样本的总体信息量Info；所述总体信息量为：模型变更信息量与模型调优信息量之和；2)对该未标注样本集进行聚类，得到J个子类；3)从每个子类中选取总体信息量Info值最小的若干未标注样本；再从所选样本中选取K个样本进行标注后加入到已标注样本集L；4)将更新后的已标注集L作为训练数据重新训练该多分类器；5)迭代执行步骤1)～4)设定次数；然后利用最终得到的多分类器对未标注集进行分类。本发明实现样本信息量的综合评价，从而获得高效化、智能化的多分类器。

9.

发明公开
数据处理方法及装置失效

公开(公告)号：CN103218176A

公开(公告)日：2013-07-24

申请号：CN201310113197.5

申请日：2013-04-02

申请人： 中国科学院信息工程研究所

发明人： 王勇 , 王树鹏 , 张永铮 , 王曦 , 吴广君 , 李斌斌 , 安丰春

IPC分类号： G06F3/06 , G06F12/02

摘要： 本发明涉及一种数据处理方法及装置。其中，数据处理方法包括：创建共享内存环，所述共享内存环为存储待操作数据的环形结构空间；在对共享内存环中下一个操作目的单元进行操作前，将所述下一个操作目的单元的操作标志位设置为对应下一个操作的操作类型；判断所述下一个操作目的单元是否能够进行所述下一个操作；根据判断结果对所述下一个操作目的单元中的数据进行处理。本发明的数据处理方法及装置，设计了一种共享内存中的环形数据结构，结合生产者和消费者的数据协调规则和共享内存环覆写机制，基于原子位操作对环的控制标识位进行更新，提高了数据并行处理场景下共享资源的数据读写效率，减小数据同步的开销，从而解决了共享资源读写效率低、同步开销大的问题。

10.

发明授权
GPU上的基于边着色与信息更新率优化的置信传播方法有权

公开(公告)号：CN112257866B

公开(公告)日：2024-09-27

申请号：CN202010940904.8

申请日：2020-09-09

申请人： 中国科学院信息工程研究所

发明人： 侯骏腾 , 王树鹏 , 吴广君 , 张磊 , 孙嘉伟

IPC分类号： G06N5/04 , G06T1/20

摘要： 本发明公开了一种GPU上的基于边着色与信息更新率优化的置信传播方法。本方法针对在全局都有较高收敛速度的计算需求，直接使用信息残差大的边对信息残差小的边进行一次着色操作，则信息残差大的边会对与其相连的所有边进行着色，只更新这些信息残差大的边上的信息，降低了每次迭代置信传播的计算量，提升了置信传播算法在整个计算过程中的收敛速度。以及针对在算法稳定后有较高收敛度的计算需求，提出通过逐步降低未收敛信息的更新率，使得算法在整个计算过程中都保持较高的收敛速度，并且算法稳定时有较高的收敛度。本发明提升了置信传播方法整体的运行效率。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类