-
公开(公告)号:CN109871870A
公开(公告)日:2019-06-11
申请号:CN201910035916.3
申请日:2019-01-15
Applicant: 中国科学院信息工程研究所
IPC: G06K9/62
Abstract: 本发明提供一种大数据流中的基于最近邻的时间敏感性异常检测方法,属于大数据流、异常检测技术领域,核心是一个以LSH抽样视图为基础的统计估计器,滑动窗口使用确定波模型,将估计确定波窗口内多个随机时间区间的计数和方差以监测数据在不同时间区间的分布,能够快速寻找大数据流中的各数据的邻居,降低计算开销,无需单独为每个数据保存其邻居信息,节省空间占用,提高更新效率,基于时间敏感性能够快速判断数据分布是否异常以及异常发生的时间范围。
-
公开(公告)号:CN118069891B
公开(公告)日:2025-05-13
申请号:CN202410261182.1
申请日:2024-03-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901 , G06F16/907 , G06F16/903 , G06F16/22
Abstract: 本发明涉及一种基于滑动窗口的LSM数据合并排序方法和装置。本发明提出的方法首先构建面向合并操作中处于低层级的排序字符串表的滑动窗口,依据滑动窗口选定参与合并操作的低层级排序字符串表,同时获取滑动窗口左右最近的两个排序字符串表,并获取其键控范围,然后在处于高层级的排序字符串表中选择与低层级排序字符串表键控范围存在交集的排序字符串表并获取其键控范围,通过预估合并后排序字符串表的键控范围,并与滑动窗口左右最近的两个排序字符串表键控范围作比较,判定是否进行合并排序操作。本发明减少了处于高层级的排序字符串表反复参与低层级排序字符串表合并过程的次数,加快了合并排序速率,提升了系统读写性能。
-
公开(公告)号:CN118132710A
公开(公告)日:2024-06-04
申请号:CN202410273102.4
申请日:2024-03-11
Applicant: 中国科学院信息工程研究所
IPC: G06F16/332 , G06F40/30 , G06F18/213
Abstract: 本发明提出了一种基于多尺度滑动窗口与动态聚合的对话级情感分析方法,涉及自然语言处理领域。本方法首先对评论对话构造对话树,通过滑动窗口构造多尺度话语窗口;然后利用预训练语言模型编码多尺度话语窗口;再基于对话情感预测模型根据编码的多尺度话语窗口特征表示进行预测,生成多尺度话语窗口预测结果并进行动态聚合;利用多任务学习,构造窗口级、线程级和对话级损失函数,训练优化对话情感预测模型。本方法在无需设计复杂网络的情况下提高在由多轮对话情感分析的预测效果。
-
公开(公告)号:CN109871870B
公开(公告)日:2021-05-25
申请号:CN201910035916.3
申请日:2019-01-15
Applicant: 中国科学院信息工程研究所
IPC: G06K9/62
Abstract: 本发明提供一种大数据流中的基于最近邻的时间敏感性异常检测方法,属于大数据流、异常检测技术领域,核心是一个以LSH抽样视图为基础的统计估计器,滑动窗口使用确定波模型,将估计确定波窗口内多个随机时间区间的计数和方差以监测数据在不同时间区间的分布,能够快速寻找大数据流中的各数据的邻居,降低计算开销,无需单独为每个数据保存其邻居信息,节省空间占用,提高更新效率,基于时间敏感性能够快速判断数据分布是否异常以及异常发生的时间范围。
-
公开(公告)号:CN111754383A
公开(公告)日:2020-10-09
申请号:CN202010403115.0
申请日:2020-05-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于GPU加速的优化线程调度与分区的强连通图检测方法,为使用异构系统进行强连通图检测的方法,通过将每个warp分成多个虚拟warp并分配多个顶点任务、使用着色分区替换传统的WCC分区等方法平衡了线程分配、增加了每次迭代产生的强连通图数目,从而达到提升算法运行效率的目的。
-
公开(公告)号:CN110287150A
公开(公告)日:2019-09-27
申请号:CN201910405408.X
申请日:2019-05-16
Applicant: 中国科学院信息工程研究所
IPC: G06F16/13 , G06F16/16 , G06F16/182
Abstract: 本发明公开了一种大规模存储系统元数据分布式管理方法与系统。本发明将HDFS存储于NameNode内存中的元数据抽象成二维表的结构,以二维表的形式存储在分布式数据库中;抽象后的各二维表之间通过inode_id相互关联。Namenode成为客户端存取元数据的桥梁,客户端首先连接Namenode,Namenode来操作分布式数据库中的元数据,并将元数据返回给客户端。本发明解决了HDFS的单点故障问题。
-
公开(公告)号:CN118051643B
公开(公告)日:2024-11-05
申请号:CN202410203154.4
申请日:2024-02-23
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901 , G06F16/906 , G06F16/907 , G06F16/903 , G06F16/22
Abstract: 本发明公开了一种面向元数据稀疏分布的LSM数据组织方法及装置。本发明使用动态分区组织排序字符串表,具体先对键值对数据的键名进行聚类分析得到键名群组,然后修剪键名群组形成键值对分区,将键值对数据刷写进对应的键值对分区内形成排序字符串表,各键值对分区独立进行合并排序操作,从而有效限制了元数据稀疏分布的排序字符串表的形成,进而大大减少参与合并排序过程的高层级排序字符串表数量,减少高层级排序字符串表反复参与合并排序操作的次数,检索键值对数据时,键值对分区进一步加快定位键值对数据,从而实现系统读写性能的提升。
-
公开(公告)号:CN118069891A
公开(公告)日:2024-05-24
申请号:CN202410261182.1
申请日:2024-03-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901 , G06F16/907 , G06F16/903 , G06F16/22
Abstract: 本发明涉及一种基于滑动窗口的LSM数据合并排序方法和装置。本发明提出的方法首先构建面向合并操作中处于低层级的排序字符串表的滑动窗口,依据滑动窗口选定参与合并操作的低层级排序字符串表,同时获取滑动窗口左右最近的两个排序字符串表,并获取其键控范围,然后在处于高层级的排序字符串表中选择与低层级排序字符串表键控范围存在交集的排序字符串表并获取其键控范围,通过预估合并后排序字符串表的键控范围,并与滑动窗口左右最近的两个排序字符串表键控范围作比较,判定是否进行合并排序操作。本发明减少了处于高层级的排序字符串表反复参与低层级排序字符串表合并过程的次数,加快了合并排序速率,提升了系统读写性能。
-
公开(公告)号:CN113271220B
公开(公告)日:2022-10-14
申请号:CN202110340162.X
申请日:2021-03-30
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: H04L41/04 , H04L41/069 , H04L41/0823 , H04L41/14 , H04L41/22 , H04L67/06 , H04L67/1097 , H04L67/30 , H04L9/40
Abstract: 本发明涉及一种基于配置文件和日志文件的跨组件数据流向审计方法和系统。该方法的步骤包括:采集大数据平台中各个组件的配置文件和日志文件;根据采集的配置文件和日志文件,识别分布式环境下部署在不同物理服务器上的大数据组件;根据识别出的大数据组件并结合日志文件中的信息,构建跨组件的数据流向图;根据数据流向图进行数据流向的异常判定及告警。本发明通过采集各个组件的配置文件、运行日志文件、审计日志文件实现交叉验证,实现高精度的组件识别,结合凝练的安全审计模型,实现大数据平台整体数据流转情况的采集,进而支持业务流程中不同环节的数据使用情况审计,并能够对异常任务、异常数据使用场景进行识别和告警。
-
公开(公告)号:CN112241365B
公开(公告)日:2022-09-30
申请号:CN202010722288.9
申请日:2020-07-24
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F11/36 , G06F16/182 , G06F9/54
Abstract: 本发明涉及一种面向Namenode的高效元数据构建和RPC性能提升的方法和装置。该方法通过性能测试工具中的创建文件功能构造文件对象,通过在内存中虚拟出的仅有基本结构的Datanode节点构造文件块对象,由文件对象和文件块对象构成Namenode内存元数据;基于构建的元数据,构造与生产环境相符的Namenode负载状态,并进行Namenode内部扩展和集群扩展,实现RPC性能优化。本发明能够高速构建Namenode元数据,为快速搭建接近生产环境的测试集群提供了帮助,全局锁的拆分能够提升RPC性能,多个Namenode协作管理集群且同时对外提供服务,提供了更高的读写吞吐量。
-
-
-
-
-
-
-
-
-