-
公开(公告)号:CN106909624A
公开(公告)日:2017-06-30
申请号:CN201710043943.6
申请日:2017-01-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了一种海量数据实时排序优化方法。本方法为:1)设置一集群级节点、若干节点级节点和若干文件级节点;2)集群级节点将收到的检索排序请求发送给各节点级节点,各节点级节点将该检索排序请求发送给本节点的文件级节点;3)各文件级节点根据该检索排序请求,将与本节点相关的日志文件排序后输出有序数据给节点级节点;4)各节点级节点根据该检索排序请求将本节点上符合时间范围和分区条件的日志数据排序后输出给该集群级节点;5)该集群级节点将各节点级节点发送过来的有序数据流进行排序汇总。在任意的排序场景中,本方法都能有效降低内存使用量。
-
公开(公告)号:CN104182522B
公开(公告)日:2017-04-19
申请号:CN201410425094.7
申请日:2014-08-26
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种基于循环位图模型的辅助索引方法及装置,包括以下步骤:从日志文件生产队列里获取当前的日志文件及其文件编号,为该日志文件中的所有关键字分别建立循环位图;判断文件编号是否在索引范围起始位与索引范围结束位之间;检查文件编号是否在索引范围起始位与有效索引范围终点之间;在日志文件的文件编号处执行置位操作;对有效索引范围终点与索引范围结束位之间做复位操作,在待置位的文件编号处执行置位操作,并将有效索引范围终点赋值为索引范围结束位;等待直到文件生产队列中生成新的日志文件,执行步骤1。本发明不随日志编号增加而扩展内存使用空间,能够在客户端和服务器实现,并针对客户端提出基于流水线的提速模型。
-
公开(公告)号:CN105487820A
公开(公告)日:2016-04-13
申请号:CN201510859463.8
申请日:2015-11-30
Applicant: 中国科学院信息工程研究所
IPC: G06F3/06
CPC classification number: G06F3/0634 , G06F3/0608 , G06F3/0613
Abstract: 本发明公开了一种基于时间片轮转机制的树状存储结构写放大优化方法。本方法为:1)选取磁盘空间中一待合并的组件,赋予其占用时间片的权限;其中,磁盘空间为多组件的树状存储结构;2)根据所选组件当前数据量的大小,动态调整时间片的阈值大小;3)所选组件在占用时间片的过程中连续进行若干次合并操作。本发明对拥有时间片的组件具有最高的合并选择优先级,不能进行合并操作的组件将自动放弃时间片,避免不必要的长期占用,导致系统资源空闲,可以将LSM-Tree的整体写吞吐量提升40%以上。
-
公开(公告)号:CN104156505A
公开(公告)日:2014-11-19
申请号:CN201410350690.3
申请日:2014-07-22
Applicant: 中国科学院信息工程研究所
IPC: G06F17/50
Abstract: 本发明涉及一种基于用户行为分析的Hadoop集群作业调度方法及装置,包括以下步骤:收集Hadoop集群产生的日志文件,根据日志文件创建日志数据表,将日志数据表存储于数据库中,并定时将存储于数据库中的日志数据表转存到Hive集群中;根据存储于Hive集群中的日志数据表,得到每个资源组在任一时间区间内提交作业的作业数量及各资源组提交作业的作业类型;根据每个资源组提交作业的作业类型和作业数量,确定各资源组的最小资源占用限额;在资源组提交作业后,根据该资源组对应的最小资源占用限额调度大于等于最小资源占用限额的资源进行处理提交的作业。本发明能够为作业级的调度提供准确和真实的依据。
-
公开(公告)号:CN103218423A
公开(公告)日:2013-07-24
申请号:CN201310113295.9
申请日:2013-04-02
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种数据查询方法及装置。其中,数据查询方法包括:接收用户提供的查询条件,所述查询条件包括查询关键字、编辑距离阈值以及滑动窗口宽度;提取所述查询关键字的特征值,组成关键字特征索引;提取当前滑动窗口中基本窗口的特征值,组成滑动窗口的特征索引,所述滑动窗口包含设定数目的基本窗口,所述滑动窗口的特征索引为该滑动窗口中所有基本窗口的特征索引组成的队列;在达到预设的查询触发条件时,触发对当前滑动窗口的查询;根据所述关键字特征索引和编辑距离阈值,对当前滑动窗口的特征索引进行过滤,得到满足过滤下限的候选字符串集。本发明的数据查询方法及装置能有效弥补在数据流场景下进行关键字精确查询的不足,具备较好的查询容错能力。
-
公开(公告)号:CN119963674A
公开(公告)日:2025-05-09
申请号:CN202411955084.4
申请日:2024-12-27
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种定制化人物视频生成方法和装置,该方法包括:步骤1,基于具有先验知识的文本生成图像模型,结合以人物为中心的图像和视频数据,构建基础的姿态可控的人物视频生成模型;步骤2,通过参考视频中的姿态信息和文本描述构建训练数据集,微调所述人物视频生成模型的图像生成部分,学习参考人物的外观特征;步骤3,在已微调的所述人物视频生成模型基础上集成时序层,利用视频数据进行微调,增强所述人物视频生成模型对时间序列信息的建模能力,保持所述人物视频生成模型的先验知识;步骤4,输入自定义文本以及姿势图序列,利用微调后的所述人物视频生成模型,生成具有自定义场景和姿态的个性化视频。该方法克服了现有技术局限,降低计算资源开销,不仅提升了生成视频的个性化程度,还增强了对复杂场景和多样化姿态的生成能力,显著扩展了模型的应用范围与灵活性。
-
公开(公告)号:CN114220086B
公开(公告)日:2025-03-28
申请号:CN202111295077.2
申请日:2021-11-03
Applicant: 中国科学院信息工程研究所 , 中国传媒大学
IPC: G06V20/62 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/084 , G06N3/094 , G06N3/088
Abstract: 本发明公开一种成本高效的场景文字检测方法及系统,属于图像字体识别领域,本发明首先在预训练阶段提出一种无监督域适应方法,通过消除虚拟数据和真实数据的域差异,使虚拟数据在特征上更接近真实数据,从而获得一个较好的迁移学习初始模型;其次在微调阶段提出一个半监督主动学习方法,根据真实数据的标注信息量自适应选择数据进行标注,然后同时利用有标注和无标注的真实数据进行训练,在较小标注成本的条件下尽可能提升场景文字检测性能。
-
公开(公告)号:CN118799157A
公开(公告)日:2024-10-18
申请号:CN202410777309.5
申请日:2024-06-17
Applicant: 中国科学院信息工程研究所
IPC: G06Q50/50 , G06Q10/0635 , G06F18/241 , G06F18/214 , G06N3/09 , G06F18/2433
Abstract: 本发明公开一种基于流量分析的工业终端信任评估方法及系统,该方法包括:形成已标记数据集U0和未标记数据集V0;基于已标注数据集Ui进行模型训练,得到工业终端信任评估模型Mi;基于工业终端信任评估模型Mi评估未标注数据集Vi中数据样本的可信度,并将高可信度数据样本和经过人工标注的低可信度数据样本加入到已标记数据集Ui来形成已标记数据集Ui+1,基于未标注数据集Vi中的其他数据样本形成未标注数据集Vi+1;进行迭代训练后,得到训练后的工业终端信任评估模型;基于训练后的工业终端信任评估模型对无法使用现有终端信任评估组件的工业终端进行信任评估,得到风险评估结果。本发明可以对无法使用现有终端信任评估组件的工业终端进行信任评估。
-
公开(公告)号:CN118502644A
公开(公告)日:2024-08-16
申请号:CN202310110753.7
申请日:2023-02-14
Applicant: 中国科学院信息工程研究所
IPC: G06F3/06
Abstract: 本发明公开一种基于非易失存储器的LSM树的存储组织方法及键值存储系统,涉及计算机领域,通过在内存中建立非易失存储器的活跃区的索引;在非易失存储器中采用单层存储分区域的存储方式,将内存中的数据写入活跃区,写满后再转换为非活跃区,将内存中的索引持久化为非活跃区的索引文件;再将非活跃区的数据文件合并并存储在磁盘上。本发明利用非易失存储器的随机读写和可字节寻址等特性,对现有的LSM树存储引擎进行优化,改善原有结构的写放大和长时间写入后性能下降的问题,提高存储引擎的整体性能。
-
公开(公告)号:CN118447530A
公开(公告)日:2024-08-06
申请号:CN202410300121.1
申请日:2024-03-15
Applicant: 中国科学院信息工程研究所
IPC: G06V40/10 , G06V10/764 , G06V10/44 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开一种基于文本模态对齐的跨模态行人重识别方法及装置,属于人工智能技术领域。所述方法包括:训练一可学习向量来捕捉红外图像和可见光图像中与身份相关的模态共享信息;结合训练后的可学习向量获取每个行人ID的文本模态表示,并使用图像编码器提取红外图像和可见光图像中该行人ID的红外模态表示和可见光模态表示;基于所述文本模态表示、所述红外模态表示和所述可见光模态表示之间的彼此对齐来训练该图像编码器;基于训练后的图像编码器对目标红外图像或目标可见光图像中的行人进行编码,并通过对编码结果的分类,得到跨模态的行人重识别结果。本发明可以提升跨模态行人重识别模型的精度。
-
-
-
-
-
-
-
-
-