-
公开(公告)号:CN111753827A
公开(公告)日:2020-10-09
申请号:CN202010416704.2
申请日:2020-05-15
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于语义强化编码器解码器框架的场景文字识别方法及系统,将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;根据序列信息预测全局语义信息;利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。
-
公开(公告)号:CN110569499A
公开(公告)日:2019-12-13
申请号:CN201910648554.5
申请日:2019-07-18
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于多模态词向量的生成式对话系统编码方法及编码器。本方法为:1)根据当前语料与单词的上下文语境训练多模态词向量,其中每个单词生成多个词向量;2)使用双向LSTM神经网络与词向量对问句进行编码,然后将每个单词对应的前向神经网络的隐层状态与后向神经网络的隐层状态进行拼接作为该单词的上下文表示;3)将该单词的上下文表示与该单词的每一词向量分别计算相关度得分,取得分最高的词向量作为该单词的词向量;4)使用LSTM与该问句的各单词词向量对该问句进行编码,得到该问句的分布表示;5)对该问句的分布进行随机采样得到该问句的编码。本发明提高了句子编码的精准性。
-
公开(公告)号:CN110245285A
公开(公告)日:2019-09-17
申请号:CN201910357967.8
申请日:2019-04-30
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535 , G06N3/04
Abstract: 本发明公开了一种基于异构信息网络的个性化推荐方法,本方法通过基于注意力的特征增强模块对不同元图上用户和物品潜在特征的重要性进行学习,降低了无用的潜在特征对评分预测所带来的干扰,增强了有用潜在特征对评分预测的贡献力;同时利用基于分层次特征交互的评分预测模块对特征间的不同相互关系进行学习,不但考虑用户和物品各自加权潜在特征之间的内在联系,而且考虑用户或物品与其加权潜在特征之间的相关性;然后通过用户和物品间特征的融合,使得各特征间的二阶线性交互关系得到了充分挖掘。本发明通过多层感知机和因子分解机的使用,使得各特征间的高阶非线性交互关系得到了全面利用和高效组合,大大提高了推荐系统的性能。
-
公开(公告)号:CN110175248A
公开(公告)日:2019-08-27
申请号:CN201910270855.9
申请日:2019-04-04
Applicant: 中国科学院信息工程研究所
IPC: G06F16/51 , G06F16/55 , G06F16/583 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于深度学习和哈希编码的人脸图像检索方法和装置。该方法针对现有的人脸图像检索中人脸特征表达不充分、特征区分力不够的问题,提出人脸空间网络和人脸空间损失来自动地挖掘人脸图像中有区分力的人脸区域,降低背景信息的影响;同时哈希网络学习人脸特征和哈希码之间的内在关系,将人脸图像映射成哈希码,显著地降低检索的计算和存储代价;哈希网络中多尺度的人脸特征通道增强模块增强了人脸特征中区分力强的维度。本发明提供的交替训练的策略使得两个网络有机的融合在一起,减少了人脸特征提取和哈希码生成之间的信息损失,在增强了人脸特征的区分力的同时,增强了生成的哈希码的区分力,提高人脸检索的准确度。
-
公开(公告)号:CN105487820B
公开(公告)日:2018-11-16
申请号:CN201510859463.8
申请日:2015-11-30
Applicant: 中国科学院信息工程研究所
IPC: G06F3/06
Abstract: 本发明公开了一种基于时间片轮转机制的树状存储结构写放大优化方法。本方法为:1)选取磁盘空间中一待合并的组件,赋予其占用时间片的权限;其中,磁盘空间为多组件的树状存储结构;2)根据所选组件当前数据量的大小,动态调整时间片的阈值大小;3)所选组件在占用时间片的过程中连续进行若干次合并操作。本发明对拥有时间片的组件具有最高的合并选择优先级,不能进行合并操作的组件将自动放弃时间片,避免不必要的长期占用,导致系统资源空闲,可以将LSM‑Tree的整体写吞吐量提升40%以上。
-
公开(公告)号:CN105677255B
公开(公告)日:2018-10-30
申请号:CN201610011762.0
申请日:2016-01-08
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种磁盘阵列日志数据旋转分布和同步方法,其步骤包括:1)将磁盘分为若干主磁盘以及对应的若干镜像磁盘,仅将某一个镜像磁盘作为值日日志磁盘,其处于活动状态,其他镜像磁盘处于待机状态;2)将写请求的数据同时写到主磁盘与值日日志磁盘,当值日日志磁盘的剩余可用空间小于预定义的阈值时,将下一个镜像磁盘作为值日日志磁盘,该下一个镜像磁盘从待机状态切换到活动状态。进一步可对上一次值日日志磁盘中与其对应主磁盘中不一致的数据进行同步操作,并将旧的日志空间回收,形成无限循环的逻辑日志空间资源池。本发明以牺牲一小部分能耗为代价,利用分散式延迟同步方法,能够有效提高系统的整体性能。
-
公开(公告)号:CN104572828B
公开(公告)日:2018-01-19
申请号:CN201410743826.7
申请日:2014-12-08
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种基于空间位图模型的辅助索引方法及系统,包括以下步骤:获取日志文件、文件编号及其中的关键字;选择任一关键字作为当前关键字;对当前关键字做检测;在重新申请的索引空间中插入当前的文件编号;判断当前关键字的索引空间中实际有效文件范围是否小于索引空间的预定临界值;保存有效文件范围内的所有索引信息;利用顺序后移指针记录插入位置及偏移量的信息;将临时有效文件范围指针与顺序后移指针整合成新的索引空间的信息;判断整合后的索引空间的信息里是否出现了三个关于偏移量的单增区间;结束处理。本发明能够节省内存空间,在置位率较低或者插入位置较靠近最大更新位置时效率较高,并且能够进行空间动态调整。
-
公开(公告)号:CN107229670A
公开(公告)日:2017-10-03
申请号:CN201710229253.X
申请日:2017-04-10
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了基于Avro的通用数据序列化及反序列化方法。该方法使用统一的数据格式,从而保证不同表的数据均可用这种方式进行存储,降低不同表的数据与系统之间的耦合度;支持数据的打包存储,可以提供数据的批量传输,大大的提高了传输效率,此外,本发明使用Avro技术对数据进行校验,避免生成错误数据。
-
公开(公告)号:CN106909623A
公开(公告)日:2017-06-30
申请号:CN201710043645.7
申请日:2017-01-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了一种支持高效海量数据分析和检索的数据装置及数据存储方法。本装置包括若干文件夹,在每一文件夹中包含多个索引分段;每一索引分段包括一全文索引组件、一数据定位模块和一数据存储模块;全文索引组件用于存储索引分段中的记录的倒排索引信息;数据存储模块,包含多个横向分块,每个横向分块包含多个列分片,每个列分片包含多个用于存储数据记录的数据页;数据定位模块,提供针对数据存储模块的嵌套索引结构,每个横向分块索引存储了横向分块记录起始Id、横向分块位置、各列分片的位置以及列分片索引集合;每个列分片索引记录了列分片中数据页起始位置和数据页索引集合;每个数据页索引记录了数据页所在文件位置和页记录起始Id。
-
公开(公告)号:CN106372105A
公开(公告)日:2017-02-01
申请号:CN201610694772.9
申请日:2016-08-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F16/334 , G06F16/313
Abstract: 本发明涉及一种基于Spark平台的微博数据预处理方法。该方法包括:1)采集微博数据;2)基于Spark平台对采集的微博数据进行去噪处理,并将去噪处理后的微博数据缓存在分布式内存中;3)基于Spark平台对去噪处理后的微博数据进行去重处理,在去重处理中将海明距离小于设定的阈值的文本判定为近似文本。本发明采用Spark平台做为存储及运算的基础,采用内存缓存来提高读写速度,计算节点由Spark平台调度,完成分布式计算,能够实现更准确、高效的去噪、去重功能。
-
-
-
-
-
-
-
-
-