-
公开(公告)号:CN110929029A
公开(公告)日:2020-03-27
申请号:CN201911064089.7
申请日:2019-11-04
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于图卷积神经网络的文本分类方法及系统。本方法为:1)对于目标领域的文本训练集中的每一已类别标注文本,根据该文本中词的词频、逆文档率生成该文本的文本特征向量;将各文本特征向量组合生成一文本特征矩阵,即TF-IDF矩阵,并根据词的词向量相似度构建一该文本训练集的图结构;2)利用所述图结构及文本特征矩阵训练图卷积神经网络;3)对于该目标领域的一待分类文本a,将该文本a的文本特征向量输入训练后的图卷积神经网络,得到该文本a的类别。本发明不仅考虑到文本的语义结构信息,而且从另一个角度捕捉文本的隐藏特征,分类准确性高。
-
公开(公告)号:CN110704606A
公开(公告)日:2020-01-17
申请号:CN201910764261.3
申请日:2019-08-19
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于图文融合的生成式摘要生成方法,其步骤包括:1)将给定的文本数据集划分为训练集、验证集和测试集;其中,文本数据集中的每一样本是一三元组(X,I,Y),X是文本,I是文本X对应的图像,Y是文本X的摘要;2)对文本数据集的图像进行实体特征提取,并将提取的实体特征表示成与文本同维度的图像特征向量;3)使用训练集和训练集对应的图像特征向量对生成式摘要模型进行训练;4)输入一条文本和对应图像并生成该图像的图像特征向量,然后将该文本及其对应的图像特征向量输入到训练后的生成式摘要模型,得到该文本对应的摘要。本发明生成的摘要可以有效地调整文本中实体的权重,在一定程度缓解未登录词的问题。
-
公开(公告)号:CN110401451A
公开(公告)日:2019-11-01
申请号:CN201910505421.2
申请日:2019-06-12
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于字符集变换的自动机空间压缩方法,步骤包括:将模式串集构建成自动机,并生成状态转移矩阵;读取状态转移矩阵的各个状态行,计算最佳变换参数、最小有效后继状态和最大有效后继状态;根据状态转移矩阵和最佳变换参数,记录数据结构,将状态行替换为变换后的有效状态行;读取目标文本的字符,根据字符当前状态,利用双射函数进行字符变换,得到变换后的字符,符合条件下得到后继状态,实现压缩。本发明还提供一种基于字符集变换的自动机空间压缩系统,包括规则编译器、变换参数生成器、状态行变换器、比较器、压缩自动机存储器、状态寄存器、字符集变换器及文本扫描器。
-
公开(公告)号:CN110399261A
公开(公告)日:2019-11-01
申请号:CN201910508755.5
申请日:2019-06-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于共现图的系统告警聚类分析方法。本方法为:1)利用历史系统告警信息构建通用共现图;根据通用共现图中节点之间的距离将各系统告警信息聚为若干故障簇,并为每一故障簇设置一生命周期;2)对于一新产生的系统告警信息a,计算系统告警信息a与处于生命周期内的各个故障簇之间的距离;当系统告警信息a与一故障簇的距离小于设定阈值时,则将系统告警信息a加入到该故障簇中,否则为该系统告警信息a新建一个故障簇;3)在过去的一设定时间段内如果有新的系统告警信息纳入一故障簇,则维持该故障簇处于生命周期内,否则删除对应的故障簇。本发明能更准确得将有内在联系的系统告警聚到同一故障簇中。
-
公开(公告)号:CN104618348B
公开(公告)日:2019-10-22
申请号:CN201510014560.7
申请日:2015-01-12
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种对抗程序自动化批量非法行为的方法。该方法在客户端(用户)和服务器进行请求服务与提供服务的过程中,采用K速度不公平加解密算法进行加密和解密,使客户端进行加密计算的时间成本是服务器端进行解密计算的时间成本的K倍,其中K>1。具体地,可以采用基于Multi‑Prime RSA的K速度不公平加解密算法、基于RSA Time‑Lock的K速度不公平加解密算法等进行加密和解密。本发明可以有效地控制各种自动化非法请求,包括批量注册与登录、论坛灌水、垃圾邮件和刷票等行为,能够缓解和拒绝服务攻击,增强网络公平性,以及减小网站服务器压力。
-
公开(公告)号:CN109783696A
公开(公告)日:2019-05-21
申请号:CN201811466997.4
申请日:2018-12-03
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901 , G06F16/2458
Abstract: 本发明公开了一种面向弱结构相关性的多模式图索引构建方法及系统。本方法为:1)读取目标领域的模式图集合中的模式图并为每一模式图生成一模式图标志ID;2)构建模式图同构树:对各模式图进行两两判断,如果两个模式图之间存在子图同构关系,则添加一条从规模较小模式图指向规模较大模式图的有向边,得到模式图集合的模式图同构树;3)对模式图同构树进行频繁子图挖掘,找到公共模式图并将其加入到模式图同构树中;4)当模式图同构树中存在一子模式图具有多个父模式图时,则为该子模式图保留唯一的父模式图;5)计算模式图同构树的最小生成树,并对其进行深度优先遍历,得到模式图集的最优匹配顺序。本发明能够大大提高匹配效率。
-
公开(公告)号:CN109710754A
公开(公告)日:2019-05-03
申请号:CN201811338722.2
申请日:2018-11-12
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开一种基于深度结构学习的群体异常行为检测方法,属于计算机信息技术领域,本方法根据用户对商品的评价行为构建二部图,该图中的源节点代表用户账户,汇节点代表商品,有向边代表用户对商品的反馈记录;将源节点和汇节点同时嵌入到同一欧式空间中,得到所有节点的低维表示;对节点的低维表示进行聚类,得到的异常簇即为检测出的异常群体及其异常行为。利用深层次的网络拓扑结构信息,实现在不给定异常群体数量作为先验的条件时,完成多异常群体检测的任务,同时提高检测的准确性和扩展性。
-
公开(公告)号:CN108491414A
公开(公告)日:2018-09-04
申请号:CN201810111700.6
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种融合话题特征的新闻内容在线抽取方法,步骤包括:将新闻页面的html转化为DOM树,将所有文本节点按照先序遍历的顺序排列;对每一个文本节点的文本进行分词,去除停用词,获取关键词;基于所述关键词,生成局部最大相容类,获得整个页面产生的全部话题,计算每个话题权重特征;将包含所述权重特征的话题特征以及非内容特征量化成证据的形式,使用DS证据理论进行特征融合,获得文本节点是正文的概率;将所述概率进行平滑处理,使用Otsu算法计算使得类间方差最大的分割阈值,获得高特征值的文本节点并将其作为新闻正文。本发明还提供一种融合话题特征的新闻内容在线抽取系统。
-
公开(公告)号:CN107885797A
公开(公告)日:2018-04-06
申请号:CN201711023877.2
申请日:2017-10-27
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30277
Abstract: 本发明针对多模式图匹配问题,提出一种基于结构相关性的多模式图匹配方法,能够解决冗余计算问题,基于模式图结构相关性,在增加少量额外空间的前提下,提高了图模式匹配的整体性能。本发明主要是通过利用模式图之间的结构相关性,建立模式图之间的结构继承关系,将原本相互独立的模式图表示为一个整体数据结构,该数据结构保留了所有模式图需要匹配的非重复部分。同时重新规划了模式图匹配的顺序,使得在数据图中进行匹配时,可以避免多次匹配模式图中结构重复的部分,从而大大提升了图模式匹配的时间性能,达到加速计算的目的。
-
公开(公告)号:CN107515897A
公开(公告)日:2017-12-26
申请号:CN201710589808.1
申请日:2017-07-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F16/90344
Abstract: 本发明涉及一种串匹配场景下数据集生成方法、设备和可读存储介质。该方法包括以下步骤:1)独立地生成模式串的每个字符,形成预设规模和预设长度的随机模式串集合;2)根据已生成的随机模式串集合,构造指定命中水平的文本数据集;3)输出生成的随机模式串集合和文本数据集。该设备包括通过总线连接的接收器、处理器、存储器和发送器,所述存储器用于存储串匹配场景下数据集生成指令。本发明能够生成预设规模预设长度的随机模式串集合,根据已生成的随机模式串集合可以构造指定命中水平的文本数据集,该随机模式串集合和文本数据集能够用于串匹配算法的功能测试和性能测试,对串匹配算法的进一步研究和性能提升有重要的作用。
-
-
-
-
-
-
-
-
-