-
公开(公告)号:CN115858798A
公开(公告)日:2023-03-28
申请号:CN202210651618.9
申请日:2022-06-09
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC分类号: G06F16/36 , G06F40/295 , G06F40/30
摘要: 本发明涉及一种面向维基百科文本数据的事理图谱构建方法和系统,属于文本数据挖掘领域。该方法包括以下步骤:获取维基百科的数据并将其解析为纯文本的形式;使用语义角色标注技术抽取维基百科数据中的事件简介;使用命名实体识别技术对维基百科数据的事件中的人物、地点、机构进行抽取;使用正则表达式匹配技术对维基百科数据的事件中的时间进行抽取;将抽取的事件简介、人物、地点、机构和时间构造为事理图谱。本发明实现了从数据获取、事件抽取、事件论元抽取到图谱构建的相关技术流程,能够帮助研究和分析事件的基本信息和演化过程。
-
公开(公告)号:CN118821774A
公开(公告)日:2024-10-22
申请号:CN202410768549.9
申请日:2024-06-14
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F40/295 , G06N3/0442 , G06N3/0455 , G06N3/08
摘要: 本发明公开一种基于序列转化的命名实体识别方法及系统,属于信息抽取领域。所述方法包括:利用双向长短记忆神经网络解码自然文本,得到第t个时间步的隐藏向量ht;利用单向长短记忆网络对所述隐藏向量ht进行解码,得到第j个时间步的解码结果sj;基于第j‑1个时间步的解码结果sj‑1生成第j个时间步的标签概率分布矩阵Pj;获取条件随机场生成的标签转移概率矩阵Aj;基于所有时间步j上的标签概率分布矩阵Pj和标签转移概率矩阵Aj,得到自然文本对应的命名实体识别结果。本发明可以利用过去和未来的标签来高精度地预测当前标签。
-
公开(公告)号:CN118821782A
公开(公告)日:2024-10-22
申请号:CN202410768553.5
申请日:2024-06-14
申请人: 国家计算机网络与信息安全管理中心
摘要: 本发明公开了一种多粒度相似性增强的篇章级事件论元抽取方法及系统,属于文本信息抽取领域。本发明首先将文档输入预训练语言模型编码,得到高维度嵌入表示;然后构建包含句子和段落节点的异构图,通过图神经网络融合全局语义信息;最后,通过对比学习和排序损失增强段落和句子粒度的相似性。本发明解决了远距离事件论元抽取的难题,并有效缓解了噪音实体对抽取结果的干扰,提高了抽取的准确性和鲁棒性。
-
公开(公告)号:CN116680419B
公开(公告)日:2023-12-26
申请号:CN202310955604.0
申请日:2023-08-01
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/36 , G06F40/216 , G06F40/30 , G06F40/295
摘要: 本发明涉及自然语言处理技术领域,提供一种多源数据映射关联细粒度不良信息检测方法,所述方法包括:获取待检测文本和历史浏览文本,待检测文本和历史浏览文本属于同一用户的浏览文本;对待检测文本进行实体关系抽取,得到待检测三元组;获取历史浏览文本中的不良信息所对应的历史三元组,并基于历史三元组与待检测三元组之间的关联度,从待检测三元组中确定出待检测文本中的不良信息所对应的三元组。本发明提供的一种多源数据映射关联细粒度不良信息检测方法,能够准确从待检测三元组中确定出待检测文本中的不良信息所对应的三元组,避免传统方法中分词演变绕过黑名单机制导致漏检的问题,进一步提高的不良信息的检测精度。
-
公开(公告)号:CN117371423A
公开(公告)日:2024-01-09
申请号:CN202311076561.5
申请日:2023-08-24
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F40/20 , G06N3/0442 , G06N3/09
摘要: 本发明公开了一种不平衡条件下的文本分类器生成方法和装置,所述方法包括:获取不平衡数据,基于所述不平衡数据构建训练集;生成特征向量,将特征向量作为输入数据;将输入数据输入分类网络,分类网络包括依次相连的卷积层、池化层、LSTM层、GRU层、全连接层;输入数据经所述分类网络处理,得到中间分类结果,所述中间分类结果是未经完全训练,但是已有分类效果的结果;将中间分类结果与真实标签输入损失函数,得到中间结果对应的损失值,若损失值小于预定义的损失值,则当前的分类网络结合当前的权重作为构建完毕的分类器。本方法能在训练过程中减少分对样本的损失在总的损失中的权重,使得分类器的优化更偏向分错的样本。
-
公开(公告)号:CN117194773A
公开(公告)日:2023-12-08
申请号:CN202311061729.5
申请日:2023-08-22
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/9535 , G06F16/9538 , G06F16/35 , G06F16/532
摘要: 本发明公开了一种基于多模态特征的网站识别方法及装置,所述方法包括:获取处理后的网页信息;得到对应的网页文本特征;获取网页用户特征;获取网页资源信息特征;获取所述网页信息对应的网页图片快照,由网页图片处理模块对所述网页图片快照提取网页图片特征;将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合,得到多模态融合特征,由多模态识别模型对所述多模态融合特征进行识别。本方法利用多模态识别模型对网站进行分类,有效提高了对不良网站识别的准确率。
-
公开(公告)号:CN115809368A
公开(公告)日:2023-03-17
申请号:CN202211660700.4
申请日:2022-12-22
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/9535 , G06F40/289 , G06F40/30 , G06F16/35 , G06N3/0442 , G06N3/0464 , G06N3/045 , G06N3/048 , G06N3/047 , G06N3/08
摘要: 本发明涉及侦测搜索技术领域,具体公开了一种基于HTML结构特征的端到端色情网站侦测方法,包括词嵌入层、Bi‑LSTM层、卷积层、Attention层,研究了搜索引擎的网站排名机制和HTML的标签结构特征,通过提取HTML源代码中的meta标签作为文本数据集,构建了BiLSTM+TextCNN+Attention协同模型用于色情网站侦测。
-
公开(公告)号:CN113608946A
公开(公告)日:2021-11-05
申请号:CN202110910834.6
申请日:2021-08-10
申请人: 国家计算机网络与信息安全管理中心
摘要: 基于特征工程和表示学习的机器行为识别方法,由三个步骤构成:步骤一,对大数据进行分析,通过时间、频次等多维度的信息,建立3σ模型,用于确定机器行为的访问时间频段,在机器行为的访问时间频段下,通过分组聚合等方式,归纳总结提取出基于机器行为的特征;步骤二,并通过查阅API文档、软件模拟复现、官方的RFC文档等方式对行为进行定义和命名,整合成一组完备的机器行为特征,完成基于特征工程机器行为识别工作;步骤三,对识别效果不佳的模型加入与其他行为存在交集的特征,去排除其他行为,以提高准确率。
-
公开(公告)号:CN113608946B
公开(公告)日:2023-09-12
申请号:CN202110910834.6
申请日:2021-08-10
申请人: 国家计算机网络与信息安全管理中心
摘要: 基于特征工程和表示学习的机器行为识别方法,由三个步骤构成:步骤一,对大数据进行分析,通过时间、频次等多维度的信息,建立3σ模型,用于确定机器行为的访问时间频段,在机器行为的访问时间频段下,通过分组聚合等方式,归纳总结提取出基于机器行为的特征;步骤二,并通过查阅API文档、软件模拟复现、官方的RFC文档等方式对行为进行定义和命名,整合成一组完备的机器行为特征,完成基于特征工程机器行为识别工作;步骤三,对识别效果不佳的模型加入与其他行为存在交集的特征,去排除其他行为,以提高准确率。
-
公开(公告)号:CN116680419A
公开(公告)日:2023-09-01
申请号:CN202310955604.0
申请日:2023-08-01
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/36 , G06F40/216 , G06F40/30 , G06F40/295
摘要: 本发明涉及自然语言处理技术领域,提供一种多源数据映射关联细粒度不良信息检测方法,所述方法包括:获取待检测文本和历史浏览文本,待检测文本和历史浏览文本属于同一用户的浏览文本;对待检测文本进行实体关系抽取,得到待检测三元组;获取历史浏览文本中的不良信息所对应的历史三元组,并基于历史三元组与待检测三元组之间的关联度,从待检测三元组中确定出待检测文本中的不良信息所对应的三元组。本发明提供的一种多源数据映射关联细粒度不良信息检测方法,能够准确从待检测三元组中确定出待检测文本中的不良信息所对应的三元组,避免传统方法中分词演变绕过黑名单机制导致漏检的问题,进一步提高的不良信息的检测精度。
-
-
-
-
-
-
-
-
-