-
公开(公告)号:CN111159990A
公开(公告)日:2020-05-15
申请号:CN201911244936.8
申请日:2019-12-06
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F40/186 , G06F40/126 , G06F40/284 , G06F16/33 , G06F16/31
Abstract: 本发明提出一种基于模式拓展的通用特殊词识别方法及系统,提出了一种基于基础词的音形编码,常用汉字音节,常用汉字结构以及特殊字符映射节点来构建前缀树,通过比较字符编码相似度进行模糊匹配,完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取,某些任务的数据集的提取生成,给定文本数据集的预处理等场景中,比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注,也对文本数据中新词的发现和纠正提供了帮助。
-
公开(公告)号:CN111078876A
公开(公告)日:2020-04-28
申请号:CN201911229492.0
申请日:2019-12-04
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/35
Abstract: 本发明提出了一种基于多模型集成的短文本分类方法,包括:选取多个对短文本进行分类的分类模型;对训练样本进行采样,生成与该分类模型一一对应的训练集;通过对应的训练集对该分类模型进行训练,以获得对应的最终模型;通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。
-
公开(公告)号:CN111159990B
公开(公告)日:2022-09-30
申请号:CN201911244936.8
申请日:2019-12-06
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F40/186 , G06F40/126 , G06F40/284 , G06F16/33 , G06F16/31
Abstract: 本发明提出一种基于模式拓展的通用特殊词识别方法及系统,提出了一种基于基础词的音形编码,常用汉字音节,常用汉字结构以及特殊字符映射节点来构建前缀树,通过比较字符编码相似度进行模糊匹配,完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取,某些任务的数据集的提取生成,给定文本数据集的预处理等场景中,比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注,也对文本数据中新词的发现和纠正提供了帮助。
-
公开(公告)号:CN117312864A
公开(公告)日:2023-12-29
申请号:CN202311618449.X
申请日:2023-11-30
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/214 , G06F18/10 , G06F18/25 , G06F40/284 , G06N3/08 , G06N3/0455 , G06N3/0475
Abstract: 本发明提供一种基于多模态信息的变形词生成模型的训练方法及装置,涉及语言生成技术领域,方法包括:获取变形词语料库,变形词语料库包括的不同初始样本由多模态信息组成;对变形词语料库中不同初始样本的不同类型的语料信息,采用对应类型的预处理方式分别进行预处理,生成大规模语料库;大规模语料库中每个语料样本包括多个语料信息的权重及特征向量,不同的语料信息的权重用于表征不同的语料信息在对应样本中不同的贡献程度;基于大规模语料库中预设数量的语料样本包括的多个语料信息的权重及特征向量,对初始模型进行训练,得到基于多模态信息的变形词生成模型。本发明能够提高变形词生成的精度和准确率。
-
公开(公告)号:CN116383716A
公开(公告)日:2023-07-04
申请号:CN202310269511.2
申请日:2023-03-20
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F18/241 , G06F18/213 , H04L9/40 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种增加自注意力机制和加性角度最大化间隔层的加密流量网络行为识别方法和系统。该方法包括:对加密应用网络行为产生的流量进行预处理和嵌入表示;利用自注意力机制增强流量的嵌入表示的语义;构建加密应用行为流量识别模型,基于自注意力机制得到的结果,利用该模型提取流量的深度特征;在加密应用行为流量识别模型中设置加性角度最大化间隔层,用以最大化不同类别流量特征之间的间隔,增加不同类别向量之间的区分性;通过加密应用行为流量识别模型进行加密流量网络行为的识别。本发明能够解决现有技术在识别加密流量网络行为时未能有效表示流量特征并最大化不同网络行为产生流量特征向量之间的距离,从而导致误分率高的问题。
-
公开(公告)号:CN114817516A
公开(公告)日:2022-07-29
申请号:CN202210448769.4
申请日:2022-04-26
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/335 , G06F16/35 , G06F16/951 , G06F40/242 , G06F40/279 , G06F40/30 , G06N3/08
Abstract: 本发明涉及一种零样本条件下基于逆向匹配的画像映射方法,包括在数据特征标签和画像标签两个不同体系间建构双相关文本语料库,使用逆向匹配对语料库进行筛选修正;通过人工标注构建分类语料库,并训练模型建立画像体系间的映射关系;采用基于持续响应衰减的更新机制,并结合标签历史状态对时序变化的画像相关更新数据进行修正。本方法从扩展数据的角度出发,采用基于逆向匹配的文本库构建方法,引入与原始标签相关的外部文本数据扩展并增强标签的语义表达,再引入与用户画像相关的外部数据进行标注建立扩展标签和标注数据之间的联系,从而挖掘出原始特征标签隐含的丰富含义,达到从少量标签序列中计算目标画像的目的。
-
公开(公告)号:CN107135281A
公开(公告)日:2017-09-05
申请号:CN201710146433.1
申请日:2017-03-13
Applicant: 国家计算机网络与信息安全管理中心 , 北京信息科技大学
Abstract: 本发明实施例提供一种基于多数据源融合的IP地域类特征提取方法,包括:步骤1、基于现有的IP地址定位数据库,计算每一定位数据库的权威度;步骤2、基于现有的IP地址定位数据库,计算每一定位数据库中定位数据的完整度;步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度,确定定位数据的可信度;步骤4、根据定位数据的可信度,选取定位数据构建IP地域类特征知识库。
-
公开(公告)号:CN113704102B
公开(公告)日:2024-06-21
申请号:CN202110972799.0
申请日:2021-08-24
Applicant: 国家计算机网络与信息安全管理中心 , 恒安嘉新(北京)科技股份公司
Inventor: 郭立岩 , 孙旷怡 , 赵媛 , 段荣昌 , 王媛媛 , 王子涵 , 吕东 , 项菲 , 李鹏霄 , 翟羽佳 , 马宏远 , 鲁睿 , 王红兵 , 时磊 , 阿曼太 , 雷小创 , 庄越淋 , 周忠义 , 傅强 , 梁彧 , 田野 , 王杰 , 杨满智 , 蔡琳 , 金红
IPC: G06F11/36
Abstract: 本发明实施例公开了一种应用程序合规检测方法、装置、设备和介质。其中方法包括:获取待检测应用程序的隐私政策文本;依据隐私政策文本,对待检测应用程序进行合规检测。本发明实施例实现了对应用程序违法违规的自动化检测,从而提高对应用程序的合规检测效率。
-
公开(公告)号:CN117591119B
公开(公告)日:2024-05-31
申请号:CN202311441226.0
申请日:2023-11-01
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及软件检测技术领域,公开了一种海量APK源码特征提取及相似分析方法,首先输入两个APK文件,通过源码解析反编译方法提取到APK包的AndroidManifest文件、本地化语言配置文件,提取到SMALI或JAVA源代码;再通过包名索引、启动类索引、固定目录识别方式,识别APK核心源码目录、第三方包目录、系统资源目录,并生成源码树;再对核心源码目录中的文件进行分析,计算文件HASH,提取源码文件中字符串类声明特征表示作为加权特征;计算拟进行分析的两棵源码树结构的相似度情况,根据源码目录的类型对进行不同程度的相似度加权。本发明降低分析资源投入和时间消耗,提升源码相似分析的准确度,能够实现在大规模APK数据分析场景的高性能分析。
-
公开(公告)号:CN110674678A
公开(公告)日:2020-01-10
申请号:CN201910725061.7
申请日:2019-08-07
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种视频中敏感标志的识别方法及装置,所述方法包括:获取待审核视频,通过机器预识别系统对所述待审核视频进行敏感标志识别,输出所述待审核视频含有敏感标志的得分;判断所述得分是有大于或等于预定输出阈值,如果判断为是,则将所述待审核视频发送到人工审核窗口以进行人工确认本发明能够进一步提高视频审核工作的审核效率,从而构建更安全的网络环境。
-
-
-
-
-
-
-
-
-