-
公开(公告)号:CN112101414A
公开(公告)日:2020-12-18
申请号:CN202010811145.5
申请日:2020-08-13
申请人: 北京理工大学 , 国家计算机网络与信息安全管理中心
摘要: 本发明涉及ICT供应链网络关键节点的识别和关键节点识别属性提取方法,属于计算机与信息科学技术领域。本发明首先结合ICT供应链的拓扑信息、商业信息进行关键节点识别;然后使用boruta算法分析待选属性的重要性,提取出影响关键节点的重要属性;再使用待选属性构建逻辑回归模型,得到对关键节点有显著影响属性;对于两种方法筛选得到关键属性,采用交集归类的方法进行属性融合,得到最终的关键属性。本发明使用两个不同方法对影响关键节点的属性进行选择,算法之间差异明显,避免单一方法带来的局限性,提高关键属性的泛化性。
-
公开(公告)号:CN112100235A
公开(公告)日:2020-12-18
申请号:CN202010811447.2
申请日:2020-08-13
申请人: 北京理工大学 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/2458 , G06F16/28 , G06F40/242 , G06Q30/08 , G06Q50/30
摘要: 本发明涉及一种基于公开数据源的供应关系画像方法,属于自然语言处理与机器学习领域。主要为了开展国内ICT供应链安全风险问题研究,支撑我国网络空间安全战略落地。本发明首先获取招投标网站公开数据源,针对获取的不同类型附件,编写对应处理脚本,提取附件文本信息;后对每条数据进行结构化,抽取多维属性信息;再使用ICT产品词典过滤,构建ICT领域招投标数据库;然后结合实体匹配技术,挖掘多层级供应关系;最后进行供应链归并聚合,建立招标、产品、中标供应关系画像。该方法在建立的ICT招投标数据库的基础上,构建多个行业、多种产品的供应链关系画像,ICT相关采购数据覆盖率达98%,ICT供应链信息准确率达96%。
-
公开(公告)号:CN112101416A
公开(公告)日:2020-12-18
申请号:CN202010815352.8
申请日:2020-08-13
申请人: 北京理工大学 , 国家计算机网络与信息安全管理中心
摘要: 本发明涉及一种ICT供应链节点安全风险评级关键属性提取方法,属于属于ICT供应链安全技术领域。本发明首先使用boruta算法分析待选属性的重要性,提取出影响研究目标的重要属性;然后使用待选属性构建stacking模型,得到对研究目标有显著影响的属性;对于两种方法筛选得到属性,结合专家意见,采用交集归类的方法进行属性融合,得到最终的关键属性。本发明使用两个不同方法对影响研究目标的属性进行选择,算法之间差异明显,避免单一方法带来的局限性,提高关键属性的泛化性。
-
公开(公告)号:CN117633233A
公开(公告)日:2024-03-01
申请号:CN202311669996.0
申请日:2023-12-07
申请人: 北京理工大学
IPC分类号: G06F16/35 , G06F18/213 , G06F18/2415 , G06F18/25 , G06Q50/00 , G06N3/042 , G06N3/045 , G06N3/0464
摘要: 本发明涉及利用双曲图网络的时序观点挖掘方法,属于自然语言处理与机器学习领域。本发明首先基于推文数据集生成社交关系图,利用指数映射将社交关系图嵌入双曲空间,通过双曲图卷积提取其结构特征;然后利用交叉注意力机制计算推文内容与推文时间的相关性,再结合时间注意力机制拟合早期推文对当前观点的影响权重,得到推文时序特征;最后拼接结构特征与时序特征得到推文的最终表示,输入分类器预测观点类别。本发明针对现有社交网络的观点挖掘方法未充分利用热门推文与相关推文间关系、难以准确建模早期推文对当前观点影响的问题,提出利用双曲图网络的时序观点挖掘方法,提升观点挖掘的准确率。
-
公开(公告)号:CN116204193A
公开(公告)日:2023-06-02
申请号:CN202310123840.6
申请日:2023-02-16
申请人: 北京理工大学
IPC分类号: G06F8/41 , G06F18/2415 , G06F18/214 , G06F18/21 , G06N3/04 , G06N3/08
摘要: 本发明涉及强化指令执行语义的二进制函数相似性检测方法,属于网络安全技术领域。本发明首先通过IDA获取二进制函数的汇编代码基本块;其次利用Word2vec提取基本块的指令特征,同时根据执行语义表对基本块中的特定指令进行标注,并按照执行顺序生成指令执行语义表示序列;然后将指令特征及指令执行语义表示融合生成基本块嵌入,再基于基本块嵌入利用图嵌入网络生成二进制函数嵌入;最后利用孪生网络进行二进制函数相似性检测。本发明针对现有基本块嵌入生成方法未充分利用指令执行语义的问题,提出了一种基本块指令执行语义表示方法,强化指令执行语义特征,提升二进制函数相似性检测的准确率。
-
公开(公告)号:CN112199613B
公开(公告)日:2023-03-03
申请号:CN202011099728.6
申请日:2020-10-13
申请人: 北京理工大学
IPC分类号: G06F16/955 , G06F16/951 , G06F40/14 , G06F16/35
摘要: 本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法,属于计算机与信息科学技术领域。本发明首先将网站转成DOM解析树结构,获取DOM解析树下各节点的文本属性并给节点添加标签属性;然后通过递归遍历DOM标签树,构建出节点带有产品标签属性的树形图,将树形图转换为包含DOM解析树拓扑结构的节点向量集w;并通过doc2vec将各节点下的文本属性转换成文本向量h;最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性,训练节点分类模型,完成URL自动定位。本发明融合DOM拓扑、文本属性,在现有方法的基础上自动学习页面的提取规则,提高方法的自适应能力,有效的解决了现有方法鲁棒性差、准确率低、工作量大的缺点,具有较高的实用价值和社会价值。
-
公开(公告)号:CN115048527A
公开(公告)日:2022-09-13
申请号:CN202210537384.5
申请日:2022-05-17
申请人: 北京理工大学
IPC分类号: G06F16/36 , G06F16/901 , G06F40/295
摘要: 本发明涉及融合动态知识和事理逻辑的列车故障分析决策方法,属于自然语言处理和机器学习领域,本发明首先提取列车故障现象描述文本中的故障事件,融合时序动态知识和事理逻辑关系构建知识图谱;然后利用结合多头注意力机制的图转换网络对知识图谱进行编码,生成知识图谱的优先级向量表示;最后用一个结合注意力机制的解码器,根据编码结果从提前构建的解决方案词表中选取关键操作序列形成解决方案。由于本发明增加了对故障事件时序动态知识和事理逻辑关系的建模,提升了针对故障现象所分析生成解决方案的有效性和准确性。
-
公开(公告)号:CN113222775B
公开(公告)日:2022-08-05
申请号:CN202110607064.8
申请日:2021-05-28
申请人: 北京理工大学
摘要: 本发明涉及融合多模态信息及权重张量的用户身份关联方法,属于机器学习领域。主要为了解决目前用户身份关联方法中使用的用户信息单一,忽略其他模态信息和需要大量的标注数据的问题。本发明收集用户多模态特征信息并进行预处理,构建社交网络用户数据集;然后,使用规则匹配方法获得初始用户匹配矩阵和候选集过滤器;最后通过Transformer编码器和改进的基于权重张量分解的张量融合方法得到用户多模态特征的联合嵌入,使用Triplet Network结构迭代更新Transformer编码器权值,根据两个用户的联合嵌入表示相似性和设定的阈值判断两个用户是否匹配,输出最终用户匹配矩阵。
-
公开(公告)号:CN108446275A
公开(公告)日:2018-08-24
申请号:CN201810234144.1
申请日:2018-03-21
申请人: 北京理工大学
摘要: 本发明涉及基于注意力双层LSTM的长文本情感倾向性分析方法,属于自然语言处理与机器学习领域。主要为了解决长文本评论篇幅长,正负情感特征离散分布且每个句子的情感语义贡献度不同,导致难以准确判断全文情感倾向的问题。本发明首先利用LSTM学习句子级情感向量表示;然后采用双向LSTM对文档中所有句子的情感语义及句子间的语义关系进行编码,并基于注意力机制对具有不同情感语义贡献度的句子进行权值分配;最后,加权句子级情感向量表示得到长文本的文档级情感向量表示,经过Softmax层得到长文本情感倾向。在Yelp2015和IMDb电影评论语料上实验,结果表明本发明能达到较好的分类效果,进一步提升了情感分类的正确率。
-
公开(公告)号:CN106484675A
公开(公告)日:2017-03-08
申请号:CN201610866186.8
申请日:2016-09-29
申请人: 北京理工大学
IPC分类号: G06F17/27
CPC分类号: G06F17/2785 , G06F17/271
摘要: 本发明涉及一种融合分布式语义和句义特征的人物关系抽取方法,属于自然语言处理领域。本发明首先利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典,然后通过元素距离最优化规则构造语句的三元组实例,融合分布式语义信息及语义信息构造三元组特征空间,最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别。本发明实现了特征关系词典的自动生成,将传统的关系多分类问题转化为三元组是非二元判定问题,更加适应传统的机器学习分类算法,且利用分布式语义信息,提升了关系分类的准确率。
-
-
-
-
-
-
-
-
-