-
公开(公告)号:CN111581956A
公开(公告)日:2020-08-25
申请号:CN202010269087.8
申请日:2020-04-08
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Inventor: 赵忠华 , 吴俊杰 , 赵志云 , 葛自发 , 孙小宁 , 张冰 , 王欣欣 , 李欣 , 袁钟怡 , 孙立远 , 付培国 , 王禄恒 , 左源 , 李丰志 , 李英汉 , 户中方
IPC: G06F40/279 , G06F40/216 , G06F40/242 , G06F40/126 , G06F16/335 , G06F16/35 , G06K9/62
Abstract: 本发明公开了一种基于BERT模型和K近邻的敏感信息识别方法,包括:步骤一、对文本进行预处理;步骤二、标注多条预处理文本为敏感信息和非敏感信息,步骤三、表征得到敏感信息的向量表征和非敏感信息的向量表征;步骤四、以敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建近似最邻近搜索图;步骤五、将待测文本的向量表征输入至近似最邻近搜索图,搜索得到近似最近邻的K个节点,判断节点属性及根据该条待测文本的敏感度权重,修正其敏感度值后,判断是否为敏感信息。本发明公开了一种基于BERT模型和K近邻的敏感信息识别系统。本发明具有提升文本质量,提升敏感信息识别的速度和精度的有益效果。
-
公开(公告)号:CN111581956B
公开(公告)日:2022-09-13
申请号:CN202010269087.8
申请日:2020-04-08
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Inventor: 赵忠华 , 吴俊杰 , 赵志云 , 葛自发 , 孙小宁 , 张冰 , 王欣欣 , 李欣 , 袁钟怡 , 孙立远 , 付培国 , 王禄恒 , 左源 , 李丰志 , 李英汉 , 户中方
IPC: G06F40/279 , G06F40/216 , G06F40/242 , G06F40/126 , G06F16/335 , G06F16/35 , G06K9/62
Abstract: 本发明公开了一种基于BERT模型和K近邻的敏感信息识别方法,包括:步骤一、对文本进行预处理;步骤二、标注多条预处理文本为敏感信息和非敏感信息,步骤三、表征得到敏感信息的向量表征和非敏感信息的向量表征;步骤四、以敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建近似最邻近搜索图;步骤五、将待测文本的向量表征输入至近似最邻近搜索图,搜索得到近似最近邻的K个节点,判断节点属性及根据该条待测文本的敏感度权重,修正其敏感度值后,判断是否为敏感信息。本发明公开了一种基于BERT模型和K近邻的敏感信息识别系统。本发明具有提升文本质量,提升敏感信息识别的速度和精度的有益效果。
-
公开(公告)号:CN110825842A
公开(公告)日:2020-02-21
申请号:CN201910959523.1
申请日:2019-10-10
Applicant: 北京航空航天大学
IPC: G06F16/33 , G06F40/242 , G06F40/279
Abstract: 本发明公开了一种基于不同人格特征的文本观点挖掘方法,包括以下步骤:S1、构建最大熵模型;S2、针对某个事件,将全语料依据人格特征分成多个集合语料c,并通过耦合的狄利克雷过程DP构建跨人格特征主题模型;S3、每条文档进行分词处理,将每条文档的分词组成输入列表,作为跨人格特征主题模型的输入,并初始化跨人格特征主题模型的参数;S4、根据输入内容,采用吉布斯采样法,依据跨人格特征主题模型、最大熵模型迭代计算得出最终的人格特征主题模型的参数。本发明具有自动、准确地发现事件的主要主题,并区分不同人格特征对每个主题的客观方面(属性词)和主观观点(观点词)的有益效果。
-
公开(公告)号:CN110825842B
公开(公告)日:2022-07-29
申请号:CN201910959523.1
申请日:2019-10-10
Applicant: 北京航空航天大学
IPC: G06F16/33 , G06F40/242 , G06F40/279
Abstract: 本发明公开了一种基于不同人格特征的文本观点挖掘方法,包括以下步骤:S1、构建最大熵模型;S2、针对某个事件,将全语料依据人格特征分成多个集合语料c,并通过耦合的狄利克雷过程DP构建跨人格特征主题模型;S3、每条文档进行分词处理,将每条文档的分词组成输入列表,作为跨人格特征主题模型的输入,并初始化跨人格特征主题模型的参数;S4、根据输入内容,采用吉布斯采样法,依据跨人格特征主题模型、最大熵模型迭代计算得出最终的人格特征主题模型的参数。本发明具有自动、准确地发现事件的主要主题,并区分不同人格特征对每个主题的客观方面(属性词)和主观观点(观点词)的有益效果。
-
公开(公告)号:CN115329846A
公开(公告)日:2022-11-11
申请号:CN202210876028.6
申请日:2022-07-25
Applicant: 北京航空航天大学
Abstract: 本发明提供一种基于梯度提升算法的极大规摸长尾多标签分类方法,包括:获取原始文本数据;采用深度学习算法对原始文本数据进行训练,将训练的模型作为预训练模型;保留预训练模型中的编码器用以文本表征提取,将其原有的分类器舍弃,添加多层感知机作为新的弱分类器;采用梯度提升算法,基于残差对弱分类器进行训练,以提升训练模型在尾部标签上的精度,作为提升步;将二元交叉熵损失作为优化目标对整个模型进行全网络参数更新,作为更新步;交替进行提升步和更新步,得到成熟的训练模型,能够在极大规摸长尾数据的场景下进行精准的多标签分类。本方法能够快速、准确地对大量数据进行多标签分类,并能够在尾部标签上进行更精准的分类。
-
公开(公告)号:CN115146651A
公开(公告)日:2022-10-04
申请号:CN202210758569.9
申请日:2022-06-30
Applicant: 北京航空航天大学
Abstract: 本发明公开了基于记忆力机制的预训练语言模型参数微调方法,包括:构建微调预训练语言模型,其包括,获取初始BERT模型;分别将记忆力机制模块引入到所述初始BERT模型的全连接前馈网络模块和多头注意机制模块中,获得微调BERT模型,记忆力机制模块包含参数M、KP、VP;获取任务训练数据,将其划分为训练集和验证集,采用所述训练数据对所述微调BERT模型进行训练,训练时,固定所述微调BERT模型中其余参数,只对参数M、KP、VP进行迭代更新。本发明的方法极大地降低了BERT模型中参数学习的规模,提升了BERT模型对下游任务的迁移学习能力。
-
-
-
-
-