-
公开(公告)号:CN114547670A
公开(公告)日:2022-05-27
申请号:CN202210039857.9
申请日:2022-01-14
申请人: 北京理工大学
IPC分类号: G06F21/62
摘要: 本发明涉及利用差分隐私词嵌入扰动的敏感文本脱敏方法,属于差分隐私保护技术领域。本发明首先利用命名实体识别技术识别文本中的敏感单词,并随机抽样语料库中的非敏感单词;其次给敏感单词的词嵌入向量加上差分隐私噪声,生成新的扰动词嵌入向量;然后度量扰动词嵌入向量和非敏感单词的词嵌入向量之间的欧几里得距离,依据最近邻公式取得候选词集合;最后依据多单位拍卖概率公式用候选词集合中的单词替换文本中所有的敏感单词后输出脱敏文本。本发明在多个语料上实验,结果表明其在多种文本上都能达到较好的脱敏效果,具有良好的通用性和可迁移性。
-
公开(公告)号:CN112199613A
公开(公告)日:2021-01-08
申请号:CN202011099728.6
申请日:2020-10-13
申请人: 北京理工大学
IPC分类号: G06F16/955 , G06F16/951 , G06F40/14 , G06F16/35
摘要: 本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法,属于计算机与信息科学技术领域。本发明首先将网站转成DOM解析树结构,获取DOM解析树下各节点的文本属性并给节点添加标签属性;然后通过递归遍历DOM标签树,构建出节点带有产品标签属性的树形图,将树形图转换为包含DOM解析树拓扑结构的节点向量集w;并通过doc2vec将各节点下的文本属性转换成文本向量h;最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性,训练节点分类模型,完成URL自动定位。本发明融合DOM拓扑、文本属性,在现有方法的基础上自动学习页面的提取规则,提高方法的自适应能力,有效的解决了现有方法鲁棒性差、准确率低、工作量大的缺点,具有较高的实用价值和社会价值。
-
公开(公告)号:CN117633233A
公开(公告)日:2024-03-01
申请号:CN202311669996.0
申请日:2023-12-07
申请人: 北京理工大学
IPC分类号: G06F16/35 , G06F18/213 , G06F18/2415 , G06F18/25 , G06Q50/00 , G06N3/042 , G06N3/045 , G06N3/0464
摘要: 本发明涉及利用双曲图网络的时序观点挖掘方法,属于自然语言处理与机器学习领域。本发明首先基于推文数据集生成社交关系图,利用指数映射将社交关系图嵌入双曲空间,通过双曲图卷积提取其结构特征;然后利用交叉注意力机制计算推文内容与推文时间的相关性,再结合时间注意力机制拟合早期推文对当前观点的影响权重,得到推文时序特征;最后拼接结构特征与时序特征得到推文的最终表示,输入分类器预测观点类别。本发明针对现有社交网络的观点挖掘方法未充分利用热门推文与相关推文间关系、难以准确建模早期推文对当前观点影响的问题,提出利用双曲图网络的时序观点挖掘方法,提升观点挖掘的准确率。
-
公开(公告)号:CN112199613B
公开(公告)日:2023-03-03
申请号:CN202011099728.6
申请日:2020-10-13
申请人: 北京理工大学
IPC分类号: G06F16/955 , G06F16/951 , G06F40/14 , G06F16/35
摘要: 本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法,属于计算机与信息科学技术领域。本发明首先将网站转成DOM解析树结构,获取DOM解析树下各节点的文本属性并给节点添加标签属性;然后通过递归遍历DOM标签树,构建出节点带有产品标签属性的树形图,将树形图转换为包含DOM解析树拓扑结构的节点向量集w;并通过doc2vec将各节点下的文本属性转换成文本向量h;最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性,训练节点分类模型,完成URL自动定位。本发明融合DOM拓扑、文本属性,在现有方法的基础上自动学习页面的提取规则,提高方法的自适应能力,有效的解决了现有方法鲁棒性差、准确率低、工作量大的缺点,具有较高的实用价值和社会价值。
-
-
-