- 专利标题: 基于逐点互信息技术的诈骗信息特征词提取方法及系统
-
申请号: CN201711190871.4申请日: 2017-11-24
-
公开(公告)号: CN107992473B公开(公告)日: 2021-04-27
- 发明人: 马宏远 , 王丽宏 , 杜翠兰 , 贺敏 , 刘玮 , 赵晓航 , 王博 , 柳毅 , 赵媛
- 申请人: 国家计算机网络与信息安全管理中心
- 申请人地址: 北京市朝阳区裕民路甲3号
- 专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人地址: 北京市朝阳区裕民路甲3号
- 代理机构: 北京华夏泰和知识产权代理有限公司
- 代理商 陈英
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F16/35
摘要:
本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统,该提取方法包括:提取诈骗信息主题关键词,组成主题关键词集合;将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并得到正样本分词集合、负样本候分词集合和候选关键词集合;根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重,将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。
公开/授权文献
- CN107992473A 基于逐点互信息技术的诈骗信息特征词提取方法及系统 公开/授权日:2018-05-04