发明公开
- 专利标题: 一种针对海量文本数据的定向筛选架构及方法
-
申请号: CN202010474192.5申请日: 2020-05-29
-
公开(公告)号: CN113742478A公开(公告)日: 2021-12-03
- 发明人: 万辛 , 戚梦苑 , 孙晓晨 , 侯炜 , 宁珊 , 沈亮 , 李娅强 , 王树鹏 , 田正鑫
- 申请人: 国家计算机网络与信息安全管理中心
- 申请人地址: 北京市朝阳区裕民路甲3号
- 专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人地址: 北京市朝阳区裕民路甲3号
- 代理机构: 北京君尚知识产权代理有限公司
- 代理商 司立彬
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F16/33 ; G06F40/295 ; G06N3/04
摘要:
本发明公开了一种针对海量文本数据的定向筛选架构及方法。本方法步骤包括:1)使用关键词匹配方法从待筛选文本中获取疑似目标文本;2)从已标注的目标文本中提取常用句式,并分为与业务强相关句式、与业务弱相关句式;对待筛选文本进行模糊句式匹配,如果与业务强相关句式匹配,则将文本判断为目标文本,否则为疑似目标文本;3)对每一疑似目标文本进行分类;4)根据疑似目标文本匹配上的关键词的个数确定文本的评估值E1;根据分类判别结果,确定文本的评估值E2;基于文本与外部辅助语料的信息匹配结果确定文本的评估值E3;然后基于评估值E1~E3,计算得到文本最终评分反馈给研判层;5)研判层确定反馈的文本是否为目标文本。
公开/授权文献
- CN113742478B 一种针对海量文本数据的定向筛选装置及方法 公开/授权日:2023-09-05