Invention Publication
- Patent Title: 一种针对海量文本数据的定向筛选架构及方法
-
Application No.: CN202010474192.5Application Date: 2020-05-29
-
Publication No.: CN113742478APublication Date: 2021-12-03
- Inventor: 万辛 , 戚梦苑 , 孙晓晨 , 侯炜 , 宁珊 , 沈亮 , 李娅强 , 王树鹏 , 田正鑫
- Applicant: 国家计算机网络与信息安全管理中心
- Applicant Address: 北京市朝阳区裕民路甲3号
- Assignee: 国家计算机网络与信息安全管理中心
- Current Assignee: 国家计算机网络与信息安全管理中心
- Current Assignee Address: 北京市朝阳区裕民路甲3号
- Agency: 北京君尚知识产权代理有限公司
- Agent 司立彬
- Main IPC: G06F16/35
- IPC: G06F16/35 ; G06F16/33 ; G06F40/295 ; G06N3/04

Abstract:
本发明公开了一种针对海量文本数据的定向筛选架构及方法。本方法步骤包括:1)使用关键词匹配方法从待筛选文本中获取疑似目标文本;2)从已标注的目标文本中提取常用句式,并分为与业务强相关句式、与业务弱相关句式;对待筛选文本进行模糊句式匹配,如果与业务强相关句式匹配,则将文本判断为目标文本,否则为疑似目标文本;3)对每一疑似目标文本进行分类;4)根据疑似目标文本匹配上的关键词的个数确定文本的评估值E1;根据分类判别结果,确定文本的评估值E2;基于文本与外部辅助语料的信息匹配结果确定文本的评估值E3;然后基于评估值E1~E3,计算得到文本最终评分反馈给研判层;5)研判层确定反馈的文本是否为目标文本。
Public/Granted literature
- CN113742478B 一种针对海量文本数据的定向筛选装置及方法 Public/Granted day:2023-09-05
Information query