一种针对海量文本数据的定向筛选架构及方法
摘要:
本发明公开了一种针对海量文本数据的定向筛选架构及方法。本方法步骤包括:1)使用关键词匹配方法从待筛选文本中获取疑似目标文本;2)从已标注的目标文本中提取常用句式,并分为与业务强相关句式、与业务弱相关句式;对待筛选文本进行模糊句式匹配,如果与业务强相关句式匹配,则将文本判断为目标文本,否则为疑似目标文本;3)对每一疑似目标文本进行分类;4)根据疑似目标文本匹配上的关键词的个数确定文本的评估值E1;根据分类判别结果,确定文本的评估值E2;基于文本与外部辅助语料的信息匹配结果确定文本的评估值E3;然后基于评估值E1~E3,计算得到文本最终评分反馈给研判层;5)研判层确定反馈的文本是否为目标文本。
公开/授权文献
0/0