一种基于并发任务的项目查重方法及系统

    公开(公告)号:CN110033236A

    公开(公告)日:2019-07-19

    申请号:CN201910287630.4

    申请日:2019-04-11

    摘要: 本发明公开一种基于并发任务的项目查重方法及系统,包括四个步骤,依托互联网技术将互联网热词、常用词语进行动态解析,形成云端词库。通过文字匹配法对申报材料中的文字信息与云端词库进行匹配,将申报材料切分为具有语义的分词因子,通过加权计算取得最佳分词方案,统计词频并排除高频率的“单字词”。将当前查重项目的分词子集和历史项目的分词子集通过余弦相似性算法CosineSimilar返回当前查重项目和历史项目的相似值。在大数据计算时,利用大容量高速内存,合理使用内存管理,减少硬盘频繁读写访问,开启并发多线程任务,充分利用系统资源,发挥CPU最大频率,以提高查重效率。