-
公开(公告)号:CN113536787A
公开(公告)日:2021-10-22
申请号:CN202110797261.0
申请日:2021-07-14
申请人: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网信通亿力科技有限责任公司
IPC分类号: G06F40/289 , G06F40/237
摘要: 本发明涉及一种建立审计专业词库的方法,包括如下步骤:获取审计相关文档;对所述审计相关文档进行预处理;根据非审计专业词库,对预处理后的审计相关文档进行分词并去除停用词,得到若干个独立词;通过2‑gram分词算法,对若干个独立词进行拼接,得到若干个拼接词;分别计算各所述拼接词的词频、自由度;预设第一阈值、第二阈值;将词频超过第一阈值且自由度超过第二阈值的拼接词作为新词存入审计专业词库。