-
公开(公告)号:CN119416887A
公开(公告)日:2025-02-11
申请号:CN202411392344.1
申请日:2024-10-08
Applicant: 武汉大学
IPC: G06N5/025 , G06F18/24 , G06V30/19 , G06F16/11 , G06N3/0442 , G06N3/0464 , G06F16/353
Abstract: 本发明提供一种自适应敏感信息抽取方法及装置,其中,该自适应敏感信息抽取方法包括:获取富文本,并对所述富文本进行分类;所述富文本包括代码文件和非代码文件;对所述非代码文件进行数据处理,将所述非代码文件转化为纯文本文件;根据待识别的敏感信息类型,选择信息识别方法,并对所述代码文件和所述纯文本文件进行敏感信息抽取,得到目标敏感信息;所述信息识别方法包括大模型代码理解方法、规则匹配方法和多粒度关联敏感信息识别方法。通过本发明,根据不同的文件类型和敏感信息类型,设计了不同的信息识别方法,从而获取更加全面的识别结果,解决了现有技术中存在的对敏感信息抽取具有局限性的问题。