一种PDF公告文档的处理方法及系统

    公开(公告)号:CN114170614A

    公开(公告)日:2022-03-11

    申请号:CN202111535580.0

    申请日:2021-12-15

    摘要: 本发明公开了一种公告文档的处理方法及系统,基于获取的PDF公告文档的格式和内容,判断PDF公告文档为标准化PDF文档或非标准化PDF文档,当PDF公告文档为标准化PDF文档时,将PDF公告文档由PDF格式转换为一个临时的docx格式的Word公告文档,对PDF公告文档和Word公告文档采用预设坐标算法进行公告域信息分割,并在分割完成后得到PDF公告文档对应的格式化的公告纯文本。本发明利用Word公告文档中的正文行对象和表格对象,在采用预设坐标算法时有效的区分PDF公告文档中的正文行对象和表格对象,使得PDF公告文档转换之后的正文行对象与表格对象相互区分和隔离,满足自然语言处理技术的需求。

    一种面向金融领域的中文命名实体识别方法及系统

    公开(公告)号:CN115146639A

    公开(公告)日:2022-10-04

    申请号:CN202210647798.3

    申请日:2022-06-08

    IPC分类号: G06F40/295

    摘要: 本发明提供一种面向金融领域的中文命名实体识别方法及系统,通过将待识别数据处理为单字符和/或多字符,并将所述单字符和/或所述多字符分别转化为词向量;根据FLAT(F l at‑Latt ice Transformer)编码模型,对所述单字符和/或多字符的位置信息进行相对位置编码得到四个位置编码方阵,其中,所述位置信息为每一个单字符和/或多字符都构建两个位置列表,分别为Head和Tai l,Head为每个字符或词汇的开始位置,Tai l为每个字符或词汇的结束位置;将所述词向量和所述位置编码方阵输入Transformer模型得到实体的标签;将所述实体的标签输入判别模型得到实体类型的技术方案,提高了判断实体类型准确性,提升了识别效率。