-
公开(公告)号:CN114170614A
公开(公告)日:2022-03-11
申请号:CN202111535580.0
申请日:2021-12-15
申请人: 上海金仕达软件科技有限公司
IPC分类号: G06V30/416 , G06V30/413 , G06F16/178
摘要: 本发明公开了一种公告文档的处理方法及系统,基于获取的PDF公告文档的格式和内容,判断PDF公告文档为标准化PDF文档或非标准化PDF文档,当PDF公告文档为标准化PDF文档时,将PDF公告文档由PDF格式转换为一个临时的docx格式的Word公告文档,对PDF公告文档和Word公告文档采用预设坐标算法进行公告域信息分割,并在分割完成后得到PDF公告文档对应的格式化的公告纯文本。本发明利用Word公告文档中的正文行对象和表格对象,在采用预设坐标算法时有效的区分PDF公告文档中的正文行对象和表格对象,使得PDF公告文档转换之后的正文行对象与表格对象相互区分和隔离,满足自然语言处理技术的需求。
-
公开(公告)号:CN115146639A
公开(公告)日:2022-10-04
申请号:CN202210647798.3
申请日:2022-06-08
申请人: 上海金仕达软件科技有限公司
IPC分类号: G06F40/295
摘要: 本发明提供一种面向金融领域的中文命名实体识别方法及系统,通过将待识别数据处理为单字符和/或多字符,并将所述单字符和/或所述多字符分别转化为词向量;根据FLAT(F l at‑Latt ice Transformer)编码模型,对所述单字符和/或多字符的位置信息进行相对位置编码得到四个位置编码方阵,其中,所述位置信息为每一个单字符和/或多字符都构建两个位置列表,分别为Head和Tai l,Head为每个字符或词汇的开始位置,Tai l为每个字符或词汇的结束位置;将所述词向量和所述位置编码方阵输入Transformer模型得到实体的标签;将所述实体的标签输入判别模型得到实体类型的技术方案,提高了判断实体类型准确性,提升了识别效率。
-
公开(公告)号:CN115017901A
公开(公告)日:2022-09-06
申请号:CN202210645984.3
申请日:2022-06-08
申请人: 上海金仕达软件科技有限公司
IPC分类号: G06F40/289 , G06F40/30 , G06F16/35 , G06N3/04 , G06N3/08
摘要: 本发明提供一种公告语料的信息预测方法、系统、设备以及存储介质,其中,信息预测方法包括以下步骤:获取训练语料;对训练语料进行语料分割,得到分割语料;根据标记符集合对分割语料进行标注,得到标注序列;将分割语料输入至第一预训练模型,得到字嵌入序列;将分割语料输入至第二预训练模型,得到BERT嵌入序列;对标注序列、字嵌入序列以及BERT嵌入序列进行顺序拼接,得到训练语料的训练数据;将训练语料的训练数据输入至神经网络模型中进行训练,得到信息预测模型;获取公告语料的特征数据;将公告语料的特征数据输入至信息预测模型中进行信息预测,得到预测结果。
-
-