一种基于大模型的财报自动化问答方法和装置

    公开(公告)号:CN117235233B

    公开(公告)日:2024-06-11

    申请号:CN202311379778.3

    申请日:2023-10-24

    Abstract: 本发明公开了一种基于大模型的财报自动化问答方法和装置,该方法包括以下步骤:基于金融数据集和历年财报数据对基础开源大模型进行预训练和微调,构建具有财务问答能力的财报大模型;用户上传财报文件并输入问题至财报大模型,通过财报大模型对财报文件进行文件解析并生成答案返回给用户;构建数据库,其中包括历年财报数据、财报文件解析结果和对答案的打分结果;利用数据库中的信息通过反馈迭代机制对财报大模型进行迭代优化;利用优化后的财报大模型进行财报自动化问答。本发明方法能够有效提高财报分析的准确性和效率,适用于财务领域中对财报数据的智能化问答应用场景。

    基于自动特征挖掘的可解释信贷违约率预测方法、系统

    公开(公告)号:CN115936159A

    公开(公告)日:2023-04-07

    申请号:CN202211016771.0

    申请日:2022-08-24

    Abstract: 本发明公开了一种基于自动特征挖掘的可解释信贷违约率预测方法、系统,首先从客户信用资料库中提取每笔贷款的特征数据,并进行预处理;定义自动特征挖掘的操作算子集O和一种自动特征挖掘方法,并通过该操作算子集O得到自动特征集;构建违约率预测模型,并结合全局可解释方法和局部可解释方法,得到通过全局重要性特征排序、基于当前数据库搜索的反事实样本、基于特征扰动和生成模型的虚拟反事实样本,基于此给出可解释信贷违约率预测。本发明方法使得违约预测模型训练和更新无需专家经验干预,缓解专家经验差异大的问题,节省人力,能够满足审计需求,同时针对一线客户经理给出判断依据和相似判例参考。

    基于邻域节点结构编码的图神经网络异常检测方法与装置

    公开(公告)号:CN115859143A

    公开(公告)日:2023-03-28

    申请号:CN202211424557.9

    申请日:2022-11-14

    Abstract: 本发明公开了基于邻域节点结构编码的图神经网络异常检测方法与装置,包括:将原始数据转换为图神经网络的输入数据,输入数据包括节点属性矩阵、邻接矩阵;从邻接矩阵抽取出结构特征并进行矩阵分解,得到节点角色特征与角色结构特征因子;将节点角色特征与其转置矩阵相乘,得到高阶邻接矩阵;将节点属性矩阵与邻接矩阵、节点属性矩阵与高阶邻接矩阵分别输入图神经网络,得到节点角色语义潜变量和节点角色语义潜变量;并进行动态加权,得到最终节点表示,将其输入至激活函数,训练图神经网络,直至图神经网络收敛,将激活函数的输出向量中概率最高的标签作为分类结果即异常类别,异常类别对应的节点即为检测到的异常目标。

    一种基于深度语言模型的绿色信贷项目识别方法和系统

    公开(公告)号:CN115809654A

    公开(公告)日:2023-03-17

    申请号:CN202211459933.8

    申请日:2022-11-16

    Abstract: 本发明公开一种基于深度语言模型的绿色信贷项目识别方法和系统。绿色信贷通常是指以银行为主的金融机构为各类对环保有益的公司/项目提供贷款机会或对环境造成不良影响的公司/项目进行贷款控制。本发明通过构建关于绿色金融的语料库以及绿色金融预训练语言模型,提出了基于绿色金融语料库的多级绿色信贷分类方法。该发明具体包括以下部分:提取与绿色金融业务相关的语料并构建绿色金融语料库,利用上述绿色金融语料库对语言模型进行预训练,得到关于绿色金融语料的预训练模型;以绿色信贷自主分类为业务目的,设计基于贷款描述的多级绿色信贷分类体系,并基于此分类体系构建多级绿色信贷分类模型,利用所述模型预测贷款描述对应的绿色信贷分类。

    基于专家统计特征的增量计算更新方法、电子设备、介质

    公开(公告)号:CN115438054A

    公开(公告)日:2022-12-06

    申请号:CN202211017850.3

    申请日:2022-08-24

    Abstract: 本发明公开了一种基于专家统计特征的增量计算更新方法、电子设备、介质,本发明方法分为离线计算和在线计算,其中离线计算首先读取专家统计特征的配置信息;然后抽取历史数据的统计特征的用户统计关联信息;最后持久化历史数据的统计关联信息。在线计算首先读取专家统计特征的配置信息;然后抽取新增数据的统计特征的用户统计关联信息;同时读取历史数据持久化的用户统计关联信息;接下来基于历史和新增数据抽取得到的统计关联信息生成更新后的离线数据统计关联信息并执行持久化操作;最后基于更新后的离线数据的统计关联信息生成对应的统计特征。本发明方法针对低服务器资源的情况,仍然能够高效的输出统计特征。

    基于实体词属性特征和回译的中文金融文本数据增强方法

    公开(公告)号:CN115048940A

    公开(公告)日:2022-09-13

    申请号:CN202210724689.7

    申请日:2022-06-23

    Abstract: 本发明公开了一种基于实体词属性特征和回译的中文金融文本数据增强方法。该方法包括:首先对输入的金融文本进行文本预处理工作;紧接着,通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符‑实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符‑实体映射关系字典还原文本中的指代字符,进而生成与原文本语义相似的新文本。此外,本方法在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。

    一种基于生成式预训练语言模型的医疗事件抽取方法

    公开(公告)号:CN117493504B

    公开(公告)日:2025-02-07

    申请号:CN202311274549.5

    申请日:2023-09-28

    Abstract: 本发明公开了基于生成式预训练语言模型的医疗事件抽取方法及装置,该方法包括:获取目标医疗文本;给定要抽取医疗事件的所有医疗事件类型;定义各类型的医疗事件要抽取的对应元素;利用事件类型判别模型,判定所述目标医疗文本中所涉及到的事件类型,其中所述事件类型判别模型为经过领域适配和事件类型判别任务精调的生成式预训练语言模型;根据所述事件类型,利用事件抽取模型抽取所述目标医疗文本的事件对应的元素,其中所述事件抽取模型为经过领域适配和事件元素抽取任务精调的生成式预训练语言模型。

    基于实体词属性特征和回译的中文金融文本数据增强方法

    公开(公告)号:CN115048940B

    公开(公告)日:2024-04-09

    申请号:CN202210724689.7

    申请日:2022-06-23

    Abstract: 本发明公开了一种基于实体词属性特征和回译的中文金融文本数据增强方法。该方法包括:首先对输入的金融文本进行文本预处理工作;紧接着,通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符‑实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符‑实体映射关系字典还原文本中的指代字符,进而生成与原文本语义相似的新文本。此外,本方法在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。

    一种基于生成式预训练语言模型的医疗事件抽取方法

    公开(公告)号:CN117493504A

    公开(公告)日:2024-02-02

    申请号:CN202311274549.5

    申请日:2023-09-28

    Abstract: 本发明公开了基于生成式预训练语言模型的医疗事件抽取方法及装置,该方法包括:获取目标医疗文本;给定要抽取医疗事件的所有医疗事件类型;定义各类型的医疗事件要抽取的对应元素;利用事件类型判别模型,判定所述目标医疗文本中所涉及到的事件类型,其中所述事件类型判别模型为经过领域适配和事件类型判别任务精调的生成式预训练语言模型;根据所述事件类型,利用事件抽取模型抽取所述目标医疗文本的事件对应的元素,其中所述事件抽取模型为经过领域适配和事件元素抽取任务精调的生成式预训练语言模型。

Patent Agency Ranking