一种基于先验知识的虚假新闻元学习检测方法

    公开(公告)号:CN116029292A

    公开(公告)日:2023-04-28

    申请号:CN202310050842.7

    申请日:2023-02-02

    摘要: 本发明提出一种基于先验知识的虚假新闻元学习检测方法,通过构建先验知识矩阵和元学习模型方法,整合已训练数据丰富的元知识,引导分类器模型关注影响虚假新闻检测的重点特征,进而关注重点特征下的重点样本,提高模型在缺乏训练样本情况下对新话题的快速学习与泛化能力。具体包括:提取新闻条目显式及隐式特征构建先验知识矩阵;根据不同话题划分训练任务;实时匹配更新先验知识矩阵参数;获取文本数据的浅层及深层表征,预测虚假新闻的真实性,实时检测新兴话题虚假新闻。相较于现有的虚假新闻检测方法,本发明具有较强的实时更新及泛领域能力,为解决虚假新闻检测的实时性和话题性问题提供可行性方案,实现循环循证的检测闭环。

    一种基于BERT和实体位置信息的实体关系抽取方法

    公开(公告)号:CN116167379A

    公开(公告)日:2023-05-26

    申请号:CN202310168595.0

    申请日:2023-02-10

    发明人: 胡智文 黄章秋

    摘要: 本发明公开了属于自然语言处理领域的一种基于BERT和实体位置信息的实体关系抽取方法,该方法包括以下步骤:步骤1:获取包含实体位置标记信息的实体关系抽取文本数据集,划分为训练集、验证集和测试集;步骤2:考虑实体位置对句子文本特征的影响,构建一个结合BERT,BiLSTM和注意力机制的实体关系抽取复合模型;步骤3:利用步骤1中确定的数据集中的训练集对模型进行训练,验证集确定训练的停止轮次,其结果供测试集评估使用;步骤4:利用测试集对模型进行评估,分析模型的合理性。本发明实现了更精准,更高效的挖掘效果,提供了一种新颖的挖掘实体间潜在关系的方式,带来了良好的通用性和实用价值。

    一种学科溯源数据集生成方法
    3.
    发明公开

    公开(公告)号:CN118585605A

    公开(公告)日:2024-09-03

    申请号:CN202410651994.7

    申请日:2024-05-24

    发明人: 胡智文 李梦倩

    IPC分类号: G06F16/33 G06F16/35 G06F16/38

    摘要: 本发明提供一种学科溯源数据集生成方法,可以高效获取术语溯源信息且减少人力成本。本发明包括如下步骤:步骤S1、语料获取:收集并获取与目标学科及其溯源信息相关的大量语料以确定第一数据;步骤S2、数据集处理:对第一数据进行处理以确保数据的一致性和可用性,得到第二数据;步骤S3:文本分类:对第二数据进行分类,将有效文本和无效文本进行区分;结合领域知识和规则,对分类后的文本数据进行人工干预和修正,从而得到第三数据;步骤S4、内容提取:引导大语言模型来提取第三数据中的四个维度内容:作者、时间、来源标记和交叉验证,得到第四数据;步骤S5、填充和验证:对第四数据进行填充缺省值和验证,输出学科溯源所需的维度数据,以生成最终的学科溯源数据集。

    一种基于LLM和RAG的企业年报分析方法

    公开(公告)号:CN118520867A

    公开(公告)日:2024-08-20

    申请号:CN202410720845.1

    申请日:2024-06-05

    发明人: 胡智文 蔡旭强

    摘要: 本发明提供一种基于LLM和RAG的企业年报分析方法,能够智能理解和处理大量非结构化年报数据的新技术解决方案,以提升分析效率和准确性,满足日益增长的市场需求。本发明包括如下步骤:步骤S1:获取某上市公司连续多年的年报数据,对年报数据进行解析和预处理;步骤S2:对预处理后的年报数据进行结构化处理,通过数据处理模块接收输入的企业年报PDF文件;步骤S3:使用用户问题意图识别模块,该模块通过路由器将用户输入的问题基于问题意图分类并路由至对应的处理路径;步骤S4:应用RAG生成模块,在识别用户查询意图后,选择从数据库DB、向量化的索引系统、json文件中检索和召回与查询相关的信息;步骤S5:利用LLM模块,结合步骤S4中召回的信息和构建的Prompt,通过对结构化数据的SQL查询生成分析结果,同时结合非结构化文本分析和半结构化数据处理,以产生企业年报的深入分析报告;步骤S6:LLM对问题和回答进行反思,推理回答是否已经完整,如果LLM认为回答还不够完善,将自动提出新的补充问题然后回到步骤S1,否则将结束本轮回答。

    基于深度学习的隐写文本抗隐写分析能力增强方法

    公开(公告)号:CN115983267A

    公开(公告)日:2023-04-18

    申请号:CN202310050841.2

    申请日:2023-02-02

    发明人: 胡智文 胡琪镐

    IPC分类号: G06F40/289 G06F40/211

    摘要: 本发明属于信息传输中的信息隐藏技术领域,公开了一种基于深度学习的隐写文本抗隐写分析能力增强方法,该方法利用深度学习方法学习开放域环境中的数据集特征,并在嵌入秘密信息的同时生成具有原数据集统计分布的隐写文本,最后根据隐写文本的情感倾向和表情符号在真实环境中的分布情况对隐写文本进行相应的表情符号推荐,从而进一步强化隐写文本的抗隐写分析能力。本发明解决了生成式文本隐写工作中隐写文本情感线索缺失的问题,从而使得隐写文本在公共信道中进行传输时的抗攻击能力更强。