一种基于大数据的法律文书要素智能识别方法

    公开(公告)号:CN116521870A

    公开(公告)日:2023-08-01

    申请号:CN202310487599.5

    申请日:2023-04-28

    摘要: 本发明属于自然语言处理领域,具体涉及一种基于大数据的法律文书要素智能识别方法;包括:获取法律案例训练数据并对其进行处理,得到词嵌入矩阵;采用多头多层注意力模型对词嵌入向量进行处理,得到语义特征和全局特征;拼接语义特征和全局特征,得到拼接向量;提取词频统计特征并对其进行处理,得到词频统计向量;融合语义特征和词频统计向量,得到融合特征向量;采用注意力机制处理融合特征向量、语义特征和拼接向量,得到综合特征;根据综合特征得到法律文书要素识别结果;计算模型总损失并根据模型总损失调整模型参数,得到训练好的法律文书要素智能识别模型;本发明增加了模型特征的多样性,提高了法律文书要素识别结果准确性。

    一种基于大数据的互联网假新闻识别方法

    公开(公告)号:CN117034905B

    公开(公告)日:2024-05-14

    申请号:CN202310985688.2

    申请日:2023-08-07

    摘要: 本发明涉及自然语言处理技术领域,具体涉及一种基于大数据的互联网假新闻识别方法,包括:获取互联网新闻数据并进行预处理得到新闻文本数据集;采用贪婪策略对新闻文本数据集进行重复事件检测得到多个原始事件图;为每一个原始事件图设置相应的节点特征、边特征和簇特征,得到初始事件图;构造Motif特征提取器,并采用初始事件图进行训练;根据训练好的Motif特征提取器构建图模型,并采用初始事件图进行训练;将待识别互联网新闻输入训练好的图模型,输出待识别互联网新闻的真假判别结果;本发明对虚假信息进行早期检测并及时阻断其传播,极大降低虚假新闻带来的危害,营造清朗的网络舆论空间。

    一种基于大数据的互联网假新闻识别方法

    公开(公告)号:CN117034905A

    公开(公告)日:2023-11-10

    申请号:CN202310985688.2

    申请日:2023-08-07

    摘要: 本发明涉及自然语言处理技术领域,具体涉及一种基于大数据的互联网假新闻识别方法,包括:获取互联网新闻数据并进行预处理得到新闻文本数据集;采用贪婪策略对新闻文本数据集进行重复事件检测得到多个原始事件图;为每一个原始事件图设置相应的节点特征、边特征和簇特征,得到初始事件图;构造Motif特征提取器,并采用初始事件图进行训练;根据训练好的Motif特征提取器构建图模型,并采用初始事件图进行训练;将待识别互联网新闻输入训练好的图模型,输出待识别互联网新闻的真假判别结果;本发明对虚假信息进行早期检测并及时阻断其传播,极大降低虚假新闻带来的危害,营造清朗的网络舆论空间。

    一种基于多模态大数据的互联网短视频分类方法

    公开(公告)号:CN116958677A

    公开(公告)日:2023-10-27

    申请号:CN202310915465.9

    申请日:2023-07-25

    摘要: 本发明涉及深度学习领域,具体涉及一种基于多模态大数据的互联网短视频分类方法,包括获取多模态短视频数据集,对数据集中的数据进行预处理,并针对数据存在的长尾现象进行重采样;对多模态短视频数据集中无标注的数据打上伪标签,并对打上标签后的数据转换为预训练格式;构建单流神经网络模型,使用无标注数据对单流模型进行预训练;构建双流神经网络模型,使用无标注数据对双流模型进行预训练;将预训练格式的数据输入到训练好的预训练模型进行分类,判断短视频的种类;本发明能够有效提高对短视频分类的预测准确率。