-
公开(公告)号:CN113704473B
公开(公告)日:2024-08-23
申请号:CN202111005192.1
申请日:2021-08-30
申请人: 济南大学
IPC分类号: G06F16/35 , G06F40/216 , G06F40/237 , G06F40/284 , G06F40/289 , G06F40/30 , G06N3/0464 , G06N3/0442 , G06N3/08 , G06N20/00
摘要: 本发明提供了一种基于长文本特征提取优化的媒体假新闻检测方法及系统,对获取的媒体数据进行预处理;对预处理后的媒体数据根据数据对齐的统一长度分为长文本与短文本,并采用不同方式提取相应类别的新闻文本特征,输出文本特征的向量化表示;根据所述媒体数据的应用场景,利用不同的预训练后的深度学习分类模型对文本特征的向量化表示进行真假性预测,得到检测结果。本发明能够减少数据噪声问题,解决自编码模型存在的预训练‑微调阶段的学习偏差,降低特征维度,解决长文本信息丢失问题,提高特征学习能力。
-
公开(公告)号:CN113704473A
公开(公告)日:2021-11-26
申请号:CN202111005192.1
申请日:2021-08-30
申请人: 济南大学
IPC分类号: G06F16/35 , G06F40/216 , G06F40/237 , G06F40/284 , G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08 , G06N20/00
摘要: 本发明提供了一种基于长文本特征提取优化的媒体假新闻检测方法及系统,对获取的媒体数据进行预处理;对预处理后的媒体数据根据数据对齐的统一长度分为长文本与短文本,并采用不同方式提取相应类别的新闻文本特征,输出文本特征的向量化表示;根据所述媒体数据的应用场景,利用不同的预训练后的深度学习分类模型对文本特征的向量化表示进行真假性预测,得到检测结果。本发明能够减少数据噪声问题,解决自编码模型存在的预训练‑微调阶段的学习偏差,降低特征维度,解决长文本信息丢失问题,提高特征学习能力。
-