-
公开(公告)号:CN116775869A
公开(公告)日:2023-09-19
申请号:CN202310689085.8
申请日:2023-06-12
申请人: 北京理工大学
IPC分类号: G06F16/35 , G06N3/0464 , G06N3/08 , G06F18/241
摘要: 本发明涉及一种基于可解释模型的文本持续分类方法,包括文本分类、可持续学习、可解释学习、经验回放等多方面技术,属于自然处理技术领域。本发明包括两大部分。第一部分是自解释的文本分类模型,输入样本,输出对应样本的预测类别和可解释词;第二部分为特征池,用以存储自解释模型输出的可解释特征,作为回放的旧任务特征。这里自解释的文本分类模型具体为融合短语结构知识的自解释模型,包含三层,第一层输入层,通过编码器得到文本表示,并进一步得到输入样本对应的短语结构知识。第二层为短语结构知识进一步融合的解释层,第三层为线性层,将解释层的输出映射到类别向量空间,得到预测类别标签和样本的解释。
-
公开(公告)号:CN118779443A
公开(公告)日:2024-10-15
申请号:CN202410159540.8
申请日:2024-02-04
申请人: 北京理工大学
IPC分类号: G06F16/34 , G06F16/35 , G06F16/33 , G06F40/216 , G06F40/247 , G06F40/237 , G06F40/58 , G06N5/025 , G06N3/045
摘要: 一种基于mT5和词频信息熵的多语共同关注主题检测方法,属于社交媒体信息挖掘技术领域。本方法采用多语言词频信息熵的统计方法,充分考虑共同关注的话题在多语言中分布较为平均的特点,实现不同文化所共同关注的主题词提取;使用mBERT进行同义词聚合,在构建词表过程中实现了冗余词汇的识别,降低输出词汇的冗余程度;通过改进BERTopic中主题词提取算法,使用微调后的mT5对单文档进行主题词的提取,由传统的单语言主题检测改进到多语言的模式,在一定程度上避免潜在价值主题词遗漏的问题。本发明适用于社交媒体信息挖掘技术领域,提高共同关注主题的检测识别能力,并提升主题词的输出质量。
-