-
公开(公告)号:CN118152790A
公开(公告)日:2024-06-07
申请号:CN202410017575.8
申请日:2024-01-05
申请人: 国家电网有限公司华东分部
IPC分类号: G06F18/2132 , G06F18/214 , G06F18/2415 , G06F18/2431
摘要: 本申请公开了一种分布外文本检测方法、装置、计算机设备及可读存储介质,涉及电力系统技术领域,通过将分布内文本的特征向量空间根据特征维度的重要性分解为两部分,分别为主成分子空间与副成分子空间,检测新输入文本的特征向量在副成分子空间中的投影值,该投影值即为信息熵,该值越大表明其与分布内文本的相关性越低,为分布外文本的概率越大。所提发明能够有效识别分布外文本,不仅可提升自动评级模型的评级性能,还可为完善大规模高质量的数据集保驾护航。