-
公开(公告)号:CN118152790A
公开(公告)日:2024-06-07
申请号:CN202410017575.8
申请日:2024-01-05
Applicant: 国家电网有限公司华东分部
IPC: G06F18/2132 , G06F18/214 , G06F18/2415 , G06F18/2431
Abstract: 本申请公开了一种分布外文本检测方法、装置、计算机设备及可读存储介质,涉及电力系统技术领域,通过将分布内文本的特征向量空间根据特征维度的重要性分解为两部分,分别为主成分子空间与副成分子空间,检测新输入文本的特征向量在副成分子空间中的投影值,该投影值即为信息熵,该值越大表明其与分布内文本的相关性越低,为分布外文本的概率越大。所提发明能够有效识别分布外文本,不仅可提升自动评级模型的评级性能,还可为完善大规模高质量的数据集保驾护航。
-
公开(公告)号:CN117349771A
公开(公告)日:2024-01-05
申请号:CN202311303298.9
申请日:2023-10-09
Applicant: 国家电网有限公司华东分部
IPC: G06F18/2433 , G06F16/35 , G06N3/0464 , G06N3/08 , G06Q50/06
Abstract: 本申请公开了一种错误标签数据识别方法、装置、电子设备及可读存储介质,涉及电力系统技术领域,通过对权重向量进行归一化处理,将其分布于超球面上,并由此提出类内空间夹角概念,使用该夹角替换预测概率作为预测结果的置信度标准;在分析错误标签数据对类内空间夹角分布影响的基础上,利用ArcFace方法引入加性角度边距惩罚,实现错误标签数据与正确标签数据之间的相互分离,便于空间夹角阈值的选取;提出空间夹角阈值自动选取方法,以及小样本采样方法,进一步提升错误标签数据识别效果,减少人工核查的数据量,能够应用于专业领域文本分类任务的高质量样本集构建。
-