-
公开(公告)号:CN119961728A
公开(公告)日:2025-05-09
申请号:CN202510054379.2
申请日:2025-01-14
Abstract: 本发明公开了一种针对中文大语言模型毒性和偏见的评估方法,包括:获取中文毒性语言数据集;采用中文毒性API进行判断毒性和偏见;确定评估模型的指标,其中,所述指标包括:毒性,偏见和回避率;利用所述中文毒性语言数据集对中文大语言模型进行毒性,偏见和回避程度的评估,从而获取评估结果。该方法提出了一个与测评数据集和模型无关通用评估框架TisEval,可应用于广泛的数据集和模型,该框架来评估大语言模型的毒性和偏见,是首个从毒性和偏见的角度对中文大语言模型进行了全面、系统的研究评估。