大语言模型内容安全优化方法、系统、设备及存储介质

    公开(公告)号:CN118227967A

    公开(公告)日:2024-06-21

    申请号:CN202410348394.3

    申请日:2024-03-26

    发明人: 李英 王笑尘

    IPC分类号: G06F18/10 G06N3/045 G06N5/045

    摘要: 本发明属于人工智能技术领域,涉及一种大语言模型内容安全优化方法、系统、设备及存储介质,所述方法包括:1)训练数据敏感检测;2)训练数据自动改写;3)大语言模型内容安全微调;4)大语言模型微调效果反馈;5)改写规则调整;6)输出内容自动改写;7)大语言模型内容安全再微调。其实质性地解决了大语言模型存在的领域泛化,生成内容安全等方面存在的问题,对大语言模型设计提供了新的方法。