- 专利标题: 文本分类模型的样本构建方法及装置、文本分类方法
-
申请号: CN202211487421.2申请日: 2022-11-25
-
公开(公告)号: CN115544258A公开(公告)日: 2022-12-30
- 发明人: 付雪林 , 王涛 , 安重阳 , 韩啸 , 王启超 , 孙思遥 , 李晨晖 , 苏雨辰 , 张葳 , 唐海霞 , 赵鑫
- 申请人: 北京信立方科技发展股份有限公司
- 申请人地址: 北京市西城区新街口外大街28号B座416室(德胜园区)
- 专利权人: 北京信立方科技发展股份有限公司
- 当前专利权人: 北京信立方科技发展股份有限公司
- 当前专利权人地址: 北京市西城区新街口外大街28号B座416室(德胜园区)
- 代理机构: 北京路浩知识产权代理有限公司
- 代理商 聂俊伟
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06K9/62
摘要:
本发明涉及文本处理技术领域,提供一种文本分类模型的样本构建方法及装置、文本分类方法,所述样本构建方法包括:获取初始样本数据;所述初始样本数据包括多个初始文档,以及各所述初始文档的标签数据;所述多个初始文档的标签数据对应多个目标分类;确定任一所述目标分类中的各目标词语对所述目标分类的贡献值;所述目标词语为所述目标分类下的初始文档中的任一词语;根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据。本发明提供的样本构建方法通过计算词语对分类的贡献值,对样本数据进行样本重组,可以平衡各分类下的文本长度、改变不同分类下的样本数据量,从而均衡样本数据的分布,解决样本不均衡的问题。
公开/授权文献
- CN115544258B 文本分类模型的样本构建方法及装置、文本分类方法 公开/授权日:2023-04-07