发明授权
- 专利标题: 一种多标签文本分类方法及系统
-
申请号: CN201410310719.5申请日: 2014-07-01
-
公开(公告)号: CN105224577B公开(公告)日: 2018-06-12
- 发明人: 贺志阳 , 吴及 , 吕萍 , 何婷婷 , 乔玉平 , 胡国平 , 胡郁
- 申请人: 清华大学 , 科大讯飞股份有限公司
- 申请人地址: 北京市海淀区清华园
- 专利权人: 清华大学,科大讯飞股份有限公司
- 当前专利权人: 清华大学,讯飞医疗科技股份有限公司
- 当前专利权人地址: 100084 北京市海淀区清华园
- 代理机构: 北京维澳专利代理有限公司
- 代理商 王立民; 吉海莲
- 主分类号: G06F17/30
- IPC分类号: G06F17/30 ; G06F17/27
摘要:
本发明公开了一种多标签文本分类方法及系统,包括:针对待分类文档确定待考核标签子集;对待分类文档进行分词处理;获取当前计算字词相应于当前考核标签子集中各标签的似然度;对当前计算字词相应于当前考核标签子集中各标签的似然度进行线性加权,得到当前计算字词相应于当前考核标签子集的加权似然度;确定进行线性加权的各加权系数,使得所有字词的加权似然度的连乘积最大,并将最大的连乘积作为待分类文档相应于当前考核标签子集的似然度;在待考核标签子集中,选取使得后验概率最大的标签子集作为待分类文档的分类结果。本发明的多标签分类方法及系统相对现有多标签分类方法及系统兼具总体性能高及计算量小的特点。
公开/授权文献
- CN105224577A 一种多标签文本分类方法及系统 公开/授权日:2016-01-06