发明公开
- 专利标题: 一种基于实体识别的文本分类方法及电子装置
-
申请号: CN202010806716.6申请日: 2020-08-12
-
公开(公告)号: CN112069312A公开(公告)日: 2020-12-11
- 发明人: 王树鹏 , 孙立远 , 赵忠华 , 张磊 , 王博 , 王勇 , 付培国 , 王泽辰 , 王禄恒 , 万欣欣 , 李欣
- 申请人: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
- 申请人地址: 北京市海淀区闵庄路甲89号
- 专利权人: 中国科学院信息工程研究所,国家计算机网络与信息安全管理中心
- 当前专利权人: 中国科学院信息工程研究所,国家计算机网络与信息安全管理中心
- 当前专利权人地址: 北京市海淀区闵庄路甲89号
- 代理机构: 北京君尚知识产权代理有限公司
- 代理商 陈艳
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F40/295 ; G06F40/30 ; G06F16/9535
摘要:
本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
公开/授权文献
- CN112069312B 一种基于实体识别的文本分类方法及电子装置 公开/授权日:2023-06-20