发明授权
- 专利标题: 一种基于遗传算法的自动标注方法
-
申请号: CN202110525248.X申请日: 2021-05-14
-
公开(公告)号: CN112988981B公开(公告)日: 2021-10-15
- 发明人: 高翠芸 , 王轩 , 徐增林 , 臧婧雅
- 申请人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
- 申请人地址: 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
- 专利权人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
- 当前专利权人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
- 当前专利权人地址: 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
- 代理机构: 深圳市添源知识产权代理事务所
- 代理商 于标
- 主分类号: G06F16/33
- IPC分类号: G06F16/33 ; G06F16/31 ; G06N3/12
摘要:
本发明提供了一种基于遗传算法的自动标注方法,包括依次执行以下步骤:步骤1,预处理:获取评论,从评论中删除长度小于两个单词的评论和所有非字母数字字符,然后取小写字母,在标记化后剔除存在于NLTK语料库中的终止词,接下来,将单词简化为词根形式;步骤2,主题建模:采用LDA主题建模方法,给定一个评论列表R={r1,r2,…,rn},获得相应的词汇D={ω1,ω2,...,ωd},话题β={β1,β2,...,βk};步骤3,基于遗传算法的主题标注:设计适合该主题标注场景的染色体结构、适应度参数以及遗传算子。本发明的有益效果是:利于开发者和用户了解应用评论。
公开/授权文献
- CN112988981A 一种基于遗传算法的自动标注方法 公开/授权日:2021-06-18