一种基于遗传算法的自动标注方法
摘要:
本发明提供了一种基于遗传算法的自动标注方法,包括依次执行以下步骤:步骤1,预处理:获取评论,从评论中删除长度小于两个单词的评论和所有非字母数字字符,然后取小写字母,在标记化后剔除存在于NLTK语料库中的终止词,接下来,将单词简化为词根形式;步骤2,主题建模:采用LDA主题建模方法,给定一个评论列表R={r1,r2,…,rn},获得相应的词汇D={ω1,ω2,...,ωd},话题β={β1,β2,...,βk};步骤3,基于遗传算法的主题标注:设计适合该主题标注场景的染色体结构、适应度参数以及遗传算子。本发明的有益效果是:利于开发者和用户了解应用评论。
公开/授权文献
0/0