- 专利标题: 短文本数据增强方法、系统及检测认证服务平台
-
申请号: CN201711080284.X申请日: 2017-11-06
-
公开(公告)号: CN107784112B公开(公告)日: 2020-03-03
- 发明人: 赵国祥 , 刘小茵 , 刘业政 , 朱婷婷 , 李玲菲 , 高智伟 , 尚斌 , 姜元春 , 孙春华 , 孙见山 , 程广明
- 申请人: 广州赛宝认证中心服务有限公司 , 合肥工业大学 , 工业和信息化部电子第五研究所
- 申请人地址: 广东省广州市天河区东莞庄路110号
- 专利权人: 广州赛宝认证中心服务有限公司,合肥工业大学,工业和信息化部电子第五研究所
- 当前专利权人: 广州赛宝认证中心服务有限公司,合肥工业大学,工业和信息化部电子第五研究所
- 当前专利权人地址: 广东省广州市天河区东莞庄路110号
- 代理机构: 广州华进联合专利商标代理有限公司
- 代理商 黄隶凡
- 主分类号: G06F16/335
- IPC分类号: G06F16/335 ; G06F16/33 ; G06F16/31 ; G06F16/35
摘要:
本发明涉及一种短文本数据增强方法,包括以下步骤:获取短文本文档合集,打开短文本文档合集内的所有文档,读取各文档的文本内容;将各文本内容作为文本数据增强项分别传送至临时存储区中;将临时存储区中的各文本数据增强项分别写入对应的文档中。上述短文本数据增强方法,通过读取文档的文本内容,将文本内容作为文本数据增强项传送至临时存储区中,将文本数据增强项写入文档中,在不引用外部信息的情况下,利用自身数据信息,增加文本长度,增强主题信息,有效提高主题质量,缓解了文本内容过少、文本稀疏性太强而无法深入理解主题信息的问题,有利于文本主题的挖掘。
公开/授权文献
- CN107784112A 短文本数据增强方法、系统及检测认证服务平台 公开/授权日:2018-03-09