发明公开
- 专利标题: 一种基于lucene全文检索的中文分词方法
- 专利标题(英): Lucene full-text retrieval based Chinese word segmentation method
-
申请号: CN201510704461.1申请日: 2015-10-27
-
公开(公告)号: CN105279150A公开(公告)日: 2016-01-27
- 发明人: 王成现 , 王全强 , 郝翠萍
- 申请人: 江苏电力信息技术有限公司 , 江苏省电力公司
- 申请人地址: 江苏省南京市鼓楼区广州路189号民防大厦
- 专利权人: 江苏电力信息技术有限公司,江苏省电力公司
- 当前专利权人: 江苏电力信息技术有限公司,江苏省电力公司
- 当前专利权人地址: 江苏省南京市鼓楼区广州路189号民防大厦
- 代理机构: 南京汇盛专利商标事务所
- 代理商 陈扬
- 主分类号: G06F17/27
- IPC分类号: G06F17/27
摘要:
本发明公开了一种基于lucene全文检索的中文分词方法,将字典以每行一个词的形式存储在数据库中;将数据库中的字典以树的形式缓存在服务器中;输入需要分词的文本信息;文本逐字匹配缓存中的字典树,输出匹配成功的最长的词语;输出分词结果。该方法使用户可以从海量模糊数据中,提取有用信息加以详细研究和概括总结,方便用户进行语义分析和数据分析,从而及时发现营销服务中的问题,提高电网营销服务水平。