• 专利标题: 一种面向有意义串挖掘的重复串提取方法及装置
  • 专利标题(英): Method for extracting repeated strings facing meaningful string mining and device
  • 申请号: CN201010117305.2
    申请日: 2010-03-04
  • 公开(公告)号: CN101794308B
    公开(公告)日: 2012-03-14
  • 发明人: 王巍杨武苘大鹏董红臣
  • 申请人: 哈尔滨工程大学
  • 申请人地址: 黑龙江省哈尔滨市南岗区南通大街145号1号楼哈尔滨工程大学科技处知识产权办公室
  • 专利权人: 哈尔滨工程大学
  • 当前专利权人: 哈尔滨工程大学
  • 当前专利权人地址: 黑龙江省哈尔滨市南岗区南通大街145号1号楼哈尔滨工程大学科技处知识产权办公室
  • 主分类号: G06F17/30
  • IPC分类号: G06F17/30
一种面向有意义串挖掘的重复串提取方法及装置
摘要:
本发明提供的是一种面向有意义串挖掘的重复串提取方法及装置。方法包括下列步骤:步骤A:语料预处理;步骤B:重复串提取;步骤C:重复串修剪。装置由语料预处理模块、重复串发现模块和重复串修剪模块连接组成。本发明提取的重复串可经过进一步深度分析以得到有意义串,可以广泛应用于网络舆情管理、互联网智能信息处理等应用领域。
0/0