一种电网营配系统中文分词的方法及系统
Abstract:
本发明提供一种电网营配系统中文分词的方法,包括步骤:建立电网营配分词词库;选取预设场景对应的分词词库;对待处理数据的前2个字按所述步骤二中的分词词库进行逐个哈希索引;对所述处理数据的剩余字串按预设顺序进行排列,根据所述步骤二中的分词词库对排列后的数据进行逐字匹配;提取样本数据形成大数据训练集和验证集;对分词特征指标进行评价。本发明提出在经典的词典分词方法基础上提出改进TRIE索引树的分词方法,进一步提出了双数组Trie分词方法,更能适应电力业务环境;通过结合电力业务场景需求提出一种中文分词方法,高效、准确提取电力业务对象的特征信息,特征提取满足一定的同义识别率、歧义识别率和新词识别率指标。
Public/Granted literature
Patent Agency Ranking
0/0