分词的方法及装置
    1.
    发明授权

    公开(公告)号:CN105718586B

    公开(公告)日:2018-12-28

    申请号:CN201610051438.1

    申请日:2016-01-26

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种分词方法和装置,装置包括包括用于训练词标注模型的分词&标注模块和CRF训练模块,以及用于分词应用的初始分词模块、词标注模块和词合并模块。首先使用CRF训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N‑最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N‑最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。采用CRF进行词标注,考虑了全局上下文信息,有利于提高词合并的准确性。

    分词的方法及装置
    6.
    发明公开

    公开(公告)号:CN105718586A

    公开(公告)日:2016-06-29

    申请号:CN201610051438.1

    申请日:2016-01-26

    IPC分类号: G06F17/30

    CPC分类号: G06F17/3071 G06F17/30707

    摘要: 本发明公开了一种分词方法和装置,装置包括用于训练词标注模型的分词&标注模块和CRF训练模块,以及用于分词应用的初始分词模块、词标注模块和词合并模块。首先使用CRF训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N?最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N?最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。采用CRF进行词标注,考虑了全局上下文信息,有利于提高词合并的准确性。