一种基于多正则化结合的胶囊模型的中文分词方法

    公开(公告)号:CN109766553A

    公开(公告)日:2019-05-17

    申请号:CN201910018546.2

    申请日:2019-01-09

    Abstract: 本发明提供了一种基于多正则化结合的胶囊模型的中文分词方法,通过增加胶囊滑动窗口capsule sliding window,将胶囊模型迁移应用到自然语言处理NLP序列标注任务即中文分词任务中,解决了胶囊模型并不适用于序列标注的任务的技术问题;将多个正则化项联合,实现简单的领域迁移,本发明将胶囊模型适应到序列标注任务上,完成了更高准确率的中文分词,帮助更复杂的自然语言处理任务;通过多正则项的联合,提升了模型的泛化能力,实现了一定的领域迁移,能够减少人工语料的标注,降低在自然语言处理研究时人工标注语料的人工和时间成本。

Patent Agency Ranking