一种基于领域适应性的网络文本的分词方法

    公开(公告)号:CN107291837B

    公开(公告)日:2020-04-03

    申请号:CN201710397541.6

    申请日:2017-05-31

    申请人: 北京大学

    IPC分类号: G06F16/35 G06F40/289 G06N3/08

    摘要: 本发明公布了一种基于领域适应性的社交网络文本的分词方法,通过建立集成式神经网络和采用自训练的学习方法,利用跨领域的新闻语料、社交网络中的标注数据和无标注数据对集成式神经网络模型进行训练;具体将社交网络文本分为标注和未标注数据集合作为输入;将新闻领域语料作为源语料,在新闻源语料上预训练源分类器;通过对源分类器赋予权重的方式进行源分类器的集成;使用社交网络语料对集成式神经网络模型进行训练;利用训练好的集成式神经网络模型进行预测,由此提升社交网络分词的效果。本发明可用于解决社交网络中因为数据过少导致的效果差的问题,能够有效地提升社交网络文本分词的效果。

    一种基于领域适应性的网络文本的分词方法

    公开(公告)号:CN107291837A

    公开(公告)日:2017-10-24

    申请号:CN201710397541.6

    申请日:2017-05-31

    申请人: 北京大学

    IPC分类号: G06F17/30 G06F17/27 G06N3/08

    摘要: 本发明公布了一种基于领域适应性的社交网络文本的分词方法,通过建立集成式神经网络和采用自训练的学习方法,利用跨领域的新闻语料、社交网络中的标注数据和无标注数据对集成式神经网络模型进行训练;具体将社交网络文本分为标注和未标注数据集合作为输入;将新闻领域语料作为源语料,在新闻源语料上预训练源分类器;通过对源分类器赋予权重的方式进行源分类器的集成;使用社交网络语料对集成式神经网络模型进行训练;利用训练好的集成式神经网络模型进行预测,由此提升社交网络分词的效果。本发明可用于解决社交网络中因为数据过少导致的效果差的问题,能够有效地提升社交网络文本分词的效果。

    一种基于语义相关度模型的中文文本摘要获取方法

    公开(公告)号:CN107291836B

    公开(公告)日:2020-06-02

    申请号:CN201710397540.1

    申请日:2017-05-31

    申请人: 北京大学

    IPC分类号: G06F16/34 G06F40/30

    摘要: 本发明公布了一种基于语义相关度模型的中文文本摘要获取方法,设计文本编码器利用深度神经网络将原文本进行压缩,得到原文本的编码向量;设计摘要解码生成器生成摘要的解码向量;再通过构建语义相关度模型,得到原文本的编码向量和摘要的解码向量之间的相关度,作为原文本和生成摘要之间相关性的度量;再通过训练语义相关度模型最大化所述相关度,由此生成完整的摘要。使用本发明技术方案生成文本摘要,能够提高生成摘要的质量和准确度,尤其提高生成摘要与原文本的语义相关度。

    一种基于迁移学习的低资源领域分词器训练方法及分词方法

    公开(公告)号:CN107967253A

    公开(公告)日:2018-04-27

    申请号:CN201711026810.4

    申请日:2017-10-27

    申请人: 北京大学

    IPC分类号: G06F17/27 G06K9/62 G06N3/04

    摘要: 本发明公开了一种基于迁移学习的低资源领域分词器训练方法及分词方法。本方法为:1)在目标领域和各设定领域分别训练生成对应的分词器;2)利用各领域的分词器对目标领域的语料分词处理,获得各分词器在该目标领域的语料上每个字xi的隐层表示;3)计算各分词器在字xi的隐层表示与目标领域的分词器t在字xi的隐层表示的相关度,然后根据相关度得到各领域分词器对字xi的权重向量;4)根据权重向量对各分词器得到的隐层表示进行加权求和,得到一最终的隐层表示,并以该最终的隐层表示计算字xi的标签;5)根据各字的预测标签与标准结果训练得到该目标领域的分词器。本发明的分词器大大提高了低资源领域语料的分词效果。

    一种基于语义相关度模型的中文文本摘要获取方法

    公开(公告)号:CN107291836A

    公开(公告)日:2017-10-24

    申请号:CN201710397540.1

    申请日:2017-05-31

    申请人: 北京大学

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明公布了一种基于语义相关度模型的中文文本摘要获取方法,设计文本编码器利用深度神经网络将原文本进行压缩,得到原文本的编码向量;设计摘要解码生成器生成摘要的解码向量;再通过构建语义相关度模型,得到原文本的编码向量和摘要的解码向量之间的相关度,作为原文本和生成摘要之间相关性的度量;再通过训练语义相关度模型最大化所述相关度,由此生成完整的摘要。使用本发明技术方案生成文本摘要,能够提高生成摘要的质量和准确度,尤其提高生成摘要与原文本的语义相关度。