一种基于领域适应性的网络文本的分词方法
摘要:
本发明公布了一种基于领域适应性的社交网络文本的分词方法,通过建立集成式神经网络和采用自训练的学习方法,利用跨领域的新闻语料、社交网络中的标注数据和无标注数据对集成式神经网络模型进行训练;具体将社交网络文本分为标注和未标注数据集合作为输入;将新闻领域语料作为源语料,在新闻源语料上预训练源分类器;通过对源分类器赋予权重的方式进行源分类器的集成;使用社交网络语料对集成式神经网络模型进行训练;利用训练好的集成式神经网络模型进行预测,由此提升社交网络分词的效果。本发明可用于解决社交网络中因为数据过少导致的效果差的问题,能够有效地提升社交网络文本分词的效果。
公开/授权文献
0/0