一种基于文本挖掘的实体发现方法
摘要:
本发明涉及一种基于文本挖掘的实体发现方法,包括:选择一个文本子集;进行实体抽取,并将抽取结果与真实标注进行比较;根据抽取结果和真实标注之间的差异,随机采样出需要进行人工标注的候选数据;人工打标候选数据;使用已标注数据训练实体抽取模型,并返回实体抽取步骤进行选代训练和标注。本发明的有益效果是:本发明在实体发现过程中,能够有效地选择需要标注的未标注语料样本,用于增加已标注数据,同时通过利用已有的标注数据,不断地迭代训练和标注实体抽取模型,以达到提高模型精度的目的;进而,本发明可以提高实体抽取模型的精度,减少人工标注数据的数量和时间成本,提高实体抽取的自动化程度。
0/0