发明公开
- 专利标题: 一种基于文本挖掘的实体发现方法
-
申请号: CN202310746512.1申请日: 2023-06-25
-
公开(公告)号: CN116702897A公开(公告)日: 2023-09-05
- 发明人: 孟瑜炜 , 俞荣栋 , 张震伟 , 傅骏伟 , 王豆 , 郭鼎 , 叶斌 , 郭庆 , 顾宝 , 叶欣楠 , 杨晓蓉 , 李松岳
- 申请人: 浙江浙能数字科技有限公司 , 杭州电子科技大学
- 申请人地址: 浙江省杭州市西湖区高技街32号307室;
- 专利权人: 浙江浙能数字科技有限公司,杭州电子科技大学
- 当前专利权人: 浙江浙能数字科技有限公司,杭州电子科技大学
- 当前专利权人地址: 浙江省杭州市西湖区高技街32号307室;
- 代理机构: 杭州九洲专利事务所有限公司
- 代理商 张羽振
- 主分类号: G06N5/02
- IPC分类号: G06N5/02 ; G06F18/23213 ; G06N3/0442 ; G06N3/08 ; G06F40/30 ; G06Q50/06
摘要:
本发明涉及一种基于文本挖掘的实体发现方法,包括:选择一个文本子集;进行实体抽取,并将抽取结果与真实标注进行比较;根据抽取结果和真实标注之间的差异,随机采样出需要进行人工标注的候选数据;人工打标候选数据;使用已标注数据训练实体抽取模型,并返回实体抽取步骤进行选代训练和标注。本发明的有益效果是:本发明在实体发现过程中,能够有效地选择需要标注的未标注语料样本,用于增加已标注数据,同时通过利用已有的标注数据,不断地迭代训练和标注实体抽取模型,以达到提高模型精度的目的;进而,本发明可以提高实体抽取模型的精度,减少人工标注数据的数量和时间成本,提高实体抽取的自动化程度。