- 专利标题: 用于自主工业软件文本数据的关键词抽取方法及装置
-
申请号: CN202210079886.8申请日: 2022-01-24
-
公开(公告)号: CN114492394B公开(公告)日: 2024-07-12
- 发明人: 王立平 , 王冬 , 李学崑 , 蔡恩磊 , 张超 , 史慧杰
- 申请人: 清华大学
- 申请人地址: 北京市海淀区清华园
- 专利权人: 清华大学
- 当前专利权人: 清华大学
- 当前专利权人地址: 北京市海淀区清华园
- 代理机构: 北京清亦华知识产权代理事务所
- 代理商 黄德海
- 主分类号: G06F40/216
- IPC分类号: G06F40/216 ; G06N3/0442 ; G06N3/045 ; G06N3/08
摘要:
本申请公开了一种用于自主工业软件文本数据的关键词抽取方法及装置,其中,方法包括:获取自主工业软件的待提取关键词文档;将待提取关键词文档输入至预先训练的关键词抽取模型,获取待提取关键词文档中每个词语对应的关键词概率,其中,关键词抽取模型由自主工业软件训练数据建立;以及由关键词概率大于预设概率的至少一个词语抽取得到待提取关键词文档的至少一个关键词,其中,至少一个词语的数量根据文本长度和实际关键词概率确定。由此,解决了相关技术中心在抽取自主工业软件文本数据的关键词时,无法高效且准确地对文本数据进行关键词抽取,抽取效果较差,无法满足使用需求的技术问题。
公开/授权文献
- CN114492394A 用于自主工业软件文本数据的关键词抽取方法及装置 公开/授权日:2022-05-13