识别技术文件中关键词的方法及系统
摘要:
本发明提供一种识别技术文件中关键词的方法,包括:对技术文件中不同长度的词汇进行识别,以生成多个不同长度词汇的哈希表;对每个哈希表进行排序,并提取哈希表中的元素,以生成高频词汇列表;去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。实施上述方法的系统,包括词汇预处理装置、哈希表处理装置与不完整词汇去除装置,词汇预处理装置用于对技术文件中不同长度的词汇进行识别,以生成多个不同长度词汇的哈希表;哈希表处理装置用于对每个哈希表进行排序,并提取哈希表中元素,生成高频词汇列表;不完整词汇去除装置用于去除列表中的不完整词汇,得到关键词汇列表。本发明可辅助审查人员快速获取技术文件中的关键信息。
公开/授权文献
0/0