一种专利技术领域的创新主题挖掘方法
摘要:
本发明公开一种专利技术领域的创新主题挖掘方法,涉及数据挖掘技术领域,包括:获取并预处理专利技术领域的专利文献,构建向量空间模型;基于困惑度的方法确定最优主题数,构建LDA主题模型,并生成文档‑主题矩阵和主题‑特征词矩阵;针对主题‑特征词矩阵,利用四分位数法得到四分化主题‑特征词概率分布矩阵;对四分化主题‑特征词概率分布矩阵进行关联统计,得到主题间相同特征词来构建邻接矩阵,定义邻接矩阵的二值化规则,完成邻接矩阵的二值化处理;基于二值化的邻接矩阵,绘制专利主题网络图,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利技术领域的创新主题。本发明可以挖掘专利技术领域的新主题。
公开/授权文献
0/0