一种基于细粒度主题建模的数据到文本生成方法

    公开(公告)号:CN112069827B

    公开(公告)日:2022-12-09

    申请号:CN202010754044.9

    申请日:2020-07-30

    发明人: 王旭强

    摘要: 本发明公开了一种基于细粒度主题建模的数据到文本生成方法,包括以下步骤:在编码层基于双向长短期记忆网络学习每个数据记录的语义表示;基于非负矩阵分解方法学习每个数据记录对应的主题分布以及各主题对应的词分布,得到每个数据记录对应的主题词表;在解码层基于每个数据记录的语义表示,利用长短期记忆网络、注意力机制、细粒度主题表示,并结合主题词表,进行文本生成;进行模型训练,得到最优的文本生成结果。本发明通过利用非负矩阵分解方法挖掘数据的主题分布以及主题对应的词分布,并以此来约束生成文本和数据表之间的主题一致性,并指导模型学习到更准确的用词方式;在文本生成过程中引入复制机制,保证模型可以准确生成数值描述。