发明授权
- 专利标题: 一种基于关键词的文章生成方法
-
申请号: CN202010071315.0申请日: 2020-01-21
-
公开(公告)号: CN111274776B公开(公告)日: 2020-12-15
- 发明人: 梁峰 , 鲁道沅 , 王严博
- 申请人: 中国搜索信息科技股份有限公司
- 申请人地址: 北京市大兴区北兴路(东段)2号1幢一层120房间
- 专利权人: 中国搜索信息科技股份有限公司
- 当前专利权人: 中国搜索信息科技股份有限公司
- 当前专利权人地址: 北京市大兴区北兴路(东段)2号1幢一层120房间
- 代理机构: 北京市盛峰律师事务所
- 代理商 于国强
- 主分类号: G06F40/166
- IPC分类号: G06F40/166 ; G06F40/289 ; G06F16/31
摘要:
本发明公开了一种基于关键词的文章生成方法,包括S1、利用爬虫获取互联网上的散文内容,并将其作为初始训练数据集,对所述初始训练数据集进行分段,获取多个段落文本,给各个段落文本配置ID编号,并将所有段落文本汇总为散文段落数据集;S2、根据ID编号对所述散文段落数据集建立索引,以获取散文段落数据集的索引;对所述散文段落数据集进行切词,并对分词结果进行训练,以获取散文段落数据集的sentence特征向量模型;S3、获取用户提交的待生成文本的关键词和待生成文本的段落数量;等步骤。优点是:采用了全新的基于sentence的正排索引和倒排索引工程实现服务在线计算服务,在线计算性能高,可以反复生成keyword的多种语义角度的文本文章。
公开/授权文献
- CN111274776A 一种基于关键词的文章生成方法 公开/授权日:2020-06-12