-
公开(公告)号:CN113761882B
公开(公告)日:2024-09-20
申请号:CN202010513089.7
申请日:2020-06-08
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
IPC分类号: G06F40/242 , G06F40/216 , G06F16/35
摘要: 本发明公开了一种词典构建方法和装置,涉及计算机技术领域。该方法的一种具体实施方式包括:根据标点符号将目标文本中的句子划分为一个或多个子句;使用基于半监督学习算法训练的文本分类模型,预测目标文本中的子句归属于预先构建的商品要素词典所包含的商品要素的第一概率;在所述子句归属于所述商品要素的第一概率大于第一阈值概率的情况下,计算所述子句中除所述商品要素当前包含的要素词以外的词归属于所述商品要素的第二概率;在所述词归属于所述商品要素的第二概率大于第二阈值概率的情况下,将所述词用作所述商品要素的要素词添加至所述商品要素词典。该实施方式实现了对词典的自动扩充,提高了词典的构建效率。
-
公开(公告)号:CN113779232A
公开(公告)日:2021-12-10
申请号:CN202010536993.X
申请日:2020-06-12
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
IPC分类号: G06F16/34 , G06F40/30 , G06F40/126 , G06F40/242 , G06N3/04 , G06N3/08
摘要: 本公开涉及信息处理技术领域,提供了一种物品摘要生成方法、物品摘要生成装置、计算机存储介质、电子设备,其中,物品摘要生成方法包括:基于物品的描述词汇集构建训练数据集,并根据训练数据集进行根据输入词汇确定初始摘要的模型训练以得到初始模型;将初始摘要与模板摘要的相似度作为强化学习的奖励函数;其中,摘要模板中包含物品关键词;根据奖励函数和训练数据集对初始模型进行强化训练,并根据经过强化训练后得到的摘要描述模型生成目标摘要。本公开中的物品摘要生成方法能够根据输入物品的关键词自动撰写物品的摘要,解决相关技术中生成的物品摘要不能准确涵盖物品关键信息的技术问题,使得撰写质量得以把控,保证物品摘要的准确性。
-
公开(公告)号:CN113761882A
公开(公告)日:2021-12-07
申请号:CN202010513089.7
申请日:2020-06-08
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
IPC分类号: G06F40/242 , G06F40/216 , G06F16/35
摘要: 本发明公开了一种词典构建方法和装置,涉及计算机技术领域。该方法的一种具体实施方式包括:根据标点符号将目标文本中的句子划分为一个或多个子句;使用基于半监督学习算法训练的文本分类模型,预测目标文本中的子句归属于预先构建的商品要素词典所包含的商品要素的第一概率;在所述子句归属于所述商品要素的第一概率大于第一阈值概率的情况下,计算所述子句中除所述商品要素当前包含的要素词以外的词归属于所述商品要素的第二概率;在所述词归属于所述商品要素的第二概率大于第二阈值概率的情况下,将所述词用作所述商品要素的要素词添加至所述商品要素词典。该实施方式实现了对词典的自动扩充,提高了词典的构建效率。
-
公开(公告)号:CN113407707A
公开(公告)日:2021-09-17
申请号:CN202010182475.2
申请日:2020-03-16
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
IPC分类号: G06F16/34 , G06F40/284
摘要: 本发明公开了一种生成文本摘要的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对待生成摘要的文本数据进行编码以得到隐层序列;根据预设要素词典和基于要素的覆盖度机制对隐层序列进行解码以生成文本摘要。该实施方式避免了对同一要素施加重复的注意力,进而减少摘要中对同一个要素的重复描述,降低了生成的摘要的冗余度,使得生成的文本摘要更为精简,准确,可以涵盖更多的信息。
-
公开(公告)号:CN111738791A
公开(公告)日:2020-10-02
申请号:CN202010065630.2
申请日:2020-01-20
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
IPC分类号: G06Q30/06
摘要: 本发明实施例公开了一种文本处理方法、装置、设备和存储介质,该方法包括:获取用于描述目标物品的目标标题文本;基于预设序列标注网络模型,确定目标标题文本对应的目标序列标注结果,目标序列标注结果用于表征目标标题文本中卖点关键词的所在位置;根据目标序列标注结果,确定目标标题文本中的目标卖点关键词;其中,预设序列标注网络模型是预先根据样本数据训练获得的,样本数据包括样本标题文本和各个预设卖点关键词对应的实际物品转化率。通过本发明实施例的技术方案,可以提取出更优质的卖点关键词,进而提高物品的转化率。
-
公开(公告)号:CN111738791B
公开(公告)日:2024-05-24
申请号:CN202010065630.2
申请日:2020-01-20
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
IPC分类号: G06Q30/0601
摘要: 本发明实施例公开了一种文本处理方法、装置、设备和存储介质,该方法包括:获取用于描述目标物品的目标标题文本;基于预设序列标注网络模型,确定目标标题文本对应的目标序列标注结果,目标序列标注结果用于表征目标标题文本中卖点关键词的所在位置;根据目标序列标注结果,确定目标标题文本中的目标卖点关键词;其中,预设序列标注网络模型是预先根据样本数据训练获得的,样本数据包括样本标题文本和各个预设卖点关键词对应的实际物品转化率。通过本发明实施例的技术方案,可以提取出更优质的卖点关键词,进而提高物品的转化率。
-
公开(公告)号:CN111783395B
公开(公告)日:2023-12-08
申请号:CN202010305957.2
申请日:2020-04-17
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
IPC分类号: G06F40/126 , G06F40/253 , G06F40/30 , G06N3/0455
摘要: 本申请实施例公开了用于输出文本的方法和装置。该方法的一具体实施方式包括:获取初始文本,将初始文本输入预设的编码解码模型的编码网络中,得到编码信息;基于初始信息,执行如下解码步骤:利用编码解码模型的解码网络采用集束搜索算法对初始信息进行解码,生成预设数目个候选文本,基于候选文本中的N元语法,确定候选文本的分数,按照候选文本的分数由大到小的顺序从候选文本中选取集束宽度个候选文本,将对应有文本结束符的候选文本添加到完整文本集合中,确定集束宽度个候选文本中是否存在未对应有文本结束符的候选文本;若否,则利用文本的分数,从完整文本集合中选取目标文本进行输出。该实施方式提高了输出文本的流畅性和逻辑正确性。
-
公开(公告)号:CN113779974A
公开(公告)日:2021-12-10
申请号:CN202010530512.4
申请日:2020-06-11
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
IPC分类号: G06F40/242 , G06F40/30 , G06F40/216 , G06F40/166 , G06F16/34 , G06Q30/06
摘要: 本发明公开了一种目标文本生成方法和装置,涉及计算机技术领域。该方法的一种具体实施方式包括:基于预先构建的物品要素词典,从物品的描述文本中确定所述物品具有的一个或多个第一物品要素;根据用户历史数据,从所述第一物品要素中确定所述用户关注的、与所述物品的物品种类对应的一个或多个第二物品要素;基于强化学习算法,对所述物品的描述文本、所述第二物品要素进行训练,以获取摘要生成模型;根据目标物品的描述文本及目标用户关注的所述目标物品具有的一个或多个目标物品要素,使用所述摘要生成模型,为所述目标用户生成涵盖有所述目标物品要素的至少一部分的目标文本。该实施方式实现了个性化目标文本的生成。
-
公开(公告)号:CN113407707B
公开(公告)日:2024-10-18
申请号:CN202010182475.2
申请日:2020-03-16
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
IPC分类号: G06F16/34 , G06F40/284
摘要: 本发明公开了一种生成文本摘要的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对待生成摘要的文本数据进行编码以得到隐层序列;根据预设要素词典和基于要素的覆盖度机制对隐层序列进行解码以生成文本摘要。该实施方式避免了对同一要素施加重复的注意力,进而减少摘要中对同一个要素的重复描述,降低了生成的摘要的冗余度,使得生成的文本摘要更为精简,准确,可以涵盖更多的信息。
-
公开(公告)号:CN111767391B
公开(公告)日:2024-04-16
申请号:CN202010233974.X
申请日:2020-03-27
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
IPC分类号: G06F16/34 , G06F40/242 , G06F40/216 , G06F40/126 , G06N3/0442 , G06N3/0455
摘要: 本公开提供了一种目标文本生成方法,包括:接收输入文本,以及基于非属性词词典和输入文本,生成目标文本。其中,所述非属性词词典是通过如下操作确定的:获取样本数据,样本数据包括原始文本样本数据和目标文本样本数据,基于原始文本样本数据和目标文本样本数据确定非属性词词典,其中,非属性词词典中包括至少一个非属性词,至少一个非属性词是从目标文本样本数据中获得的。
-
-
-
-
-
-
-
-
-