-
公开(公告)号:CN111339759A
公开(公告)日:2020-06-26
申请号:CN202010107938.9
申请日:2020-02-21
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F40/242 , G06F40/295 , G06N3/04 , G06N3/08 , G06N5/02
摘要: 本申请提出一种领域要素识别模型训练方法、装置及电子设备,属于自然语言处理技术领域。其中,该方法包括:利用预设的领域词典与预设的正则表达式,对训练数据集进行标注,以生成训练数据集中每个训练数据对应的第一参考实体标注信息;利用预设的要素识别模型,对训练数据集进行识别处理,以确定每个训练数据对应的预测实体标注信息;根据每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异,对预设的要素识别模型进行更新。由此,通过这种领域要素识别模型训练方法,不仅有效提升了要素识别模型的识别效果,通用性好,而且提高了要素识别的效率,大大降低了标注成本。
-
公开(公告)号:CN111090987A
公开(公告)日:2020-05-01
申请号:CN201911378383.5
申请日:2019-12-27
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F40/211 , G06F40/242 , G06F40/295 , G06N3/04 , G06N3/08
摘要: 本公开的实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:获取待识别的语句;将待识别的语句进行切词得到词序列;将词序列输入预先训练的基于序列标注和实体词预测的多任务要素识别模型,输出识别出的实体词、实体类别和实体词位置,其中,多任务要素识别模型包括序列标注网络和实体词预测网络,序列标注网络用于执行序列标注任务,实体词预测网络用于执行实体词预测任务,BILSTM-CRF网络在LSTM的隐层之后通过融合模块与实体词预测网络融合。该实施方式将领域词典知识融入要素识别模型,提升要素识别效果。
-
公开(公告)号:CN111061860A
公开(公告)日:2020-04-24
申请号:CN201911272761.1
申请日:2019-12-12
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/34
摘要: 本申请实施例公开了摘要生成方法和装置。上述方法的一具体实施方式包括:获取目标文本,上述目标文件包括标题和正文;确定上述标题中是否包括问题;响应于确定上述标题中包括问题,在上述正文中确定信息满足段落,上述信息满足段落包括上述问题的答案;基于上述信息满足段落,生成上述目标文本的摘要。该实施方式能够生成直接满足读者获取信息的需求的摘要。
-
公开(公告)号:CN110287375A
公开(公告)日:2019-09-27
申请号:CN201910463594.2
申请日:2019-05-30
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/78 , G06F16/783 , G06F16/71
摘要: 本发明提供一种视频标签的确定方法、装置及服务器。该方法包括获取视频的用户标签,该用户标签为用户在发布该视频时添加的标签;对用户标签进行筛选,获得至少一个候选标签;根据至少一个候选标签和该视频对应的文本信息,确定该视频的视频标签。该方法提高了视频标签的准确性。
-
公开(公告)号:CN109800418A
公开(公告)日:2019-05-24
申请号:CN201811539984.5
申请日:2018-12-17
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F17/27
摘要: 本发明提供一种文本处理方法、装置和存储介质,该方法包括:根据目标领域的已有的用户评论文本,获取目标领域的情感搭配词典,情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对目标领域的评论对象的属性的情感评论;根据目标领域的待处理用户评论文本和情感搭配词典,获取待处理用户评论文本对应的情感搭配组。本发明提供的文本处理方法根据已有的用户评论文本构建目标领域的情感搭配词典,再采用该情感搭配词典获取待处理文本的情感搭配组,能够准确获取目标领域的文本的情感观点。
-
公开(公告)号:CN108959256A
公开(公告)日:2018-12-07
申请号:CN201810712807.6
申请日:2018-06-29
申请人: 北京百度网讯科技有限公司
CPC分类号: G06F17/2705 , G06F17/248 , G06F17/2785
摘要: 本发明提出一种短文本的生成方法、装置、存储介质和终端设备,其中,所述方法包括:获取用于生成短文本的槽位词;根据所述槽位词,提取与所述槽位词关联的短文本模板;其中,所述短文本模板预先与所述槽位词关联存储;所述短文本模板包括内嵌有槽位的短文本;以及将所述槽位词填入所述短文本模板中与所述槽位词匹配的槽位,生成短文本。采用本发明,可以实现生成过程的语义可控。
-
公开(公告)号:CN108875059A
公开(公告)日:2018-11-23
申请号:CN201810696336.4
申请日:2018-06-29
申请人: 北京百度网讯科技有限公司
摘要: 本公开的实施例提供了一种用于生成文档标签的方法、装置、电子设备和计算机可读存储介质。在该方法中,对给定的文档进行文本分析以得到文档的文本分析结果;将文本分析结果输入到标签生成模型来生成文档的原始标签,标签生成模型是基于训练文本分析结果和训练标签而建立的;以及优化原始标签以得到文档的目标标签。本公开的实施例可以提供高效且准确的文档标签生成。
-
公开(公告)号:CN107436922A
公开(公告)日:2017-12-05
申请号:CN201710541481.0
申请日:2017-07-05
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30707
摘要: 本发明提出一种文本标签生成方法和装置,通过针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签之后,对各标签类型的候选标签,在不同标签类型之间进行交叉验证,最终根据经过验证的候选标签,确定出目标文本的目标标签。由于分别针对包括实体词、片段文本和/或话题在内的不同标签类型,进行标签提取,并进行交叉验证,从而提高了标签提取的准确性,解决了现有技术中标签提取的准确性不高的技术问题。
-
公开(公告)号:CN107038183A
公开(公告)日:2017-08-11
申请号:CN201610881307.6
申请日:2016-10-09
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F17/30
摘要: 本发明提出了一种网页标注方法及装置,其中,方法包括:建立需求标签列表;根据所述需求标签列表挖掘训练数据;根据所述训练数据训练生成分类器,所述分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器;基于所述分类器为待标注网页标注对应的标签。通过本发明能够在无需人工标注的条件下获取大量的高质量训练数据,省时省力,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能全面地反应用户的真实需求。
-
公开(公告)号:CN112632403B
公开(公告)日:2024-04-09
申请号:CN202011554201.8
申请日:2020-12-24
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/9536 , G06Q30/0251 , G06Q30/0601
摘要: 本申请公开了一种推荐模型的训练方法、推荐方法、装置、设备和介质,涉及NLP、深度学习领域。实现方案为:并根据偏好矩阵生成参考样本,参考样本中包含所述偏好矩阵中对应元素的用户分量和物品分量、表征用户分量所对应用户对象属性的属性向量、表征物品分量所对应物品对象属性的属性向量;对参考样本中的用户分量和/或物品分量的取值置零得到训练样本,采用训练样本对推荐模型进行训练。由此,通过置零用户分量和/或物品分量,并引入了属性向量,使得推荐模型在冷启动场景下依赖属性向量,学习得到用户和/或物品的偏好信息,从而在冷启动场景下,可以提升推荐结果的准确性,提升推荐效果。
-
-
-
-
-
-
-
-
-