-
公开(公告)号:CN107273356B
公开(公告)日:2020-08-11
申请号:CN201710448749.6
申请日:2017-06-14
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F40/289
摘要: 本发明实施例公开了一种基于人工智能的分词方法、装置、服务器和存储介质。所述方法包括:获取待分词语料以及与设定分词模板对应的分词模型;根据设定匹配算法,匹配待分词语料与分词模型,获取待分词语料中满足第一设定规则的目标词组;根据目标词组修正与分词模型和待分词语料对应的发射矩阵;根据修正后的发射矩阵对待分词语料进行分词处理,得到第一分词结果。本发明实施例的技术方案解决了现有技术中针对专业领域或特定场景,对文本进行分词的过程繁琐以及准确度低的技术缺陷,实现了快速、简单以及准确地针对专业领域或特定场景对文本进行分词。
-
公开(公告)号:CN108052658A
公开(公告)日:2018-05-18
申请号:CN201711461409.3
申请日:2017-12-28
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于人工智能的查询信息纠错构架生成方法和装置,其中,基于人工智能的查询信息纠错构架生成方法包括:获取应用场景信息;根据应用场景信息确定纠错需求信息;根据纠错需求信息从数据库中选取能够实现对应功能的网络层和/或组件,结合神经元,以生成查询信息纠错构架。本发明实施例的基于人工智能的查询信息纠错构架生成方法和装置,通过获取应用场景信息,并根据应用场景信息确定纠错需求信息,以及根据纠错需求信息从数据库中选取能够实现对应功能的网络层和/或组件,结合神经元,以生成查询信息纠错构架,能够针对不同应用场景,灵活地生成与其相对应的纠错框架,更加符合需求。
-
公开(公告)号:CN107918605A
公开(公告)日:2018-04-17
申请号:CN201711176381.9
申请日:2017-11-22
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F17/27
CPC分类号: G06F17/2775
摘要: 本发明提出一种分词处理方法、装置、移动终端及计算机可读存储介质,其中,该方法包括:分别获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量,及待分词语句中专有名词对应的第三特征向量;根据第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量;根据预设的汉字标签转移矩阵及各单字当前的第四特征向量,将待分词语句进行分词处理,确定待分词语句对应的第一分词结果;根据预设的专有名词词典及切分规则,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。由此,实现了对待分词语句的分词处理,有效避免了由于专有名词导致的分词准确率下降的问题,提高了分词结果的准确性和可靠性,改善了用户体验。
-
公开(公告)号:CN107807915A
公开(公告)日:2018-03-16
申请号:CN201710890348.6
申请日:2017-09-27
申请人: 北京百度网讯科技有限公司
摘要: 本发明实施例公开了一种基于纠错平台的纠错模型建立方法、装置、设备和介质。所述方法包括:根据用户的纠错需求确定目标纠错级别;根据所述目标纠错级别从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,组合形成纠错模型。通过采用上述技术方案,解决了现有技术中纠错模型与网站的耦合度高、无法适配网址各个发展阶段等问题。随着网站的不断发展,有效资源的不断增加,无需重新开发与当前特定应用场景及发展阶段适配的复用平台化纠错方案,实现了快速、简单地依据用户的实际纠错需求定制与网站的特定应用场景和当前发展阶段对应的纠错模型。
-
公开(公告)号:CN107621892A
公开(公告)日:2018-01-23
申请号:CN201710970949.8
申请日:2017-10-18
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F3/023
摘要: 本申请实施例公开了用于获取信息的方法及装置。该方法的一具体实施方式包括:接收查询信息,上述查询信息包括拼音查询信息和/或语义查询信息,其中,上述拼音查询信息用于查询与拼音查询信息对应的词条,上述语义查询信息用于通过词向量相似度来查询与语义查询信息对应的词条,上述词向量相似度通过词条在向量空间上的距离来表征;从词条库中查询对应上述查询信息的候选词条;对候选词条进行排序并显示。该实施方式能够获取到同时满足拼音查询信息和语义查询信息要求的候选词条,提高了用户获取词条的准确性。
-
公开(公告)号:CN109815481B
公开(公告)日:2023-05-26
申请号:CN201811541645.0
申请日:2018-12-17
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F40/295 , G06F16/35 , G06F16/34
摘要: 本发明提供一种对文本进行事件抽取的方法、装置、设备和计算机存储介质,包括:获取待处理文本;对待处理文本进行切词并对切词结果中各词语进行实体标注,根据各词语标注的标签得到待处理文本的标注序列;分别确定各标注序列中的标签能激发的事件,并将其中预设权重值最高的事件作为各标注序列的目标事件;根据各标注序列的标签集合与各标注序列的目标事件确定各标注序列的抽取事件,并从标签集合中获取与抽取事件相匹配的抽取标签;从待处理文本中获取与各抽取事件相匹配的抽取标签对应的切词结果,将抽取事件、抽取事件相匹配的抽取标签与抽取标签对应的切词结果输出,完成对待处理文本的事件抽取。本发明能够对不同领域的文本进行事件抽取。
-
公开(公告)号:CN108091328B
公开(公告)日:2021-04-16
申请号:CN201711159758.X
申请日:2017-11-20
申请人: 北京百度网讯科技有限公司
IPC分类号: G10L15/04 , G10L15/183 , G10L15/26 , G10L25/60
摘要: 本发明提供一种基于人工智能的语音识别纠错方法、装置及可读介质。其方法包括:确定语音识别的目标领域;当语音识别原文本在目标领域中存在通顺度不大于预设的通顺度阈值的原始片段时,对需要纠错的原始片段进行ED片段召回,得到原始片段的候选片段集合;利用预先训练的片段打分模型,为各候选片段进行打分;根据各候选片段的打分,通过解码的方式,从候选片段集合中,获取各原始片段在目标领域中对应的目标片段,从而得到目标领域中的语音识别的纠正文本。本发明的技术方案,弥补了现有技术的不足,提供了一种语音识别的纠错方案,能够对语音识别原文本中的错误片段进行纠正,有效地提高语音识别的准确率。
-
公开(公告)号:CN108052499A
公开(公告)日:2018-05-18
申请号:CN201711159880.7
申请日:2017-11-20
申请人: 北京百度网讯科技有限公司
摘要: 本发明提供一种基于人工智能的文本纠错方法、装置及计算机可读介质。其方法包括:获取纠错文本中已纠错的目标片段和目标片段在原文本中对应的原始片段;目标片段为基于预先训练的片段打分模型对原文本进行纠错处理时,从原始片段的多个候选片段中选出的;获取用户对基于纠错文本而反馈的目标结果的反馈信息;根据目标片段、原始片段以及反馈信息,对片段打分模型进行增量训练;基于训练后的片段打分模型,对后续的原文本进行纠错处理。本发明的技术方案,使用训练后的片段打分模型进行文本纠错时,可以有效地提高文本的纠错准确率。
-
公开(公告)号:CN107977357A
公开(公告)日:2018-05-01
申请号:CN201711175300.3
申请日:2017-11-22
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F17/27
摘要: 本发明提出一种基于用户反馈的纠错方法、装置及其设备,其中,方法包括:获取用户发送的纠错举报请求后确定与举报信息对应的原始分词片段;应用预设模型对原始分词片段的第一特征信息进行计算获取原始分词片段的置信度,在置信度小于预设阈值时根据预先建立的短语替换表获取与原始分词片段对应的候选分词片段;应用预设模型对原始分词片段和对应的候选分词片段的第二特征信息进行计算获取候选分词片段的分值;应用预设的解码算法对候选分词片段的分值进行解码处理,在解码结果对应的解码分词片段满足预设的干预条件时将解码分词片段作为目标分词片段替换对应的原始分词片段。由此,通过用户反馈的方式进行纠错处理,提高了纠错的准确性。
-
公开(公告)号:CN106951413A
公开(公告)日:2017-07-14
申请号:CN201710183974.1
申请日:2017-03-24
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F17/27
CPC分类号: G06F17/277
摘要: 本发明提出一种基于人工智能的分词方法及装置,其中,方法包括:在屏幕上显示分词模型对目标文本的分词结果;其中,分词结果中包括分词模型输出的多个分词,在分词结果中存在分词边界错误的目标分词时,对分词结果进行修正得到修正分词结果,根据修正分词结果重新对分词模型进行训练。本实施例提供了一种交互式的分词模式,用户可以灵活地对存在分词边界错误的分词进行修正,使得分词结果更加准确。进一步地,还可以将修正后的分词结果反馈给分词模型,以重新对分词模型进行训练,使得分词模型的输出更加精确,能够自适应地适配用户的应用场景。
-
-
-
-
-
-
-
-
-