-
公开(公告)号:CN114357985A
公开(公告)日:2022-04-15
申请号:CN202111647750.4
申请日:2021-12-29
申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F40/253 , G06F40/289 , G06F40/30 , G06K9/62
摘要: 本申请实施例提供了一种文本数据生成方法、计算机设备及存储介质,文本数据生成方法包括:获取无语法缺陷的第三文本;将所述第三文本输入生成模型,生成所述第三文本对应的第一生成文本,和用于指示所述第一生成文本存在语法缺陷的目标概率,所述生成模型是基于无语法缺陷的第一文本和有语法缺陷的第二文本训练得到的;根据所述第一生成文本对应的目标概率,确定所述第一生成文本为目标文本。生成模型学习到第二文本对应的语法错误规律,训练后的生成模型能够发挥生成结果多样的优异特性,可以自动构建出大量包含语法缺陷的文本。
-
公开(公告)号:CN114357964A
公开(公告)日:2022-04-15
申请号:CN202111632605.9
申请日:2021-12-28
申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F40/194 , G06F40/30 , G06Q50/20
摘要: 本申请实施例提供了一种主观题评分方法、模型的训练方法、计算机设备及存储介质,评分方法包括:获取标准答案中的若干要点文本和每个要点文本的要点满分分值;获取考生作答文本;对要点文本和考生作答文本进行匹配处理,得到考生作答文本与要点文本的匹配程度;根据每个要点文本的要点满分分值,及考生作答文本与每个要点文本的匹配程度,确定考生作答文本对应的作答分值。对要点文本和考生作答文本进行匹配处理,确定考生作答文本与要点文本的匹配程度,根据匹配程度确定考生作答文本对应的作答分值;可以在评分过程中利用标准答案中每个要点所占分值之间的分值关系这一有效信息,因此评分的准确性较高,可以降低与人工评分之间的误差。
-
公开(公告)号:CN114282046A
公开(公告)日:2022-04-05
申请号:CN202111601552.4
申请日:2021-12-24
申请人: 中科讯飞互联(北京)信息科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC分类号: G06F16/683 , G06F16/65 , G06F16/635 , G06F16/632 , G06F40/30
摘要: 本申请提供了一种风格语料获取方法及相关方法和设备,其中,风格语料获取方法可实现风格语料的自动获取,且该风格语料获取方法可获取到质量较佳的风格语料,在本申请提供的风格语料获取方法的基础上,本申请还提供了一种风格迁移模型构建方法,该风格迁移模型构建方法可基于本申请提供的风格语料获取方法获取的风格语料集构建风格迁移模型,在本申请提供的风格迁移模型构建方法的基础上,本申请还提供了一种风格迁移方法,该风格迁移方法可将待处理文本输入利用本申请提供的风格迁移模型构建方法构建的风格迁移模型进行处理,从而得到风格迁移模型输出的风格文本。
-
公开(公告)号:CN114154497A
公开(公告)日:2022-03-08
申请号:CN202111467935.7
申请日:2021-12-03
申请人: 科大讯飞河北科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F40/289 , G06F40/211 , G06F40/30 , G06K9/62
摘要: 本发明提供一种语病识别方法、装置、电子设备和存储介质,所述方法包括:确定待识别语句;提取待识别语句中各分词的分词表示;基于待识别语句中各分词的分词表示,以及待识别语句的句法结构,对待识别语句进行语病识别;分词表示用于表征对应分词的上下文语义和对应分词与待识别语句中其余分词间的句法依赖关系。本发明提供的语病识别方法、装置、电子设备和存储介质,能够结合语义信息和句法信息对待识别语句中的句法结构问题和语义问题进行病句识别,进而准确得到病句识别结果。
-
公开(公告)号:CN113158648A
公开(公告)日:2021-07-23
申请号:CN202011449650.6
申请日:2020-12-09
申请人: 中科讯飞互联(北京)信息科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC分类号: G06F40/232 , G06F40/289
摘要: 本申请公开了一种文本补全方法以及电子设备、存储装置,其中文本补全方法包括:获取待补全文本,并确定待补全文本的缺失内容所源自的文本库;其中,待补全文本包括至少一个缺失位置;利用文本库对待补全文本进行补全预测,得到缺失位置的至少一个候选词语;利用各个缺失位置的候选词语,得到待补全文本的完整文本。上述方案,能够提高文本补全的效率并降低文本补全的成本。
-
公开(公告)号:CN114298031A
公开(公告)日:2022-04-08
申请号:CN202111544933.3
申请日:2021-12-16
申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F40/289 , G06F40/247 , G06K9/62 , G06F40/166
摘要: 本申请涉及人工智能技术领域,并公开了一种文本处理方法、计算机设备及存储介质,所述方法包括:获取待处理文本,所述待处理文本包括至少一条自然语言语句;将所述待处理文本输入预训练的文本润色模型,对所述自然语言语句、所述自然语言语句中的修饰词,和/或所述自然语言语句中的待优化词汇进行润色处理,得到目标文本。能够对文本从语句、语句的修饰词和/或语句的词汇层级进行润色处理,可以高效准确地提高文本内容的质量。
-
公开(公告)号:CN111914544A
公开(公告)日:2020-11-10
申请号:CN202010833375.1
申请日:2020-08-18
申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F40/279 , G06F16/35
摘要: 本申请提供了一种比喻句识别方法、装置、设备及存储介质,其中,方法包括:在获得目标句子后,一方面利用预先建立的比喻句识别模型从目标句子中抽取比喻成分,另一方面利用比喻句识别模型对目标句子进行分类,从而获得目标句子的比喻成分抽取结果和分类结果,进而根据比喻成分抽取结果和分类结果获得目标句子的比喻句识别结果。本申请不但可实现比喻句识别,而且,由于比喻成分的抽取与句子分类是两个独立的过程,因此,基于比喻成分抽取结果以及分类结果能够获得准确的比喻句识别结果,另外,本申请将喻词也作为比喻成分的一部分,将喻词作为需要抽取的比喻成分的一部分能够更好地抓取多种多样的比喻形式,从而能够提升比喻句识别效果。
-
公开(公告)号:CN110008327A
公开(公告)日:2019-07-12
申请号:CN201910257194.6
申请日:2019-04-01
申请人: 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F16/332 , G06F16/33 , G06F17/27 , G06Q50/18
摘要: 本发明实施例提供一种法律回答生成方法及装置,属于自然语言处理技术领域。包括:获取问题数据,问题数据与法律咨询相关;将问题数据输入至强化学习模型中,输出回答数据。由于强化学习模型是基于初始模型训练得到的,而初始模型的类型为编解码模型,而不是基于历史信息检索,从而不需要依赖于历史的法律问答数据,可以针对法律提问创造出新的回答数据。因此,能够提供覆盖范围较广的回答。其次,由于初始模型的类型为编解码模型,从而不需要以三元组的形式表示训练数据,进而经初始模型训练得到的强化学习模型更适用于法律提问的回答。
-
公开(公告)号:CN114417785A
公开(公告)日:2022-04-29
申请号:CN202111614301.X
申请日:2021-12-27
申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F40/117 , G06F40/30 , G06F16/35
摘要: 本申请实施例提供了一种知识点标注方法、模型的训练方法、计算机设备及存储介质,标注方法包括:获取目标文本;将目标文本输入预设的深层语言模型,得到目标文本对应的文本内容表征;获取预设的知识点标签集合对应的知识点表征,知识点表征是基于深层语言模型对知识点标签集合中的知识点标签进行处理得到的;对文本内容表征和知识点表征进行匹配处理,得到目标文本对应的知识点标签。基于深层语言模型可以对目标文本进行更深层的语义建模,得到的文本内容表征也可以更好地适应多标签分类任务;知识点表征包含了知识点体系的信息,与文本内容表征结合,可以提升知识点的识别效果。
-
公开(公告)号:CN114298032A
公开(公告)日:2022-04-08
申请号:CN202111547437.3
申请日:2021-12-16
申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F40/289 , G06F40/194 , G06K9/62
摘要: 本申请涉及语言处理技术领域,并公开了一种文本标点检测方法、计算机设备及存储介质,所述方法包括:获取待识别文本,将所述待识别文本输入预训练的目标语言模型,其中,所述目标语言模型为基于目标训练样本对预设语言模型进行训练后,得到的融合了用于分析文本中字符的上下文信息和词性的网络层,所述目标训练样本为基于回译数据增强策略对文本数据进行标点修正后,得到的文本数据;基于所述目标语言模型分析所述待识别文本中字符的上下文信息和词性,得到所述待识别文本的标点标签序列;基于所述标点标签序列对所述待识别文本进行标点检测。旨在提高对文本标点检测的准确性。
-
-
-
-
-
-
-
-
-