-
公开(公告)号:CN114154497A
公开(公告)日:2022-03-08
申请号:CN202111467935.7
申请日:2021-12-03
申请人: 科大讯飞河北科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F40/289 , G06F40/211 , G06F40/30 , G06K9/62
摘要: 本发明提供一种语病识别方法、装置、电子设备和存储介质,所述方法包括:确定待识别语句;提取待识别语句中各分词的分词表示;基于待识别语句中各分词的分词表示,以及待识别语句的句法结构,对待识别语句进行语病识别;分词表示用于表征对应分词的上下文语义和对应分词与待识别语句中其余分词间的句法依赖关系。本发明提供的语病识别方法、装置、电子设备和存储介质,能够结合语义信息和句法信息对待识别语句中的句法结构问题和语义问题进行病句识别,进而准确得到病句识别结果。
-
公开(公告)号:CN114997161A
公开(公告)日:2022-09-02
申请号:CN202210564852.8
申请日:2022-05-23
申请人: 河北省讯飞人工智能研究院 , 科大讯飞河北科技有限公司 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F40/289 , G06F40/268 , G06F40/30 , G06N3/04
摘要: 本发明提供一种关键词抽取方法、装置、电子设备与存储介质,其中方法包括:确定待抽取的文本;基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,得到所述文本的词组;基于各词组的语义特征进行关键词抽取,得到所述文本中的关键词。本发明提供的方法、装置、电子设备与存储介质,提升了关键词抽取的准确性,同时实现了基于词组粒度的关键词抽取,解决了词粒度关键词语义模糊、泛化等问题,使得提取出的关键词更加完整地保留语义,以便对文本内容的快速理解,有利于后续的推荐和检索。
-
公开(公告)号:CN114492453A
公开(公告)日:2022-05-13
申请号:CN202111677576.8
申请日:2021-12-31
申请人: 中科讯飞互联(北京)信息科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC分类号: G06F40/30 , G06F40/289 , G06F40/232 , G06N3/04 , G06N3/08
摘要: 本申请提供了一种文本纠错方法及装置、存储介质及电子设备,涉及文本处理技术领域。该文本纠错方法包括:利用错误检测模型,判断待纠错文本是否有误;若待纠错文本有误,利用错误修正模型,确定待纠错文本对应的修正文本,其中,错误检测模型由对抗生成网络中的判别器训练得到,错误修正模型由对抗生成网络中的生成器训练得到。该文本纠错方法只针对有误文本进行纠错任务,减少了错误修正模型的计算量,提高了文本纠错系统的运行速度。
-
公开(公告)号:CN114357985A
公开(公告)日:2022-04-15
申请号:CN202111647750.4
申请日:2021-12-29
申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F40/253 , G06F40/289 , G06F40/30 , G06K9/62
摘要: 本申请实施例提供了一种文本数据生成方法、计算机设备及存储介质,文本数据生成方法包括:获取无语法缺陷的第三文本;将所述第三文本输入生成模型,生成所述第三文本对应的第一生成文本,和用于指示所述第一生成文本存在语法缺陷的目标概率,所述生成模型是基于无语法缺陷的第一文本和有语法缺陷的第二文本训练得到的;根据所述第一生成文本对应的目标概率,确定所述第一生成文本为目标文本。生成模型学习到第二文本对应的语法错误规律,训练后的生成模型能够发挥生成结果多样的优异特性,可以自动构建出大量包含语法缺陷的文本。
-
公开(公告)号:CN114282527A
公开(公告)日:2022-04-05
申请号:CN202111576592.8
申请日:2021-12-22
申请人: 中科讯飞互联(北京)信息科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC分类号: G06F40/232 , G06F40/30 , G06F40/58 , G06F40/242 , G06F40/289 , G06F16/35 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明提供一种多语言文本检测与纠错方法、系统、电子设备及存储介质,所述方法包括获取待检测文本,并对所述待检测文本进行多语言字符识别以得到至少一个待识别语句;对所述待识别语句中的目标语言的字符进行语种检测,得到待检测语种单词,并对所述待检测语种单词进行拼写检测和语义检测;若至少一个所述待检测语种单词存在拼写错误和/或语义错误,则对存在拼写错误和/或语义错误的单词进行对应的拼写纠错和/或语义纠错。本发明可以更好地理解跨语言语境下的文本语义,对文本中的所有目标语言的字符进行检测并只对检测有错误的单词进行纠正。
-
公开(公告)号:CN114282046A
公开(公告)日:2022-04-05
申请号:CN202111601552.4
申请日:2021-12-24
申请人: 中科讯飞互联(北京)信息科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
IPC分类号: G06F16/683 , G06F16/65 , G06F16/635 , G06F16/632 , G06F40/30
摘要: 本申请提供了一种风格语料获取方法及相关方法和设备,其中,风格语料获取方法可实现风格语料的自动获取,且该风格语料获取方法可获取到质量较佳的风格语料,在本申请提供的风格语料获取方法的基础上,本申请还提供了一种风格迁移模型构建方法,该风格迁移模型构建方法可基于本申请提供的风格语料获取方法获取的风格语料集构建风格迁移模型,在本申请提供的风格迁移模型构建方法的基础上,本申请还提供了一种风格迁移方法,该风格迁移方法可将待处理文本输入利用本申请提供的风格迁移模型构建方法构建的风格迁移模型进行处理,从而得到风格迁移模型输出的风格文本。
-
公开(公告)号:CN113705240A
公开(公告)日:2021-11-26
申请号:CN202110888038.7
申请日:2021-08-03
申请人: 中科讯飞互联(北京)信息科技有限公司 , 河北省讯飞人工智能研究院 , 科大讯飞股份有限公司
摘要: 本申请公开了一种基于多语种分支模型的文本处理方法及相关装置,所述多语种分支模型包括嵌入层、多分支处理网络、第一混合器、共享网络和输出层,所述文本处理方法包括:基于所述嵌入层,获得待处理的文本对应的初始语义表示;基于所述多分支处理网络、所述第一混合器以及所述共享网络,对所述初始语义表示进行处理以获得综合语义表示;基于所述输出层,对所述综合语义表示进行变换以获得输出结果。通过上述方式,本申请能够在具备多语种处理能力的基础上,提高处理结果的精确度。
-
公开(公告)号:CN114298031A
公开(公告)日:2022-04-08
申请号:CN202111544933.3
申请日:2021-12-16
申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F40/289 , G06F40/247 , G06K9/62 , G06F40/166
摘要: 本申请涉及人工智能技术领域,并公开了一种文本处理方法、计算机设备及存储介质,所述方法包括:获取待处理文本,所述待处理文本包括至少一条自然语言语句;将所述待处理文本输入预训练的文本润色模型,对所述自然语言语句、所述自然语言语句中的修饰词,和/或所述自然语言语句中的待优化词汇进行润色处理,得到目标文本。能够对文本从语句、语句的修饰词和/或语句的词汇层级进行润色处理,可以高效准确地提高文本内容的质量。
-
公开(公告)号:CN114298032A
公开(公告)日:2022-04-08
申请号:CN202111547437.3
申请日:2021-12-16
申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司
IPC分类号: G06F40/289 , G06F40/194 , G06K9/62
摘要: 本申请涉及语言处理技术领域,并公开了一种文本标点检测方法、计算机设备及存储介质,所述方法包括:获取待识别文本,将所述待识别文本输入预训练的目标语言模型,其中,所述目标语言模型为基于目标训练样本对预设语言模型进行训练后,得到的融合了用于分析文本中字符的上下文信息和词性的网络层,所述目标训练样本为基于回译数据增强策略对文本数据进行标点修正后,得到的文本数据;基于所述目标语言模型分析所述待识别文本中字符的上下文信息和词性,得到所述待识别文本的标点标签序列;基于所述标点标签序列对所述待识别文本进行标点检测。旨在提高对文本标点检测的准确性。
-
公开(公告)号:CN111460120A
公开(公告)日:2020-07-28
申请号:CN202010247124.5
申请日:2020-03-31
申请人: 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司 , 科大讯飞股份有限公司
IPC分类号: G06F16/332 , G06F16/36
摘要: 本申请提供了一种对话管理方法、装置、设备及存储介质,其中,对话管理方法包括:在获得用户的对话内容后,根据用户的对话内容确定本轮对话是否由用户主导;若本轮对话由用户主导,则根据用户的对话内容,获取符合用户意图的目标话题和该目标话题的话题类型;若本轮对话不由用户主导,则根据用户的对话内容中所包含的实体,确定目标话题和该目标话题的话题类型;根据目标话题和该目标话题的话题类型,生成针对用户的对话内容的回应信息,其中,回应信息为介绍目标话题的信息,或者,由目标话题向另一话题转移的信息。本申请提供的对话管理方法能够提高用户的聊天兴趣,从而提升用户的聊天体验。
-
-
-
-
-
-
-
-
-