融合中文单词内部结构信息的句子表示的构建方法及系统

    公开(公告)号:CN107423284B

    公开(公告)日:2020-03-06

    申请号:CN201710449875.3

    申请日:2017-06-14

    Abstract: 本发明涉及自然语言处理技术领域,具体提出一种融合中文单词内部结构信息的句子表示的构建方法及系统,旨在解决单词内部结构信息利用率低的问题;所述构建方法包括:对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;整合每个单词语料中的所有预训练字向量和预训练词向量,获得对应单词语料的组合词向量;根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,所述最终词向量表征单词内部结构信息;将待处理句子中的各个单词语料的最终词向量进行整合,得到所述待处理句子的表示向量。本发明可以提高单词内部结构信息的利用率。

    一种基于动态融合机制的多模态词汇表示方法

    公开(公告)号:CN107480196B

    公开(公告)日:2020-02-07

    申请号:CN201710577334.9

    申请日:2017-07-14

    Abstract: 本发明的多模态词汇表示方法包括分别计算待表示词汇在文本模态中的文本表示向量、以及待表示词汇在视觉模态中的图片表示向量;将文本表示向量输入预先建立的文本模态权重模型,得到文本表示向量在文本模态中的权重;将图片表示向量输入预先建立的视觉模态权重模型,得到图片表示向量在图片模态中的权重;根据文本表示向量、图片表示向量以及分别与文本表示向量和图片表示向量对应的权重,计算得到多模态词汇表示向量。其中,文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型;视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。

    抽取生成混合型摘要生成方法

    公开(公告)号:CN109597886A

    公开(公告)日:2019-04-09

    申请号:CN201811238086.6

    申请日:2018-10-23

    Abstract: 本发明属于自然语言领域,具体提供了一种抽取生成混合型摘要生成方法,旨在解决现有的抽取式自动摘要方法和生成式自动摘要方法存在的问题。本发明提供了一种抽取生成混合型摘要生成方法,包括识别文档中的实体和数字并且利用预设的标签替换文档中的实体和数字;利用抽取式文档摘要抽取方法从进行标签替换后的文档中抽取多个第一关键句;分别对多个第一关键句进行压缩得到每个第一关键句对应的第二关键句;通过第一关键句的长度与预设的长度阈值的比较结果,可以选择性地将第一关键句或者第二关键句作为第一待合成关键句;根据所有第一待合成关键句生成文档的摘要。本发明提供的方法既可以生成符合文档语义表达的摘要,还可以保证可读性。

    一种基于动态融合机制的多模态词汇表示方法

    公开(公告)号:CN107480196A

    公开(公告)日:2017-12-15

    申请号:CN201710577334.9

    申请日:2017-07-14

    Abstract: 本发明的多模态词汇表示方法包括分别计算待表示词汇在文本模态中的文本表示向量、以及待表示词汇在视觉模态中的图片表示向量;将文本表示向量输入预先建立的文本模态权重模型,得到文本表示向量在文本模态中的权重;将图片表示向量输入预先建立的视觉模态权重模型,得到图片表示向量在图片模态中的权重;根据文本表示向量、图片表示向量以及分别与文本表示向量和图片表示向量对应的权重,计算得到多模态词汇表示向量。其中,文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型;视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。

    人机交互翻译模型的更新方法及更新系统

    公开(公告)号:CN107066451A

    公开(公告)日:2017-08-18

    申请号:CN201611170954.2

    申请日:2016-12-16

    CPC classification number: G06F17/277 G06F17/2775 G06F17/2818 G06F2216/03

    Abstract: 本发明涉及一种人机交互翻译模型的更新方法及更新系统,所述更新方法包括:接收根据源语言句子进行人工翻译得到的目标语言句子;分别对目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;根据所述目标语言词组及源语言词组获得双语词对齐信息;从所述双语词对齐信息中抽取短语翻译知识;根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。本发明人机交互翻译模型的更新方法可实时将人工翻译句子中的翻译知识更新至人机交互翻译模型中,改善后续机器翻译译文质量。

    多语言自动文摘方法
    16.
    发明公开

    公开(公告)号:CN106874362A

    公开(公告)日:2017-06-20

    申请号:CN201611253245.0

    申请日:2016-12-30

    Abstract: 本发明涉及一种多语言自动文摘方法,包括以下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构;步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。本发明中,实现了获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。

    同时识别双语术语与词对齐的实现方法及实现系统

    公开(公告)号:CN106649289A

    公开(公告)日:2017-05-10

    申请号:CN201611170300.X

    申请日:2016-12-16

    CPC classification number: G06F17/2827 G06F17/2818 G06F2216/03

    Abstract: 本发明涉及一种同时识别双语术语与词对齐的实现方法及实现系统。所述实现方法包括:对一对源语言句子和目标语言句子进行分词,获得源语言词组和目标语言词组;对源语言词组和目标语言词组进行词对齐,获得对齐初始词;识别源语言句子和目标语言句子中的术语,获得初始单语术语;结合对齐初始词、初始单语术语,进行术语对齐,得到对齐初始术语;将对齐初始术语作为锚点,获得初级双语术语候选列表;对初级双语术语候选列表进行双语术语识别,获得次级双语术语候选列表;对次级双语术语候选列表进行二次双语术语识别和词对齐,获得终极双语术语和终极对齐词。本发明实现方法可实现自动术语识别和词对齐性能,并提高最终的机器翻译译文质量。

    一种基于谓词论元结构的统计机器翻译方法

    公开(公告)号:CN103020045B

    公开(公告)日:2015-05-13

    申请号:CN201210534093.7

    申请日:2012-12-11

    Abstract: 本发明涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。

    中文拼写检错纠错方法、装置、电子设备及存储介质

    公开(公告)号:CN115081430A

    公开(公告)日:2022-09-20

    申请号:CN202210576165.8

    申请日:2022-05-24

    Abstract: 本发明提供一种中文拼写检错纠错方法、装置、电子设备及存储介质,属于自然语言处理技术领域,该方法包括:将汉字输入序列输入至对比学习模型,得到对比学习模型输出的汉字输入序列中各个汉字对应的相似字向量;基于相似字向量,检测汉字输入序列中的错误汉字,获得错误汉字的位置和类型;对汉字输入序列进行编码,得到汉字输入序列对应的编码向量;基于相似字向量、错误汉字的位置和类型,以及编码向量,纠正汉字输入序列中的错误汉字,获得最优纠正文本。通过各个汉字的字音相似关系和字形相似关系,实现了汉字输入序列中错误汉字的检错和纠错,提升了复杂汉字相似错误的检测与纠正的准确率,提升了中文拼写纠错的纠正质量。

    抽取生成混合型摘要生成方法

    公开(公告)号:CN109597886B

    公开(公告)日:2021-07-06

    申请号:CN201811238086.6

    申请日:2018-10-23

    Abstract: 本发明属于自然语言领域,具体提供了一种抽取生成混合型摘要生成方法,旨在解决现有的抽取式自动摘要方法和生成式自动摘要方法存在的问题。本发明提供了一种抽取生成混合型摘要生成方法,包括识别文档中的实体和数字并且利用预设的标签替换文档中的实体和数字;利用抽取式文档摘要抽取方法从进行标签替换后的文档中抽取多个第一关键句;分别对多个第一关键句进行压缩得到每个第一关键句对应的第二关键句;通过第一关键句的长度与预设的长度阈值的比较结果,可以选择性地将第一关键句或者第二关键句作为第一待合成关键句;根据所有第一待合成关键句生成文档的摘要。本发明提供的方法既可以生成符合文档语义表达的摘要,还可以保证可读性。

Patent Agency Ranking