一种基于语义信息融合的低频词翻译方法

    公开(公告)号:CN111274826B

    公开(公告)日:2021-02-05

    申请号:CN202010060672.7

    申请日:2020-01-19

    摘要: 本发明提出了一种基于语义信息融合的低频词翻译方法,属于机器翻译领域,在翻译系统中输入双语句对,其中,源语言句子X,源语言句子对应的目标语言句子y,得到源语言句子中低频词的子词序列,得到低频词在目标语言句子中对应的目标译文,采用通配符UNKi替换双语句对(x,y)中的低频词后,得到新的双语句对将源语言低频词和/或目标语言低频词的向量表征与通配符UNKi的向量表征进行融合。本发明紧扣语义融合的核心思想,提出了融入源语言低频词向量表征、融入目标语言低频词向量表征和融合两端低频词向量表征等三种语义融合的具体形式,充分利用了低频词在两种语言、两种向量空间中的向量来表示低频词的语义信息。

    一种融合短语先验知识的依存句法分析方法及装置

    公开(公告)号:CN112016301B

    公开(公告)日:2021-02-19

    申请号:CN202011123436.1

    申请日:2020-10-20

    IPC分类号: G06F40/211 G06F40/289

    摘要: 本发明公开了一种融合短语先验知识的依存句法分析方法,先标记不同词性短语的边界,对不同词性短语数据进行依存句法分析,分别训练得到不同词性短语的句法分析模型;将边界标记后的不同词性的短语作为短语识别训练语料,训练得到短语识别模型;对短语识别训练语料进行短语内的依存句法分析,得到短语内依存句法信息,将其作为先验知识训练句法分析模型;测试过程中,将待分析句子输入到短语识别模型中,将句中不同短语部分输入到不同词性短语的句法分析模型中,得到短语内依存句法信息,将其输入到融合短语先验知识的句法分析模型中,输出整句的依存句法分析结果。本发明还提供了基于该方法的依存句法分析装置。本发明能够提高句法分析准确率。

    一种基于句法树遍历的信息融合翻译方法

    公开(公告)号:CN112287699A

    公开(公告)日:2021-01-29

    申请号:CN202011593143.X

    申请日:2020-12-29

    摘要: 本发明提出了一种基于句法树遍历的信息融合翻译方法,涉及自然语言处理中的机器翻译和句法分析领域,在机器翻译编码过程中,利用神经网络对句法树进行遍历的方式,提取句法结构以融合更多有效源语言句子结构信息,从而提升机器翻译的效果;主要包括步骤1:句法分析:利用哈工大语言技术分析平台LTP,对源语言句子进行成分句法分析或依存句法分析,得到句法树;步骤2:编码融合:采用深度神经网络分别对源语言句子文本、源语言句子句法树进行遍历,得到两个独立的编码向量,然后对编码向量进行拼接;步骤3:译文解码:对上述拼接后的编码向量进行解码。

    一种基于词袋多目标学习的后缀翻译方法

    公开(公告)号:CN111274827A

    公开(公告)日:2020-06-12

    申请号:CN202010063184.1

    申请日:2020-01-20

    摘要: 本发明公开一种基于词袋多目标学习的后缀翻译方法,它通过后缀方法和词袋方法的融合将预翻译或查词典得到低频词的目标译文输入到神经网络翻译模型中进行有效学习,达到同时学习低频词翻译和文本翻译的目的。本发明的翻译方法,以后缀的形式将其置于句末,在给定翻译提示的前提下保持原有双语句对的通顺流畅;与此同时,将目标译文置于词袋能够在允许低频词译文换序的前提下进行子目标学习。本发明将后缀和词袋的两种方法的优势结合起来,以达到针对低频词进行增强学习的目的。其中,后缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行有效惩罚。

    一种基于移动新闻客户端的评估方法及其系统

    公开(公告)号:CN111143688A

    公开(公告)日:2020-05-12

    申请号:CN201911409113.6

    申请日:2019-12-31

    IPC分类号: G06F16/9535 G06Q10/06

    摘要: 本发明公开了一种基于移动新闻客户端的评估方法及其系统,涉及互联网新闻信息运营和服务平台领域,所述方法包括:步骤1:推荐内容的获取:模拟用户画像向服务器请求数据,采集服务器返回的推送内容并储存在数据库中;步骤2:对推荐内容从质量和时效两个维度进行评估;步骤3:反馈评估的最终结果。与现有技术相比,本发明从移动新闻客户端APP侧进行个性化推荐内容评估,可以模拟根据不同的用户画像对不同用户推荐的内容进行实时采集;从时效、质量两个维度评估内容的可信程度,能够良好的反映新闻信息的实时性、信息覆盖面以及内容的质量。

    一种基于依存句法分析的医疗病历症状识别方法及其系统

    公开(公告)号:CN111090988A

    公开(公告)日:2020-05-01

    申请号:CN201911409088.1

    申请日:2019-12-31

    摘要: 本发明公开了一种基于依存句法分析的医疗病历症状识别方法,它包括:步骤一:医疗实体识别:标记出病历中表示症状的实体,包括发生病变的器官、组织以及描述病变情况的词语;若识别出的医疗实体数量<2,则为简单病例,直接显示症状,若识别出的医疗实体数量≥2,则进行下一步;步骤二:实体间依存句法分析:对步骤一中标记出的医疗实体进行句法关系分析,确定实体之间的句法结构,即实体之间的依赖关系;步骤三:实体组合:根据步骤二中确定的实体之间的依赖关系,将医疗实体进行组合得到症状;步骤四:序列到序列症状映射:对步骤三中得到的症状说法进行标准说法映射。本发明还公开了一种基于依存句法分析的医疗病历症状识别系统。

    一种基于词袋多目标学习的后缀翻译方法

    公开(公告)号:CN111274827B

    公开(公告)日:2021-05-28

    申请号:CN202010063184.1

    申请日:2020-01-20

    摘要: 本发明公开一种基于词袋多目标学习的后缀翻译方法,它通过后缀方法和词袋方法的融合将预翻译或查词典得到低频词的目标译文输入到神经网络翻译模型中进行有效学习,达到同时学习低频词翻译和文本翻译的目的。本发明的翻译方法,以后缀的形式将其置于句末,在给定翻译提示的前提下保持原有双语句对的通顺流畅;与此同时,将目标译文置于词袋能够在允许低频词译文换序的前提下进行子目标学习。本发明将后缀和词袋的两种方法的优势结合起来,以达到针对低频词进行增强学习的目的。其中,后缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行有效惩罚。