-
公开(公告)号:CN115618862A
公开(公告)日:2023-01-17
申请号:CN202211293624.8
申请日:2022-10-21
IPC分类号: G06F40/284 , G06F40/295 , G06F40/216 , G06F16/335 , G06F16/33 , G06N3/04 , G06N3/08
摘要: 本发明提供了一种基于实体链接和大规模预训练模型的实体消歧方法及系统,包括:步骤S1:将文本输入到RoBERTa‑Large模型中,将文本转为固定词向量,设置目标消歧的实体;步骤S2:在RoBERTa‑Large模型的输出得到词向量的生成结果;步骤S3:根据实体筛选出知识库中数据,将实体数据进行拼接,输入到预训练模型中;步骤S4:从预训练模型中输出的知识库数据进行向量相似度计算。在计算向量相似度之后,本申请手动添加了阈值来决定是否输出实体的具体含义,同时增加了同义词替换的功能,这样会减少由于知识库语料不足而导致结果不准确的问题。
-
公开(公告)号:CN117332776A
公开(公告)日:2024-01-02
申请号:CN202311213769.7
申请日:2023-09-19
IPC分类号: G06F40/216 , G06F40/157
摘要: 本发明提供了一种基于迪杰斯特拉算法的文本生成方法、系统、介质及终端,包括:获取给定文本;将给定文本作为初始概率累积,并将初始概率累积的负对数置为0,加入到一个空集合Path中;从空集合Path中选取一个元素输入至语言模型中训练,得到语言模型中字典里的每个令牌的生成概率;依次计算生成概率对应的负对数和所对应元素的累计负对数之和,得到备选令牌;将备选令牌和对应的元素拼接得到当前轮生成的最优文本,并加入集合Path中;直至当前轮生成的文本满足预设停止条件时,结束文本生成流程,输出最终生成的文本。本发明基于迪杰斯特拉最优路径发现算法,能够生成全局最优的文本,文本质量高。
-