一种义项嵌入向量的训练方法及装置

    公开(公告)号:CN112507726B

    公开(公告)日:2024-10-29

    申请号:CN202011465969.8

    申请日:2020-12-14

    摘要: 本申请公开了一种义项嵌入向量的训练方法,具体地,可以获取第一搜索词,所述第一搜索词包括至少两个义项,为方便描述,将所述至少两个义项中的任意一个义项称为第一义项,第一义项具备百科词条。在本申请中,在训练第一义项的嵌入向量时,可以基于第一义项相关的网页和第一义项的百科词条,确定与第一义项相关的关键词,并进一步利用所述与第一义项相关的关键词,训练得到第一义项的嵌入向量。由此可见,在本申请中,训练第一义项的嵌入向量时,不仅考虑了第一义项的百科词条,还考虑了第一义项相关的网页,从而提升了训练得到的第一义项的嵌入向量的准确性。

    网址共享方法及装置
    2.
    发明公开

    公开(公告)号:CN118839077A

    公开(公告)日:2024-10-25

    申请号:CN202410862481.0

    申请日:2024-06-28

    发明人: 舒星凯

    摘要: 本发明公开了一种网址共享方法及装置,涉及人工智能技术领域,其中该方法包括:按企业部门获取多个员工历史访问的网址信息;从网址信息中提取得到URL;利用URL,对网页内容进行抓取处理,得到网页源码;基于预先构建的词向量模型和TFIDF算法,对网页源码进行处理,得到每个企业部门的多个特征向量;所述词向量模型用于将字词转换为向量,所述TFIDF算法用于确定字词的重要程度;根据每个企业部门的多个特征向量,进行高斯混合模型GMM聚类处理,得到网址分类结果;通过智能机器人,将网址分类结果推送至每个员工;所述智能机器人安装于每个员工的终端。本发明可以减少员工获取有效网址资源的时长,提高企业的整体作业效率。

    文本去重方法、装置、电子设备及计算机可读存储介质

    公开(公告)号:CN112733537B

    公开(公告)日:2024-10-22

    申请号:CN202011637850.4

    申请日:2020-12-31

    发明人: 何友鑫 彭琛 汪伟

    摘要: 本发明涉及语音语义技术,揭露了一种文本去重方法,包括:获取多个待去重文本,将多个待去重文本汇集为语料库;对多个待去重文本进行分词得到文本分词;根据语料库构建文本分词对应的待去重文本的文本指纹;根据文本指纹对多个待去重文本进行重合去重,得到多个初步去重文本;对多个初步去重文本中各文本进行分句,得到每个初步去重文本的文本分句;计算每个文本分句间的重合字粒度;根据重合字粒度对多个初步去重文本进行范围去重,得到去重文本集。此外,本发明还涉及区块链技术,所述待去重文本可存储于区块链的节点。本发明还提出一种文本去重装置、电子设备以及计算机可读存储介质。本发明可以解决大量文本去重时效率和精确度不高的问题。

    一种自适应动态分词方法

    公开(公告)号:CN114881017B

    公开(公告)日:2024-10-18

    申请号:CN202210441833.6

    申请日:2022-04-25

    IPC分类号: G06F40/284 G06F40/237

    摘要: 本发明公开了一种自适应动态分词方法,包括步骤:S1、将原始文本直接输入领域专属词匹配模块,若匹配中某个领域的专属词典,则直接进入该领域的分词;S2、若领域专属词汇匹配失败时,则进入领域模式匹配模块,在该模块对所有预设的领域模式进行匹配,最终评估匹配效果,若匹配成功则直接进入分词模块完成分词;S3、若领域模式匹配失败则进入领域分类模块,利用深度学习模型融合模式匹配效果进行领域分类,最终根据分类结果完成分词。该种自适应动态分词方法,通过多模型融合自动地挖掘更多的领域专属词汇,丰富领域词典,动态计算模式匹配得分效果,并将模式匹配抽取的特征与文本语义结合,提高领域分类精度,提升不同领域的分词效果。

    基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法

    公开(公告)号:CN113779992B

    公开(公告)日:2024-10-15

    申请号:CN202110813366.0

    申请日:2021-07-19

    摘要: 本发明公开了基于词汇增强和预训练的BcBERT‑SW‑BiLSTM‑CRF模型的实现方法。基于词汇增强的模型SW‑BiLSTM‑CRF,并以构建的语料库作为训练数据进行训练,得到的模型作为数据矫正的依据,迭代语料库。在此基础上,使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移,来一定程度地减弱由于数据规模小造成的识别误差。使用建筑领域其他规范文本在BERT通用领域预训练模型上继续进行深度预训练,得到BcBERT(Building Code BERT),从而将通用领域和建筑领域其他规范文本的知识迁移至SW‑BiLSTM‑CRF模型。以有效提升地铁设计规范命名实体识别任务的性能。

    基于词向量表征的网页新词发现和解析方法

    公开(公告)号:CN114169325B

    公开(公告)日:2024-09-27

    申请号:CN202111444046.9

    申请日:2021-11-30

    发明人: 魏嵬 刘维 张贝贝

    摘要: 本发明公开的一种基于词向量表征的网页新词发现和解析方法,包括以下步骤:步骤1,网页原始数据预处理,得到预训练文本;步骤2,首先进行粗略分词处理,然后使用N‑gram模型来分别构建2‑gram、3‑gram的前缀字典树;步骤3,使用内部结合度多字互信息来度量候选词串的内部结合度;步骤4,使用左右邻接熵信息度量来确定上一步骤中的候选新词的边界;步骤5,利用余弦相似度原理来进行相似向量筛选进而扩充初始关键词词典;步骤6,解析待处理网页中的数据,把网页中的非结构化数据转存到一个预先设置的结构化数组列表里;步骤7,通过步关键词词典对结构化列表里的数据进行提取和整合,完成解析过程。

    一种翻译文本生成方法、装置、存储介质及电子设备

    公开(公告)号:CN118569276A

    公开(公告)日:2024-08-30

    申请号:CN202410611069.1

    申请日:2024-05-16

    发明人: 杨颖慧

    摘要: 本申请提供了一种翻译文本生成方法、装置、存储介质及电子设备,该方法应用于计算机领域,该方法包括:获取用户所输入的第一语言文本,获取所述用户对应的第二语言基础词汇库,基于所述基础词汇库对所述第一语言文本进行翻译处理,获得第二语言文本,所述第一语言文本与所述第二语言文本的文本意思相同但所使用的语言不同,获取所述第二语言文本中的关键词语,生成针对所述关键词语的教学拓展信息,对所述第二语言文本和所述教学拓展信息进行展示处理。该方法能够,根据用户所掌握的词汇量将第一语言文本翻译为第二语言文本,提高了用户对于第二语言的理解和学习效率,并可以对关键词语进行针对教学。

    基于对偶学习的shellcode代码和注释生成方法

    公开(公告)号:CN114546397B

    公开(公告)日:2024-08-20

    申请号:CN202210041705.2

    申请日:2022-01-14

    申请人: 南通大学

    摘要: 本发明提供了一种基于对偶学习的shellcode代码和注释生成方法,包括以下步骤:(1)搜集来自shellstorm和Exploit Database的shellcode语料库;(2)将shellcode注释生成和shellcode代码生成这两个任务形式化为一个对偶学习问题,并通过为输入添加前缀来区分两个任务,使用浅层的Transformer进行同步学习,实现知识共享,提高训练模型的性能和泛化能力;(3)提出了一种改进自注意力计算的归一化方法Adjust_QKNorm,以使Transformer适应低资源任务;(4)提出一个基于规则的修复组件。本发明的有益效果为:有利于软件的开发和维护,生成的高质量注释和代码可以帮助提高开发人员的工作效率,进而提高软件质量。