中文命名实体识别方法、装置及计算机可读存储介质

    公开(公告)号:CN110909548A

    公开(公告)日:2020-03-24

    申请号:CN201910965462.X

    申请日:2019-10-10

    发明人: 邓悦 金戈 徐亮

    IPC分类号: G06F40/30 G06F16/35

    摘要: 本发明涉及一种人工智能技术,揭露了一种中文命名实体识别方法,包括:接收原始文本集并进行去噪、去停用词及标注处理后得到标准文本集,将所述标准文本集进行聚类操作得到类簇个数及聚类中心,基于所述类簇个数及所述聚类中心,将所述标准文本集建立后验概率模型,优化所述后验概率模型得到标准词向量集,将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型,接收用户输入的文本集,计算所述文本集得到词向量集,将所述词向量集输入至所述训练后的命名实体识别模型得到命名识别结果。本发明还提出一种中文命名实体识别装置以及一种计算机可读存储介质。本发明可以实现精准的中文命名实体识别功能。

    基于语义表征模型的文本分类方法、装置和计算机设备

    公开(公告)号:CN110781312A

    公开(公告)日:2020-02-11

    申请号:CN201910886622.1

    申请日:2019-09-19

    发明人: 邓悦 金戈 徐亮

    IPC分类号: G06F16/36 G06F16/35

    摘要: 本申请揭示了一种基于语义表征模型的文本分类方法、装置、计算机设备和存储介质,所述方法包括:获取输入的原始文本,并对原始文本进行预处理,从而得到单词序列;计算得到向量wi;生成文本嵌入向量序列{w1,w2,…,wn};将单词序列输入预设的知识嵌入模型中,获取实体嵌入向量序列{e1,e2,…,en};将所述文本嵌入向量序列输入到M层词粒度编码器中进行计算,得到中间文本嵌入向量序列;将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到N层知识粒度编码器中进行计算,得到最终文本嵌入向量序列和最终实体嵌入向量序列;将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到分类模型中,得到文本分类结果。从而提高了文本分类的准确度。

    基于用户行为特征的选择聚类初始点的方法及相关设备

    公开(公告)号:CN110413854A

    公开(公告)日:2019-11-05

    申请号:CN201910515534.0

    申请日:2019-06-14

    发明人: 邓悦 金戈 徐亮

    IPC分类号: G06F16/906

    摘要: 本申请涉及聚类模型领域,提供一种基于用户行为特征的基于用户行为特征的选择聚类初始点的方法及相关设备,所述方法包括:获取待发掘群组的数据集,从所述数据集中选择第一初始点;从所述数据集中选择第二初始点,所述第二初始点是指所述数据集中距离所述第一初始点最远的点;计算所述数据集中每个点与所述第一初始点和所述第二初始点的距离最小的最小距离点集合;从所述最小距离点集合中选择一个最大的最小距离点作为第三初始点,循环迭代得到包括所有初始点的初始点集合;按照所述初始点集合将所述数据集分割为多个存在关联性的群组。通过采用本方案,能够保证用户分组的准确性和效率。

    用户特征确定方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN110399430A

    公开(公告)日:2019-11-01

    申请号:CN201910515817.5

    申请日:2019-06-14

    发明人: 邓悦 金戈 徐亮

    IPC分类号: G06F16/28 G06K9/62

    摘要: 本申请涉及大数据技术领域,公开了一种用户特征确定方法、装置、设备及计算机可读存储介质。用户特征确定方法包括:获取用户数据信息,并基于聚类算法对所述用户数据信息进行聚类得到对应的类;从所述类中确定待分析的目标类,并对所述目标类包含的特征进行特征差异率计算,得到对应的特征差异率值;根据所述特征差异率值确定所述目标类对应的标签特征。通过本申请,实现了直观确定聚类得到的每一个类的用户特征的有益效果,提高对每个类的特点进行总结的直观性。

    一种基于面试信息的数据挖掘方法、系统及终端设备

    公开(公告)号:CN110287236A

    公开(公告)日:2019-09-27

    申请号:CN201910553409.9

    申请日:2019-06-25

    发明人: 邓悦 金戈 徐亮

    摘要: 本发明适用于数据处理技术领域,提供了一种基于面试信息的数据挖掘方法、系统及终端设备,方法包括:获取目标语料,将目标语料整理为M条语句;根据语句建立卷积神经网络CNN模型;获取CNN模型中的词向量矩阵;使用位置信息编辑词向量矩阵,获得具有位置信息的词向量矩阵,并通过具有位置信息的词向量矩阵训练CNN模型,以使CNN模型输出目标语料中的属性单词;根据属性单词,在目标语料中,获取具有目标属性的面试者。通过本发明可以实现对面试信息的快速运算和准确挖掘,筛选与招聘需求对应的面试者。

    基于用户兴趣画像的应用推荐方法、装置、计算机设备及计算机存储介质

    公开(公告)号:CN110209908A

    公开(公告)日:2019-09-06

    申请号:CN201910319420.9

    申请日:2019-04-19

    发明人: 邓悦 金戈 徐亮

    摘要: 本申请公开了一种基于用户兴趣画像的应用推荐方法及装置,涉及数据分析技术领域,能够构建更合理的用户兴趣画像,提高基于用户兴趣画像推荐给用户应用的准确度。所述方法包括:获取用于反映各个兴趣点的本体概念词,并将用户浏览网页行为的网页文本词映射到用于反映各个兴趣点的本体概念词上,得到用户在各个本体概念词上的兴趣值;根据各个本体概念词之间的层级关系对用户在各个本体概念词上的兴趣值进行更新,得到用户在各个本体概念词上的有效兴趣值;基于用户在各个本体概念词上的有效兴趣值,构建记录各个兴趣点的用户兴趣画像;根据各个兴趣点的有效兴趣值,将有效兴趣值排名在预设数值之前并且与兴趣点相关的应用推荐至用户。

    聊天应答方法及系统、电子装置及可读存储介质

    公开(公告)号:CN110209783A

    公开(公告)日:2019-09-06

    申请号:CN201910342725.1

    申请日:2019-04-26

    发明人: 邓悦 金戈 徐亮

    IPC分类号: G06F16/332

    摘要: 本发明公开了一种聊天应答方法及系统、电子装置及可读存储介质,该方法包括:获取提问信息,及调用已训练的用于得到应答信息的聊天模型,根据上述提问信息及聊天模型,对聊天模型对应的词汇集合中词语的输出概率进行随机性变化,及基于随机性变化后的目标输出概率进行词语选择,得到提问信息对应的应答信息,输出该应答信息。相对于技术,通过对聊天模型对应的词汇集合中词语的输出概率进行随机性变化,增强了选择的词语的随机性,也增强了得到的应答信息的随机性,有效避免应答的重复率过高的问题,提高应答的灵活性和趣味性。

    一种机器人及其回答问题的方法、存储介质

    公开(公告)号:CN110053055A

    公开(公告)日:2019-07-26

    申请号:CN201910161317.6

    申请日:2019-03-04

    发明人: 邓悦 金戈 徐亮

    IPC分类号: B25J11/00

    摘要: 本申请实施例公开了一种机器人及其回答问题的方法、存储介质,其中方法包括步骤:接收用户发送的问题,将所述问题转化格式文本;对所述格式文本进行分词,得到关键词词集;将所述关键词词集中的关键词输入到预先建立好的机器学习模型中,得到与所述关键词相匹配的答案;输出所述答案。上述机器人,通过将接收的问题进行分词,得到与问题相应的关键词,再在机器学习模型中对关键词进行机器学习,得到与所述关键词相匹配的答案。本发明实施例中机器人发送至用户的答案不仅是与问题相关的答案,而且是当前最有可能被用户问题的答案,这样大大提高了问题和答案匹配成功的概率,提升了回答问题的准确率。

    海量数据下商品推荐方法、电子装置及存储介质

    公开(公告)号:CN109509054A

    公开(公告)日:2019-03-22

    申请号:CN201811157751.9

    申请日:2018-09-30

    发明人: 邓悦 金戈 徐亮 肖京

    IPC分类号: G06Q30/06 G06N3/04 G06N3/08

    摘要: 本发明属于大数据分析技术领域,公开了一种海量数据下商品推荐方法包括:构建样本库;从样本库中选取样本,构建训练集,对样本进行预处理,包括注意力操作和池化操作;构建多层感知器神经网络模型;对多层感知器神经网络模型进行训练,输出概率向量;根据概率向量向用户推荐商品。本发明中,根据待推荐商品对当前用户兴趣的贡献度不同,向样本施加不同的注意力权重,并根据池化操作对用户的多重兴趣进行分类,经过多层感知器神经网络模型输出各待推荐商品的概率,根据概率大小向用户推荐商品。本发明可以提高模型性能和收敛速度,并提高向用户推荐商品的准确度,增加用户的体验感。本发明还公开了一种电子装置和计算机可读存储介质。

    潜力绩优人员类型识别方法、系统、终端及计算机可读存储介质

    公开(公告)号:CN109214446A

    公开(公告)日:2019-01-15

    申请号:CN201810982686.7

    申请日:2018-08-27

    发明人: 邓悦 金戈 徐亮 肖京

    IPC分类号: G06K9/62 G06N3/08 G06Q10/06

    摘要: 本发明提供一种潜力绩优人员类型识别方法、系统、终端及计算机可读存储介质。所述潜力绩优人员类型识别方法包括:获取多个绩优人员的样本数据;根据多个所述绩优人员的样本数据建立并训练得到一潜力绩优识别模型;将非绩优人员的样本数据输入至所述潜力绩优识别模型计算得出所述非绩优人员成长为每一绩优类型的概率值;判断每一所述概率值是否大于一预设概率;及从大于预设概率的概率值中选取一最大概率值,并将所述最大概率值对应的绩优类型作为所述非绩优人员的潜力发展绩优类型。本发明基于神经网络及绩优人员样本数据建立并训练得到潜力绩优识别模型,并根据该模型准确定位出非绩优人员成长的的绩优类型,以进行定向培养。