一种基于自注意力的观点及其持有者的联合抽取方法

    公开(公告)号:CN108628828A

    公开(公告)日:2018-10-09

    申请号:CN201810347840.3

    申请日:2018-04-18

    IPC分类号: G06F17/27 G06F17/30

    摘要: 本发明一种基于自注意力的观点及其持有者的联合抽取方法:S1.构建提取观点及其持有者的语料集;S2.识别包含观点的语句;S3.联合抽取观点及其持有者。本发明优点:1、文本分类模型避免了抽取出的句子不包含观点的情况;2、观点及其持有者联合抽取模型摆脱了词性标注、命名实体识别和句法依存分析等自然语言处理环节,避免这些环节出现误差对模型提取效果的影响,且该模型有很高灵活度和覆盖面;3、本发明包含构建提取观点及其持有者的语料集,识别包含观点的语句,联合抽取观点及其持有者。4、本发明在双向LSTM的基础上使用self-attention有效结合两者优点,使词语序列的表示语义更丰富,训练的模型准确率更高。

    一种基于自注意力的观点及其持有者的联合抽取方法

    公开(公告)号:CN108628828B

    公开(公告)日:2022-04-01

    申请号:CN201810347840.3

    申请日:2018-04-18

    摘要: 本发明一种基于自注意力的观点及其持有者的联合抽取方法:S1.构建提取观点及其持有者的语料集;S2.识别包含观点的语句;S3.联合抽取观点及其持有者。本发明优点:1、文本分类模型避免了抽取出的句子不包含观点的情况;2、观点及其持有者联合抽取模型摆脱了词性标注、命名实体识别和句法依存分析等自然语言处理环节,避免这些环节出现误差对模型提取效果的影响,且该模型有很高灵活度和覆盖面;3、本发明包含构建提取观点及其持有者的语料集,识别包含观点的语句,联合抽取观点及其持有者。4、本发明在双向LSTM的基础上使用self‑attention有效结合两者优点,使词语序列的表示语义更丰富,训练的模型准确率更高。

    一种新闻内容全文检索引擎的构建方法及装置

    公开(公告)号:CN108804594A

    公开(公告)日:2018-11-13

    申请号:CN201810523561.8

    申请日:2018-05-28

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种新闻内容全文检索引擎的构建方法及装置,该方法步骤如下:获取带有实时访问信息的实时网站日志;获取带有新闻热度评论信息的新闻网站的数据;对所述实时网站日志和所述新闻网站数据分类;对分类后的所述新闻网站数据进行处理、索引并存储;获取新闻网站数据中国的新闻元信息并存储;获取新闻网站数据中的热度信息进行存储,并对新闻网站数据中的热度信息统计。本发明在查询性能、索引空间和构建性能方面实现了合理的平衡;考虑到统计数据随时间变化的特性,动态更新索引结果;提高了系统的健壮性;提高统计数据与文本数据的复合查询性能。

    基于机器学习的微信公众号推荐方法及系统

    公开(公告)号:CN110990711B

    公开(公告)日:2023-05-12

    申请号:CN201910392858.X

    申请日:2019-05-13

    摘要: 本发明公开了基于机器学习的微信公众号推荐算法,包括:为训练文本标注标签,获取训练文本的关键词及关键词向量,对关键词向量进行聚类计算,获得簇,并确定簇的中心向量;采集公众号文本,获取公众号文本的关键词及关键词向量,根据关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;根据目标用户的历史行为确定目标用户的喜好标签;从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户。本发明还提供了基于机器学习的微信公众号推荐系统。本发明能够根据分析用户喜好,进而自动推荐合适的公众号,避免用户受各种良莠不齐的公众号干扰,避免花费过多时间用于挑选公众号文章。

    基于机器学习的微信公众号推荐算法及系统

    公开(公告)号:CN110990711A

    公开(公告)日:2020-04-10

    申请号:CN201910392858.X

    申请日:2019-05-13

    摘要: 本发明公开了基于机器学习的微信公众号推荐算法,包括:为训练文本标注标签,获取训练文本的关键词及关键词向量,对关键词向量进行聚类计算,获得簇,并确定簇的中心向量;采集公众号文本,获取公众号文本的关键词及关键词向量,根据关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;根据目标用户的历史行为确定目标用户的喜好标签;从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户。本发明还提供了基于机器学习的微信公众号推荐系统。本发明能够根据分析用户喜好,进而自动推荐合适的公众号,避免用户受各种良莠不齐的公众号干扰,避免花费过多时间用于挑选公众号文章。

    基于微信群信息的数据分析系统

    公开(公告)号:CN108880980A

    公开(公告)日:2018-11-23

    申请号:CN201810403059.3

    申请日:2018-04-28

    摘要: 本发明公开一种基于微信群信息的数据分析系统,包括:信息采集模块,其每隔预设时间按发送顺序采集一批预设数量的微信群消息的html标签;数据分析模块,其将信息采集模块采集到的html标签通过正则解析得出其中包含的每条群消息的属性,所述群消息属性包括群编号、群消息编号;缓存去重模块,其将每条群消息属性包含的群编号和群消息编号进行哈希运算得到哈希值,再将相邻两批次中的每条群消息的哈希值对比,若有重复部分,则将后一批次中哈希值重复的群消息删除;多媒体提取模块;对象存储模块;关键词提取模块;群消息库模块。本发明具有能将采集到的微信群消息数据进行分析和统计,最后直观的展示出来,可以有效、直观的监测微信群的优点。

    立场分析方法、装置、电子设备及存储介质

    公开(公告)号:CN118503420A

    公开(公告)日:2024-08-16

    申请号:CN202410583474.7

    申请日:2024-05-11

    摘要: 本公开涉及一种立场分析方法、装置、电子设备及存储介质。其中,立场分析方法包括:获取待处理文本以及待处理文本对应的词语集合和词语集合中每个词语的词频;基于每个词语的词频计算每个词语对应的互信息值,并根据互信息值确定待处理文本对应的多个主题短语;计算多个主题短语与待处理文本之间的关系矩阵;基于关系矩阵对待处理文本的每个主题短语的立场进行分析,得到每个主题短语对应的立场分析结果,由此,能够通过确定多个主题短语与待处理文本之间的关系矩阵,根据关系矩阵对每个主题短语进行立场分析,得到主题短语对应的立场分析结果,避免了立场分析模型难以泛化的问题,提高了待处理文本对应的主题短语的立场分析结果。