-
公开(公告)号:CN109614478B
公开(公告)日:2020-12-08
申请号:CN201811552104.8
申请日:2018-12-18
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: G06F16/332 , G06F40/30 , G06F40/289
摘要: 本申请实施例涉及一种词向量模型的构建方法、关键词匹配方法及装置,所述方法包括:选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的所述关联文档数据。该模型在训练过程中,结合选定的目标文档数据,以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据,提高了该模型的准确性。
-
公开(公告)号:CN113139116A
公开(公告)日:2021-07-20
申请号:CN202010060445.4
申请日:2020-01-19
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: G06F16/9535 , G06F16/28
摘要: 本发明公开了一种基于BERT的媒体信息观点抽取方法、装置、设备和存储介质。该方法包括:获取观点待抽取的语料信息;利用预设的命名实体识别算法,识别语料信息中的命名实体;将命名实体和语料信息输入预先训练的观点抽取模型中,并获取观点抽取模型输出的命名实体对应的观点信息;其中,观点抽取模型根据命名实体和语料信息,生成命名实体对应的字符序列;观点抽取模型的BERT模型根据命名实体对应的字符序列,生成命名实体对应的字符向量序列;观点抽取模型的softmax层根据命名实体对应的字符向量序列以及训练观点抽取模型时得到的片段开始向量和片段结束向量,确定命名实体对应的观点信息。本发明可以减轻人工抽取观点信息的工作量,提升观点信息抽取的准确性。
-
公开(公告)号:CN109783778B
公开(公告)日:2020-10-23
申请号:CN201811577909.8
申请日:2018-12-20
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: G06F40/194 , G06F40/289
摘要: 本发明实施例涉及一种文本溯源方法、设备及存储介质,所述方法包括:根据待判定文本和源文本生成词袋模型,所述源文本包括多个文本;利用多种预设的相似度算法,分别对所述词袋模型进行相似度计算,确定在不同相似度算法的情况下,所述源文本中多个文本与所述待判定文本的多个第一相似度排序;基于第一公式和所述第一相似度排序确定所述源文本源文本中多个文本与所述待判定文本的第二相似度排序;基于所述第二相似度排序从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本,采用多种相似度的算法,可以弥补单一算法的不足,减少因计算方式不同带来的偶然性,提升计算结果的全面性和准确性。
-
公开(公告)号:CN109614478A
公开(公告)日:2019-04-12
申请号:CN201811552104.8
申请日:2018-12-18
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: G06F16/332 , G06F17/27
摘要: 本申请实施例涉及一种词向量模型的构建方法、关键词匹配方法及装置,所述方法包括:选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的所述关联文档数据。该模型在训练过程中,结合选定的目标文档数据,以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据,提高了该模型的准确性。
-
公开(公告)号:CN113496118B
公开(公告)日:2024-05-31
申请号:CN202010266045.9
申请日:2020-04-07
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: G06F40/242 , G06F40/279 , G06N20/10
摘要: 本发明公开了一种新闻主体识别方法、设备和计算机可读存储介质。该方法包括:获取待识别新闻文本,并对新闻文本进行预处理;利用预设的分词词典,对预处理后的新闻文本执行带词性标注的分词处理,得到多个被标注词性的分词;在词性被标注为主体的分词中查询预设的目标主体,并在新闻文本中提取目标主体对应的多种主体特征;将目标主体对应的多种主体特征输入预先训练的主体识别模型中,获取主体识别模型输出的识别结果。在本发明中,将目标主体对应的多种主体特征作为主体识别模型的输入,使主体识别模型根据目标主体对应的多种主体特征识别新闻文本的主体是否为目标主体,弥补了新闻主体识别的技术空白。
-
公开(公告)号:CN114218381B
公开(公告)日:2022-08-30
申请号:CN202111493451.X
申请日:2021-12-08
申请人: 北京中科闻歌科技股份有限公司
摘要: 本公开涉及一种立场识别方法、装置、设备及介质。其中,立场识别方法包括:获取待识别的目标文本;对目标文本进行语义识别处理,得到目标文本的整体语义向量;基于预先定义的话题分类模板,对目标文本进行话题识别处理,得到目标文本的话题表示向量;基于整体语义向量和话题表示向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别。根据本公开实施例,能够准确地识别出目标文本所涉及的话题表示向量,从而可以结合文本语义与文本话题对目标文本进行更准确的立场识别。
-
公开(公告)号:CN114461953A
公开(公告)日:2022-05-10
申请号:CN202011243214.3
申请日:2020-11-09
申请人: 北京中科闻歌科技股份有限公司 , 国科智安(北京)科技有限公司 , 深圳中科闻歌科技有限公司
IPC分类号: G06F16/958 , G06F16/955
摘要: 本发明实施例涉及一种网站监管方法、装置、电子设备及存储介质,包括:从目标网站的网页源码中提取重定向统一资源定位符URL;获取所述重定向URL所指向的网页;将所述重定向URL进行向量化表示得到第一向量,以及将所述网页进行向量化表示得到第二向量;根据所述第一向量和所述第二向量确定所述目标网站是否为违法违规网站。由此,可以实现在网站内嵌的情况下也能够有效地识别出违法违规网站,提升了违法违规网站识别的准确率。
-
公开(公告)号:CN114218381A
公开(公告)日:2022-03-22
申请号:CN202111493451.X
申请日:2021-12-08
申请人: 北京中科闻歌科技股份有限公司
摘要: 本公开涉及一种立场识别方法、装置、设备及介质。其中,立场识别方法包括:获取待识别的目标文本;对目标文本进行语义识别处理,得到目标文本的整体语义向量;基于预先定义的话题分类模板,对目标文本进行话题识别处理,得到目标文本的话题表示向量;基于整体语义向量和话题表示向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别。根据本公开实施例,能够准确地识别出目标文本所涉及的话题表示向量,从而可以结合文本语义与文本话题对目标文本进行更准确的立场识别。
-
公开(公告)号:CN113496118A
公开(公告)日:2021-10-12
申请号:CN202010266045.9
申请日:2020-04-07
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: G06F40/242 , G06F40/279 , G06N20/10
摘要: 本发明公开了一种新闻主体识别方法、设备和计算机可读存储介质。该方法包括:获取待识别新闻文本,并对新闻文本进行预处理;利用预设的分词词典,对预处理后的新闻文本执行带词性标注的分词处理,得到多个被标注词性的分词;在词性被标注为主体的分词中查询预设的目标主体,并在新闻文本中提取目标主体对应的多种主体特征;将目标主体对应的多种主体特征输入预先训练的主体识别模型中,获取主体识别模型输出的识别结果。在本发明中,将目标主体对应的多种主体特征作为主体识别模型的输入,使主体识别模型根据目标主体对应的多种主体特征识别新闻文本的主体是否为目标主体,弥补了新闻主体识别的技术空白。
-
公开(公告)号:CN111026866B
公开(公告)日:2020-10-23
申请号:CN201911019149.3
申请日:2019-10-24
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: G06F16/35 , G06F40/289
摘要: 本发明公开了一种面向领域的文本信息抽取聚类方法、设备和存储介质。该方法包括:获取文本信息集合;所述文本信息集合包括:目标领域内的多个文本信息和目标领域外的多个文本信息;将所述文本信息集合输入预先训练的抽取聚类模型;通过所述抽取聚类模型对所述文本信息集合执行抽取和聚类处理,得到所述目标领域内每个主题对应的代表性信息。本发明将抽取和聚类融合在一起,使得抽取和聚类相互支撑,在抽取聚类过程中,人工干预少且抽取和聚类高效。
-
-
-
-
-
-
-
-
-