-
公开(公告)号:CN113780569A
公开(公告)日:2021-12-10
申请号:CN202110813797.7
申请日:2021-07-19
Applicant: 中国科学院计算技术研究所
IPC: G06N20/00
Abstract: 本发明提出一种基于相似话题的流行度预测方法和系统,基于KSC算法对历史话题的流行度序列聚类,得到话题级别的演化模式,按照待预测话题的观测窗口和预测窗口大小,对各历史话题的流行度序列进行切分得到训练数据的输入和输出,使用各类别下的历史话题的训练数据分别训练全连接网络作为预测模型,充分利用了与待预测话题在流行度演化模式上相似的历史话题的数据,降低了预测误差。基于DTW算法对待预测话题进行分类,使用待预测话题所属类别的模型进行流行度预测,保证预测及时,增强预测的时效性。
-
公开(公告)号:CN118445392A
公开(公告)日:2024-08-06
申请号:CN202410577965.0
申请日:2024-05-10
Applicant: 中国科学院计算技术研究所
IPC: G06F16/332 , G06F16/33 , G06F40/284 , G06F40/30
Abstract: 本发明提出一种面向网页的阅读理解模型的训练方法、装置、存储介质,该方法包括:获取网页基于DOM树结构的路径信息,利用该路径信息表征网页的逻辑结构信息表示;获取网页基于网页快照的坐标信息,利用该坐标信息表征网页的空间结构信息表示;获取网页中的提示词,利用该提示词对初始问题文本进行信息增强,得到目标问题文本;将该逻辑结构信息表示与该空间结构信息表示融合,输入到网页阅读理解模型中;以及将该目标问题文本与该网页内容文本拼接,输入到该网页阅读理解模型中,获取答案。该方法提升了模型的网页理解能力,进而提高答案的准确性和相关性。
-
公开(公告)号:CN114443820B
公开(公告)日:2025-02-07
申请号:CN202210177000.3
申请日:2022-02-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/334 , G06F16/3332 , G06F16/31 , G06F40/216 , G06F40/237 , G06F40/284
Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。
-
公开(公告)号:CN116662480A
公开(公告)日:2023-08-29
申请号:CN202310505568.8
申请日:2023-05-06
Applicant: 中国科学院计算技术研究所
IPC: G06F16/33 , G06F40/30 , G06F40/295 , G06N5/022 , G06N3/045
Abstract: 本发明提出一种基于实体增强的文本语义表示方法和系统,包括:获取文本编码模型和实体增强编码模型,实体增强编码模型由串联的外部实体向量表示模块和上下文相关的实体信息编码模块组成;通过文本编码模型提取目标文本的第一表示向量;以外部实体向量表示模块识别目标文本中表示实体的词项序列,并确定词项序列和知识库中的哪些实体相关联,获得词项序列对应实体的在知识库中的实体向量表示;实体信息编码模块包括多个串联的实体适配器层,实体信息编码模块的输入为实体向量表示和文本编码模型中间层的隐状态;最后一个实体适配器层输出的特征作为目标文本的第二表示向量;融合第一表示向量和第二表示向量,得到目标文本的语义表示结果。
-
公开(公告)号:CN114491157A
公开(公告)日:2022-05-13
申请号:CN202210132296.7
申请日:2022-02-14
Applicant: 中国科学院计算技术研究所
IPC: G06F16/90 , G06F16/901 , G06F16/903
Abstract: 本发明实施例提供了一种大数据场景下的数据分割方法,包括:获取探测区间,确定待分割的数据集合中属于探测区间内的区内数据条数;在区内数据条数不处于预定的容忍范围内时,对探测区间的右端点进行一次或者多次指数型调整直至得到使得区内数据条数处于容忍范围内的右端点或者越过容忍范围;在指数型调整导致区内数据条数越过容忍范围时,以当前的探测区间的右端点以及前一个探测区间的右端点构成的区间为查找范围,通过二分查找法确定使得区内数据条数处于容忍范围内的右端点;根据探测区间的左端点以及使得区内数据条数处于容忍范围内的右端点确定的分割区间对数据集合进行分割。
-
公开(公告)号:CN114443820A
公开(公告)日:2022-05-06
申请号:CN202210177000.3
申请日:2022-02-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/33 , G06F16/31 , G06F40/216 , G06F40/237 , G06F40/284
Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。
-
公开(公告)号:CN119513312A
公开(公告)日:2025-02-25
申请号:CN202411503651.2
申请日:2024-10-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/353 , G06F16/334 , G06F40/186 , G06F18/241
Abstract: 本发明提供了一种针对文本的讽刺检测方法,包括:获取待分析文本及其讽刺上下文信息,其中,讽刺上下文信息是指用于辅助判断待分析文本是否带有讽刺情绪的语境信息;根据待分析文本及其讽刺上下文信息,评估待分析文本的讽刺上下文信息的充足性;在待分析文本的讽刺上下文信息不充足的情况下,根据预设的上下文信息检索库提供补充的上下文信息,得到更新的讽刺上下文信息;根据待分析文本及其最新的讽刺上下文信息,确定待分析文本是否带有讽刺的情绪。
-
公开(公告)号:CN117076598A
公开(公告)日:2023-11-17
申请号:CN202310518172.7
申请日:2023-05-09
Applicant: 中国科学院计算技术研究所
IPC: G06F16/33 , G06F16/953 , G06F40/30 , G06F18/25
Abstract: 本发明提出一种基于自适应权重的语义检索模型融合方法,包括:以检索信息进行稀疏检索,获取稀疏检索结果及对应的稀疏排序分值;以该检索信息进行稠密检索,获取稠密检索结果及对应的稠密排序分值;构建权重预测模型,基于该检索信息、该稀疏检索结果和该稠密检索结果通过该权重预测模型获取融合权重;以该融合权重、该稀疏排序分值和该稠密排序分值,生成融合排序分值;根据该融合排序分值,将该稀疏检索结果和该稠密检索结果进行排序,生成最终检索结果。本发明还提出一种基于自适应权重的语义检索模型融合系统,以及一种用于基于自适应权重的语义检索模型融合的数据处理装置。
-
公开(公告)号:CN114528459A
公开(公告)日:2022-05-24
申请号:CN202210044347.0
申请日:2022-01-14
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06F16/958 , G06F16/35 , G06F40/30 , G06F40/146
Abstract: 本发明提出一种基于语义的网页信息抽取方法,包括:获取目标网页的目标DOM树,对该目标DOM树的目标骨架节点按句进行分裂,得到该目标DOM树的目标骨架子节点;以分类模型按目标任务语义对所有该目标骨架子节点进行分类,获得该目标DOM树的目标信息子节点;对所有该目标信息子节点形成的节点路径进行聚类,获得该目标网页的目标信息树,对该目标信息树中包含的网页信息进行抽取。本发明还提出一种基于语义的网页信息抽取系统,以及一种用于实现基于语义的网页信息抽取的数据处理装置。
-
-
-
-
-
-
-
-