一种基于相似话题的流行度预测方法及系统

    公开(公告)号:CN113780569A

    公开(公告)日:2021-12-10

    申请号:CN202110813797.7

    申请日:2021-07-19

    Abstract: 本发明提出一种基于相似话题的流行度预测方法和系统,基于KSC算法对历史话题的流行度序列聚类,得到话题级别的演化模式,按照待预测话题的观测窗口和预测窗口大小,对各历史话题的流行度序列进行切分得到训练数据的输入和输出,使用各类别下的历史话题的训练数据分别训练全连接网络作为预测模型,充分利用了与待预测话题在流行度演化模式上相似的历史话题的数据,降低了预测误差。基于DTW算法对待预测话题进行分类,使用待预测话题所属类别的模型进行流行度预测,保证预测及时,增强预测的时效性。

    面向网页的阅读理解模型的训练方法、装置、存储介质

    公开(公告)号:CN118445392A

    公开(公告)日:2024-08-06

    申请号:CN202410577965.0

    申请日:2024-05-10

    Abstract: 本发明提出一种面向网页的阅读理解模型的训练方法、装置、存储介质,该方法包括:获取网页基于DOM树结构的路径信息,利用该路径信息表征网页的逻辑结构信息表示;获取网页基于网页快照的坐标信息,利用该坐标信息表征网页的空间结构信息表示;获取网页中的提示词,利用该提示词对初始问题文本进行信息增强,得到目标问题文本;将该逻辑结构信息表示与该空间结构信息表示融合,输入到网页阅读理解模型中;以及将该目标问题文本与该网页内容文本拼接,输入到该网页阅读理解模型中,获取答案。该方法提升了模型的网页理解能力,进而提高答案的准确性和相关性。

    一种文本聚合方法以及文本推荐方法

    公开(公告)号:CN114443820B

    公开(公告)日:2025-02-07

    申请号:CN202210177000.3

    申请日:2022-02-25

    Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。

    一种基于实体增强的文本语义表示方法及系统

    公开(公告)号:CN116662480A

    公开(公告)日:2023-08-29

    申请号:CN202310505568.8

    申请日:2023-05-06

    Abstract: 本发明提出一种基于实体增强的文本语义表示方法和系统,包括:获取文本编码模型和实体增强编码模型,实体增强编码模型由串联的外部实体向量表示模块和上下文相关的实体信息编码模块组成;通过文本编码模型提取目标文本的第一表示向量;以外部实体向量表示模块识别目标文本中表示实体的词项序列,并确定词项序列和知识库中的哪些实体相关联,获得词项序列对应实体的在知识库中的实体向量表示;实体信息编码模块包括多个串联的实体适配器层,实体信息编码模块的输入为实体向量表示和文本编码模型中间层的隐状态;最后一个实体适配器层输出的特征作为目标文本的第二表示向量;融合第一表示向量和第二表示向量,得到目标文本的语义表示结果。

    一种大数据场景下的数据分割方法

    公开(公告)号:CN114491157A

    公开(公告)日:2022-05-13

    申请号:CN202210132296.7

    申请日:2022-02-14

    Abstract: 本发明实施例提供了一种大数据场景下的数据分割方法,包括:获取探测区间,确定待分割的数据集合中属于探测区间内的区内数据条数;在区内数据条数不处于预定的容忍范围内时,对探测区间的右端点进行一次或者多次指数型调整直至得到使得区内数据条数处于容忍范围内的右端点或者越过容忍范围;在指数型调整导致区内数据条数越过容忍范围时,以当前的探测区间的右端点以及前一个探测区间的右端点构成的区间为查找范围,通过二分查找法确定使得区内数据条数处于容忍范围内的右端点;根据探测区间的左端点以及使得区内数据条数处于容忍范围内的右端点确定的分割区间对数据集合进行分割。

    一种文本聚合方法以及文本推荐方法

    公开(公告)号:CN114443820A

    公开(公告)日:2022-05-06

    申请号:CN202210177000.3

    申请日:2022-02-25

    Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。

    基于自适应权重的语义检索模型融合方法及系统

    公开(公告)号:CN117076598A

    公开(公告)日:2023-11-17

    申请号:CN202310518172.7

    申请日:2023-05-09

    Abstract: 本发明提出一种基于自适应权重的语义检索模型融合方法,包括:以检索信息进行稀疏检索,获取稀疏检索结果及对应的稀疏排序分值;以该检索信息进行稠密检索,获取稠密检索结果及对应的稠密排序分值;构建权重预测模型,基于该检索信息、该稀疏检索结果和该稠密检索结果通过该权重预测模型获取融合权重;以该融合权重、该稀疏排序分值和该稠密排序分值,生成融合排序分值;根据该融合排序分值,将该稀疏检索结果和该稠密检索结果进行排序,生成最终检索结果。本发明还提出一种基于自适应权重的语义检索模型融合系统,以及一种用于基于自适应权重的语义检索模型融合的数据处理装置。

Patent Agency Ranking