一种实体关系的抽取与预标注方法

    公开(公告)号:CN114357270A

    公开(公告)日:2022-04-15

    申请号:CN202111274804.7

    申请日:2021-10-29

    摘要: 本发明公开了一种实体关系的抽取与预标注方法,涉及知识图谱技术领域。根据实体类关键词作为头实体,抓取相关维基网页右侧信息框中的结构化数据;由以上头实体与信息框中各字段对应的尾实体,组成各三元组;根据各三元组的头尾实体在维基原文中匹配相应的句子,若匹配成功则进行下一步,匹配失败则跳过该三元组开始处理下一个实体关键词。将以上各三元组的关系对应的字段与关系类关键词进行匹配,若匹配成功,完成三元组头尾实体的抽取、预标注、实体类型与关系的确定;若匹配不成功,对头实体或尾实体进行预标注,实体间关系无法由关系类关键词判定时,关系的判定交给人工。本发明解决人工标注费时费力、成本高的问题。

    截图、电子文档的识别方法、系统、终端、介质

    公开(公告)号:CN113065563A

    公开(公告)日:2021-07-02

    申请号:CN202110315489.1

    申请日:2021-03-24

    IPC分类号: G06K9/34

    摘要: 本发明公开了截图、电子文档的识别方法、系统、终端、介质,涉及计算机图像识别技术领域。信息数据处理终端获取图像的四个边中只要有一个边的边框处的某行或某列像素值完全等于其最邻近的某行或某列的像素值,则判定该获取的图像照片为目标图片,这里的目标图片指手机截图、电脑截图、电子文档。判定该获取的图像图片为目标图片后,如果该图片还存在EXIF信息,则再检测其EXIF信息,若没有曝光时间,则进一步认定该获取的图像照片为目标图片,并保存。本发明的方法在实际测试中精度超过95%,召回率85.3%,又快又好的实现了检测需求,本发明以一种简单的方法,解决现有技术存在的各种复杂情况。

    网络舆情引导效果数据信息处理方法、系统、终端及介质

    公开(公告)号:CN112711691A

    公开(公告)日:2021-04-27

    申请号:CN202110025513.8

    申请日:2021-01-08

    摘要: 本发明公开一种网络舆情引导效果数据信息处理方法、系统、终端及介质,涉及网络数据信息处理技术领域。网络舆情态势评估指标体系构建模块用于建立网络舆情威胁态势评估指标体系、确定各指标计算方法,并计算随着时间变化的网络威胁指数曲线;基于事件传播路径图的引导体影响力评估指标体系构建模块用于建立事件的传播路径图和引导体影响力评估指标体系,确定各指标计算方法,计算引导体在舆情发展过程中的影响力;引导效果评估数据信息处理模块用于利用事件的网络舆论态势特征和传播图特征进行引导效果数据信息的评估。本发明舆情威胁态势评估考虑全面,并可对引导个体所起到的具体作用进行分析。

    基于机器阅读理解的中文评价词对抽取方法、系统、应用

    公开(公告)号:CN116384395A

    公开(公告)日:2023-07-04

    申请号:CN202310122643.2

    申请日:2023-02-08

    摘要: 本发明属于语言信息处理技术领域,公开了基于机器阅读理解的中文评价词对抽取方法、系统、应用。基于机器阅读理解的中文评价词对抽取方法包括:对评论文本进行预处理,基于预处理后评论文本采用非限制抽取结合限制抽取的方式分别从评价对象到评价词的抽取方向上以及评价词到评价对象的抽取方向进行词对集的抽取;融合两个方向上的抽取的词对集得到中文评价词对抽取结果。本发明的基于机器阅读理解的中文评价词对抽取方法有效提升了实体和实体关系抽取的准确性,提升了中文评价词对抽取的效果,对于用户情感分析、辅助用户决策等相关任务具有重要意义。

    改进的文本特征词汇提取方法、系统、介质、设备及终端

    公开(公告)号:CN115630638A

    公开(公告)日:2023-01-20

    申请号:CN202211361585.0

    申请日:2022-11-02

    摘要: 本发明属于语义网络技术领域,公开了改进的文本特征词汇提取方法、系统、介质、设备及终端,所述改进的文本特征词汇提取方法包括:利用分词技术对文本进行分词处理;与停用词表匹配,对文本词汇集合进行去停用词处理;调查统计得出词汇位置权重值;调查统计得到词汇词性权重值;找到文本的核心词汇c(w1),利用RE(ci,c(w1))找到后m‑1位特征词汇。本发明提供的改进的文本特征词汇提取方法,克服了信息增益方法只适合用来提取一个类别的文本特征的缺点。此方法在文本特征提取方法没有文本集合或没有事先分好类别,仅仅给出一个文本条件下,可以提取这个文本的特征。此方法结合词性与词位置,比传统的词频‑反文档频率方法得到的特征词汇集合的准确度更高。

    基于BIAS指标的舆情趋势分析应用方法、系统及应用

    公开(公告)号:CN115456308A

    公开(公告)日:2022-12-09

    申请号:CN202211274465.7

    申请日:2022-10-18

    IPC分类号: G06Q10/04 G06Q10/06 G06Q50/00

    摘要: 本发明属于网络空间认知域技术领域,公开了基于BIAS指标的舆情趋势分析应用方法、系统及应用。该方法包括:通过对不同时期的舆情指数计算获得的BIAS的可信度值并进行可视化;建立不同时期的从不同时期BIAS可信度曲线以及舆情指数的曲线趋势图;分析不同场景下舆情指数的趋势变化,然后根据不同场景,从多角度分析舆情趋势的走向,对舆情进行预警预测。本发明通过对不同时期的BIAS的值进行可视化,从不同时期BIAS可信度曲线交叉情况的角度分析,总结出不同场景下舆情指数可能出现的趋势变化,对舆情的预警预测有一定的指导意义。

    一种跨平台传播路径构建方法、系统、设备及终端

    公开(公告)号:CN115270784A

    公开(公告)日:2022-11-01

    申请号:CN202210957673.0

    申请日:2022-08-10

    摘要: 本发明属于人工智能、深度学习以及信息传播技术领域,公开了一种跨平台传播路径构建方法、系统、设备及终端,利用提取文本摘要技术抽取博本的核心内容,再计算不同博文的相似度,结合时间及博文热度对博文跨平台传播路线信息进行构建;和/或,模型的输入为多个不同平台关于某个事件的博文数据,通过博文内容、博文发表时间以及博文热度对某个事件博文在社交网络上的传播路径进行构建,并利用Gephi将传播关系图进行展示。本发明利用数据文本内容、时间及热度对博文的传播路径进行构建,综合三个因素计算博文在用户之间存在的隐式传播概率P,实现跨平台间博文的传播路径关系图,为舆情传播态势分析等领域奠定研究基础。

    凝聚型层次聚类算法优化系统、方法、设备、介质及终端

    公开(公告)号:CN114547316B

    公开(公告)日:2022-07-29

    申请号:CN202210453344.2

    申请日:2022-04-27

    IPC分类号: G06F16/35 G06K9/62

    摘要: 本发明属于自然语言处理技术领域,公开了凝聚型层次聚类算法优化系统、方法、设备、介质及终端,对凝聚型层次聚类算法的计算过程进行优化,将目标聚类样本拆分为多个组团,对不同组团分别进行聚类后,对不同聚类组团进行合并,得到最终的聚类结果。为避免计算量随样本量增加呈指数级增长的问题,有效提升凝聚型层次聚类算法的计算效率。本发明优化后的算法能够支持多进程计算,针对不同组团的聚类可同步进行,通过对多进程计算的支持,可显著提升计算效率。针对10000条文本数据进行聚类测试,本发明优化后的算法聚类部分计算时长约为30.1s,传统算法聚类部分计算时长约为101.5s,优化后算法聚类计算效率有显著提升。

    知识图谱构建方法、装置、设备和计算机可读存储介质

    公开(公告)号:CN114186076A

    公开(公告)日:2022-03-15

    申请号:CN202111533399.6

    申请日:2021-12-15

    摘要: 本申请涉及人工智能领域,提供了知识图谱构建方法、装置、设备和计算机可读存储介质,以实现知识图谱构建的可迭代、构建过程可复用,提升知识图谱构建的效率与质量。所述方法包括:基于历史的知识图谱本体,构建当前轮知识图谱本体并输出;根据标准输入输出定义,将当前轮知识图谱本体作为输入,对源文本数据进行信息抽取,得到信息抽取结果并输出;将信息抽取结果作为输入,采用当前轮知识图谱本体对信息抽取结果进行映射,得到结构化图谱数据并输出;将结构化图谱数据作为输入,融合历史的结构化图谱数据,得到当前轮结构化图谱数据并输出;将当前轮结构化图谱数据作为输入,对当前轮结构化图谱数据进行验证,得到最终结构化图谱数据并输出。

    基于神经网络的中文字符OCR识别方法、系统、介质及应用

    公开(公告)号:CN113762269A

    公开(公告)日:2021-12-07

    申请号:CN202111052414.5

    申请日:2021-09-08

    摘要: 本发明公开一种基于神经网络的中文字符OCR识别方法、系统、介质及应用,涉及图象识别技术领域。对输入图像进行文本检测;对检测后的文本区域图像进行文本掩膜信息提取,并定位文本区域每个字符的位置坐标,按照字符位置坐标从文本掩膜截取每个字符掩膜;对字符掩膜进行特征提取,并映射到多维向量空间得到字符向量;字符向量按照字符次序组成文本向量矩阵,利用文本向量矩阵学习上下文依赖信息,完成文本的识别。本发明解决了输入图像进行中文文本检测,截取图像文本区域,并对文本区域文字识别的问题。本发明中文字符识别准确率得到了提升;形近字识别准确率提升;字符的方向不敏感。