一种基于自动机的实体关系快速抽取方法

    公开(公告)号:CN105824801A

    公开(公告)日:2016-08-03

    申请号:CN201610150794.9

    申请日:2016-03-16

    CPC classification number: G06F17/2785 G06F16/288

    Abstract: 本发明提供一种基于自动机的实体关系快速抽取方法,包括以下步骤:步骤1,定制规则文件;步骤2,对规则文件中的各个规则进行文法检查,检测规则文件中的各个规则是否满足文法要求,如果满足,则执行步骤3;步骤3,对通过文法检查的所述规则文件中的各个规则进行语义解释;步骤4,将语义解释后的所述规则文件中的各个规则进行解析编译,完成规则向层叠有限状态自动机的转换,得到有限状态自动机;步骤5,使用所述有限状态自动机,对输入的文本数据进行实体属性以及实体关系的抽取,得到最终的实体属性以及实体关系。优点为:能够保证对开放域文本进行快速的实体关系与实体属性抽取。同时,对于特定领域的实体关系可以定制化的进行抽取。

    一种特定场景语音内容识别优化方法

    公开(公告)号:CN117095673A

    公开(公告)日:2023-11-21

    申请号:CN202310830037.6

    申请日:2023-07-07

    Abstract: 本发明涉及语音识别领域,尤其为一种特定场景语音内容识别优化方法,包括如下步骤:包括如下步骤:S1:使用网络爬虫技术对网络中特定场景的语音进行爬取,获得初始语音数据;S2:提取初始语音数据并对初始语音数据进行数据预处理获得预处理数据;S3:通过卷积神经网络训练实用模型,对预处理数据进行语音识别并生成初始文本;S4:使用文本规范算法对初始文本进行文本润色保证输出最终文本的正确性。本发明通过对获取的语音进行预处理起到数据增强的作用保证了数据不失真,在获取到不失真的数据后对其进行特征提取确保了工作速度,对提取出的初始文本进行文本规范算法用常见的文本代替初始文本中出现的非人类语言,保证最后出现的文本不会出现错误。

    基于移动用户信令数据的跨城通勤用户识别方法及装置

    公开(公告)号:CN115915038A

    公开(公告)日:2023-04-04

    申请号:CN202110805859.X

    申请日:2021-07-16

    Abstract: 本发明公开了一种基于移动用户信令数据的跨城通勤用户识别方法及装置,包括:基于每一周期的白天时间段与夜间时间段,利用目标区域的移动用户信令数据获取该周期日工作用户与该周期日居住用户;依据该周期日工作用户的该周期夜间信令数据与该周期日居住用户的该周期白天信令数据,分别得到该周期夜间信令消失用户与该周期白天信令消失用户;利用全部移动用户在设定时间段内成为该周期夜间信令消失用户或该周期白天信令消失用户的次数,得到跨城通勤用户识别结果。本发明基于原始信令数据挖掘跨城通勤用户,采用Spark计算框架进行分析处理,具有高可靠性和高效率,可用于区域人口监管。

    语音溯源取证方法及装置、设备及存储介质

    公开(公告)号:CN115083422B

    公开(公告)日:2022-11-15

    申请号:CN202210859678.X

    申请日:2022-07-21

    Abstract: 本公开涉及一种语音溯源取证方法及装置、设备及存储介质,所述方法包括:本提取待测试语音的至少两种不同的声学特征;对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;将预测出的待测试语音的生成算法作为语音溯源取证结果,通过提取算法指纹,不仅可以判断音频的真实性,而且可以进一步溯源取证,得到虚假音频的生成来源。

Patent Agency Ranking