方言样本数据抽取方法、装置、设备及存储介质

    公开(公告)号:CN111291154A

    公开(公告)日:2020-06-16

    申请号:CN202010054280.X

    申请日:2020-01-17

    IPC分类号: G06F16/33

    摘要: 本发明公开了一种方言样本数据抽取方法,该方法包括:获取多个方言区的第一方言及所述多个方言区中每个方言区对应的城市数据,其中一个方言区对应一个城市;将第一方言相同的方言区分类成同一方言组别,并得到多个方言组;根据每个方言区对应的城市数据,对每个方言组进行排序,并从每个排序后的方言组中确定每个方言组的目标方言区;获取每个方言组的目标方言区对应的城市的医美对话数据;将获取的每个方言组对应的医美对话数据作为方言样本数据。因此本发明在机器学习数据选择上理论上数据需要覆盖所有的官话区,这样才能够增强模型的泛化能力。

    一种基于少量数据的访客意图数据预抽取方法及系统

    公开(公告)号:CN111221955A

    公开(公告)日:2020-06-02

    申请号:CN202010022812.1

    申请日:2020-01-09

    IPC分类号: G06F16/332 G06F16/35

    摘要: 本发明公开了一种基于少量数据的访客意图数据预抽取方法,包括以下步骤:S1:使用正则表达式在访客会话数据中抽取数据,其中,所述的数据包括意图数据;S2:通过语言模型,从步骤S1中所获取的数据进行标注后训练一个分类器;S3:使用步骤S2的分类器对未标注过的数据进行预测,筛选出意图数据继续标注;S4:在步骤S3中预测数据的准确率小于预设值时,则执行步骤S1;否则,结束。通过本发明的方案更加减少垃圾数据的空间占用,并且节省时间和人力。

    一种问答系统、问答机器人及其FAQ问答库召回方法

    公开(公告)号:CN112328755B

    公开(公告)日:2022-08-23

    申请号:CN202011037649.2

    申请日:2020-09-28

    发明人: 陈鑫 肖龙源 廖斌

    摘要: 本发明公开了一种问答系统、问答机器人及其FAQ问答库召回方法,其包括:获取FAQ问答库中的问答话术,问答话术包括一个以上问题和一个答案组成的问答对;对问答话术进行意图识别和命名实体识别,获取问答话术的意图识别结果和命名实体识别结果;将意图识别结果、命名实体识别结果、问答话术拼接形成三元组识别模板;获取访客问题,并对访客问题进行意图识别和命名实体识别,获取访客问题的意图识别结果和命名实体识别结果;将访客问题的意图识别结果和命名实体识别结果与三元组识别模板进行匹配,得到访客问题对应的问答话术,并将该问答话术中对应的答案返回给访客;采用该模板匹配的方式,与传统的语义相似度匹配相比,可以有效的提高FAQ的召回率。

    一种质检标注数据的方法及系统及装置

    公开(公告)号:CN111581195A

    公开(公告)日:2020-08-25

    申请号:CN202010353465.0

    申请日:2020-04-29

    IPC分类号: G06F16/215 G06N20/00

    摘要: 本发明公开了一种质检标注数据的方法,通过如下步骤实现对标注数据的质检:步骤101,按照标准规则进行标注标准数据,并输出结果,将原数据记为质检数据,标注结果记为质检数据标准;步骤102,在待标注数据中插入质检数据,所述质检数据为具有标准标注结果的标准数据,所述质检数据带有标签;步骤103,将包含质检数据和待标注数据的数据进行标注,得到标注结果;步骤104,将带有标签的质检数据的标注结果抽取出来与质检数据标准进行比对,得到的比对结果即为标注数据的质检结果。本发明还公开了采用上述方法的系统及装置。本发明的优点在于:极大避免了质检时由于人工质检的主观原因造成的误判,保证标注数据的准确性,提高质检的效率,降低耗时。

    骚扰信息识别方法、装置、电子设备及介质

    公开(公告)号:CN110995641A

    公开(公告)日:2020-04-10

    申请号:CN201910944561.X

    申请日:2019-09-30

    IPC分类号: H04L29/06 G06F21/57

    摘要: 本申请提供一种骚扰信息识别方法及装置、一种电子设备以及一种计算机可读介质。其中,所述方法包括:在客户端的浏览器打开输入框后,监听在所述输入框中输入内容对应的按键信息;根据是否监听到所述输入内容对应的按键信息,判断所述输入内容是否为骚扰信息。本方案中,访客在输入框敲击键盘时浏览器不断监听按键变化,可以根据按键变化判断是不是模拟的访客,相较于现有技术,本方案不仅能够准确识别模拟访客,而且把防御方案部署在了客户端,减少了服务器端的压力,减少了资源消耗。

    方言样本数据抽取方法、装置、设备及存储介质

    公开(公告)号:CN111291154B

    公开(公告)日:2022-08-23

    申请号:CN202010054280.X

    申请日:2020-01-17

    IPC分类号: G06F16/33

    摘要: 本发明公开了一种方言样本数据抽取方法,该方法包括:获取多个方言区的第一方言及所述多个方言区中每个方言区对应的城市数据,其中一个方言区对应一个城市;将第一方言相同的方言区分类成同一方言组别,并得到多个方言组;根据每个方言区对应的城市数据,对每个方言组进行排序,并从每个排序后的方言组中确定每个方言组的目标方言区;获取每个方言组的目标方言区对应的城市的医美对话数据;将获取的每个方言组对应的医美对话数据作为方言样本数据。因此本发明在机器学习数据选择上理论上数据需要覆盖所有的官话区,这样才能够增强模型的泛化能力。

    一种问答系统、问答机器人及其FAQ问答库召回方法

    公开(公告)号:CN112328755A

    公开(公告)日:2021-02-05

    申请号:CN202011037649.2

    申请日:2020-09-28

    发明人: 陈鑫 肖龙源 廖斌

    摘要: 本发明公开了一种问答系统、问答机器人及其FAQ问答库召回方法,其包括:获取FAQ问答库中的问答话术,问答话术包括一个以上问题和一个答案组成的问答对;对问答话术进行意图识别和命名实体识别,获取问答话术的意图识别结果和命名实体识别结果;将意图识别结果、命名实体识别结果、问答话术拼接形成三元组识别模板;获取访客问题,并对访客问题进行意图识别和命名实体识别,获取访客问题的意图识别结果和命名实体识别结果;将访客问题的意图识别结果和命名实体识别结果与三元组识别模板进行匹配,得到访客问题对应的问答话术,并将该问答话术中对应的答案返回给访客;采用该模板匹配的方式,与传统的语义相似度匹配相比,可以有效的提高FAQ的召回率。

    骚扰访客识别方法、装置、电子设备及介质

    公开(公告)号:CN110995940A

    公开(公告)日:2020-04-10

    申请号:CN201910944564.3

    申请日:2019-09-30

    摘要: 本申请提供一种骚扰访客识别方法及装置、一种电子设备以及一种计算机可读介质。其中,所述方法包括:在与访客的对话窗口中,向访客发送图片形式的问题内容;监听所述访客对于所述图片形式的问题内容的回复速度及回复内容;根据所述回复速度及回复内容判断该访客是否为骚扰访客。用软件模拟用户请求的骚扰访客获知问题为图片信息时,不能立刻识别出该问题内容,需要时间调用图片转文字的工具,因此可以根据回复速度及回复内容来识别骚扰访客,相较于现有技术,能够大范围的拦截用软件模拟用户请求的骚扰访客,避免骚扰访客的干扰及占用人工客服时间。