从音视频中检测广告的方法及系统

    公开(公告)号:CN101576955B

    公开(公告)日:2011-10-05

    申请号:CN200910087428.3

    申请日:2009-06-22

    Abstract: 本发明涉及从音视频中检测广告的方法和系统,所述方法包括:步骤1,从待检测的音视频中提取音频,从音频中提取帧的短时能量和美尔倒谱系数特征;步骤2,根据帧的短时能量和美尔倒谱系数特征从所述音频中查找出相互间相似度满足预设条件的两组帧,每组内部中的帧在所述音频中位置连续,每组帧在待检测的音视频中对应的音视频片段为广告。本发明能够比现有技术更准确、高效地检测出视频音频中的广告片段。

    一种人机交互设备
    53.
    发明公开

    公开(公告)号:CN102184011A

    公开(公告)日:2011-09-14

    申请号:CN201110117664.2

    申请日:2011-05-06

    CPC classification number: G06F3/0346 G06F3/017

    Abstract: 本发明公开了一种人机交互设备,包括:运动位置传感器,用于采集运动轨迹与姿态;麦克风,用于采集与其他表面的摩擦音频;处理模块,用于根据采集的运动轨迹和与其他表面的摩擦音频,得到“拖拽”的人机交互命令;以及通过采集到的运动位置传感器数据和计算出麦克风采集到音频的瞬时功率对于敲击动作做出判断,得到“敲击”命令的人机交互命令;实现对相应的设备或计算机进行交互。所述设备能够接任何固体表面作为触摸平面,通过触摸该表面完成各种手势动作,并以该动作控制计算机或智能设备实现相关操作。

    一种语音浏览方法及浏览器

    公开(公告)号:CN102163213A

    公开(公告)日:2011-08-24

    申请号:CN201110046896.3

    申请日:2011-02-25

    Abstract: 本发明提供一种语音浏览方法,包括:网页信息提取步骤:对于用户请求的任一网页,首先对其进行网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取;若该网页为非主题型网页,则进行网页分块;网页格式转换步骤:将HTML格式的网页自动转换为VOICEXML格式的网页;其中,对于主题型网页,所抽取的网页主内容设置为优先向用户朗读;对于非主题型网页,为用户设置快捷键以使用户能够在各网页块之间自由切换和选择;语音推送步骤:基于voiceXML格式网页,向用户朗读网页内容。本发明还提供了相应的语音浏览器。发明能够使得网页内容的呈现更为合理和高效;发明能够使满足用户的实时请求。

    一种网页分割方法
    55.
    发明公开

    公开(公告)号:CN102073710A

    公开(公告)日:2011-05-25

    申请号:CN201010617741.6

    申请日:2010-12-31

    Abstract: 本发明提供一种网页分割方法,其特征在于,包括:步骤1)获取待分割网页的DOM树;步骤2)遍历所述DOM树,将其中每个只包含1个基本多行结点的结点作为一个基本分块,将每两个只包含1个基本多行结点的结点之间的零散叶结点分别合成一个基本分块;其中,当一个基本多行结点的父结点被作为一个基本分块时,该基本多行结点不再作为一个基本分块;步骤3)在所述基本分块中找出主题块,将主题块与其后面邻接的若干个非主题块合并。本发明能够在分块的同时很好地保持原有的网页结构,避免打散属于同一主题或分类的链接,避免主题或分类标签与其对应的链接分离。本发明的执行效率高,容易实现。

    一种交互式语音识别系统和方法

    公开(公告)号:CN101923854A

    公开(公告)日:2010-12-22

    申请号:CN201010269306.9

    申请日:2010-08-31

    Abstract: 本发明公开了一种交互式语音识别系统,包括:声学模型和语言模型选择模块,用于根据待识别对象信息,为其选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;语音语句提取模块,用于将整段语音信号切分成若干个语音语句并提取出来,送至语音识别模块;语音识别模块,用于对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;字候选生成和错误修正模块,用于对所述识别中间结果进行处理生成候选集,再根据选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;交互模块,用于将用户输入的数据发送给声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。

    一种盲文计算机点字输入系统及方法

    公开(公告)号:CN101339467A

    公开(公告)日:2009-01-07

    申请号:CN200810116177.2

    申请日:2008-07-04

    Abstract: 本发明涉及一种盲文计算机点字输入系统及方法。该方法包括:使用者利用点字笔和盲文点字输入导板在盲文点字输入主板上点字,点字笔中的微型按钮开关闭合,形成一个盲符点上的开关回路,以便盲文点字输入主板得到该盲符点的盲点符位置信息;盲文点字输入主板读取并存储当前盲符点位置信息,将盲符点位置信息转换成盲符编码发送至计算机;计算机将盲符编码转换为文字。本发明以微处理器为控制部件,以盲文点字输入主板上的盲符点阵列以及点字笔构成点线组合的开关阵列,再经过编码电路和盲文点字处理程序,从而实现了盲文的计算机点字输入功能,具有通用性强、成本低、使用方便等优点,完全符合盲人平时书写盲文的使用习惯,有广泛的应用前景。

    一种音频匹配方法及系统
    58.
    发明公开

    公开(公告)号:CN101221760A

    公开(公告)日:2008-07-16

    申请号:CN200810057161.9

    申请日:2008-01-30

    CPC classification number: G06F17/30758 G06F17/30743 G10L25/48

    Abstract: 本发明提供一种音频匹配方法,用于从待测音频流片段中检测出与标准音频库中音频样例相匹配的音频片段,包括:在待测音频流片段的能量包络单元图上,选择每个能量包络单元的起始点作为匹配操作的点;将每个音频样例以及待测音频流片段用切分点和概率对组成的数对形式表示;将待测音频流片段的数对依次与每个音频样例的数对进行比较,得到匹配点以及对应的匹配概率;采用相似性度量函数对匹配点以及对应的音频样例进行计算,得到两者的相似值;将相似值与一个预先设定的阈值进行比较,若所述的相似值大于该阈值,则认为与匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。本发明具有计算简便、运算速度快的优点。

    一种通用盲文到汉字的转换方法及系统

    公开(公告)号:CN114970453B

    公开(公告)日:2025-04-08

    申请号:CN202210569910.6

    申请日:2022-05-24

    Abstract: 本发明提出一种通用盲文到汉字的转换方法和系统,其特征在于,包括:构建深度学习模型,由通用盲文文本生成拼音音节序列和分词标记序列,经由深度学习模型的嵌入层向量化后拼接得到融合盲文分词信息的拼音嵌入向量,分别输入深度学习模型的局部语义特征提取层和全局语义特征提取层;得到局部语义信息和上下文语义信息,将两者拼接后输入全连接层得到通用盲文文本对应的汉字文本。本发明通过拼音音节嵌入与分词信息嵌入拼接为一个总体的嵌入向量,以及局部语义特征提取层和全局语义特征提取层共享嵌入层结合的特征提取模块,实现了高准确率的通用盲文‑汉字转换。

    一种基于深度学习的盲文读物校对方法及系统

    公开(公告)号:CN114519860A

    公开(公告)日:2022-05-20

    申请号:CN202210066282.X

    申请日:2022-01-20

    Abstract: 本发明提出一种基于深度学习的盲文读物校对方法,包括:对已知盲文图像进行盲符标注,生成标注图,构建已知数据集;以该已知数据集对深度学习模型进行训练,获得初始识别模型;以盲文读物对应的盲文图像为目标盲文图像,将该目标盲文图像划分为迁移学习图像和校对图像,以该迁移学习图像对该初始识别模型进行迁移学习训练,得到目标识别模型;以该目标识别模型对该校对图像进行识别,获得该校对图像的校对电子盲文;通过该电子盲文和该校对图像对应的原始电子盲文进行对比,以完成对该盲文读物的质检校对。还提出一种基于深度学习的盲文读物校对系统,以及一种实施盲文读物校对的数据处理装置。

Patent Agency Ranking