基于视频的图文网页生成方法及装置
摘要:
本发明提供一种基于视频的图文网页生成方法及装置,涉及互联网技术领域,方法包括:获取包括至少一组视频帧组的视频帧序列,以及获取各视频帧组对应的语音数据;对各语音数据进行语音识别;对各视频帧组进行OCR文字识别;针对每组视频帧组,基于对应语音识别得到的预测文本和对应文字识别得到的识别文本,结合结巴分词和拼音相似度,确定预测文本中存在待纠正词,并结合三元语言模型,利用对应识别文本对待纠正词进行替换;针对每组视频帧组,将替换后的文本或预测文本存放至区隔标记DIV标签中,以及将对应视频帧存放至与DIV标签关联的图片标签中,得到超文本标记语言HTML网页。本发明既保证了网页内容的准确性,又便于用户阅(56)对比文件闫建鹏;封化民;刘嘉琦.一种基于多模态特征的新闻视频语义提取框架.计算机应用研究.2012,(第07期),第2725-2729页.
公开/授权文献
0/0