Deep visual-semantic alignments for generating image descriptions (A. Karpathy and L. Fei-Fei)

上传人:简****9 文档编号:28427172 上传时间:2021-08-28 格式:PPT 页数:35 大小:10.46MB
返回 下载 相关 举报
Deep visual-semantic alignments for generating image descriptions (A. Karpathy and L. Fei-Fei)_第1页
第1页 / 共35页
Deep visual-semantic alignments for generating image descriptions (A. Karpathy and L. Fei-Fei)_第2页
第2页 / 共35页
Deep visual-semantic alignments for generating image descriptions (A. Karpathy and L. Fei-Fei)_第3页
第3页 / 共35页
点击查看更多>>
资源描述
基于深度视觉-语义对齐模型的生成图像描述 背景图片的自动处理,解放人眼规模图像自动标注,图片检索,图像翻译机器人,无人车自主导航帮助盲人“看世界”车牌自动识别 目标生成的文字描述依赖于训练集的质量和数量,在模型上不对其语法结构,单词种类有限制。生成丰富具体的、自由形式的对图片及其区域的文字描述 两个模型1 .区域-语段对齐模型 (输入:图片-语句集,输出:区域-语段集)2 . 生成模型: 循环神经网络 ( 输入:图片 输出: 语句 ) 或 ( 输入:区域 输出:语段 )or 训练过程测试过程1 .2 单词的表示(提取特征) 1 .4 生成一个区域对应的语段1 .1 区域的表示(提取特征)( )s RNN p输出:(区域1 , 语段1 )(区域2 , 语段2 ).第b个区域第i个单词输入:(区域1 , 语段1 )(区域2 , 语段2 ).输入:(图片1 , 语句1 )(图片2 , 语句2 ).输入:区域1区域2Iutput:图片输出:语段1语段2.输入1:图片输入2 :语句输出:语句Iutput:图片找到一个单词对应着哪些区域找到一个语段对应着哪些区域分割为多个区域分割为多个单词 神经网络 ( )( 1) ( ) ( )1( )lKl l lm km k mka f W a b 训练方法: 多层感知机 卷积神经网络(Convolutional Neural Network) 1 .更多的层2 .局部感受(符合人眼的视觉特征,可以减少参数,且避免梯度发散)3 .池化层(进一步减少参数)对图像特征提取特别有效 多层感知机:层与层之间全连接每层之间节点无连接 这种传统网络没有考虑:有时序的输入及输入节点之间的相关性循环神经网络(RNN): 在多层感知机的基础上,加入时间维度,将此刻之前的信息应用于当前时刻网络的运算可描述在有顺序的输入(如文本)更好的表达输入数据的相关性善于处理变长数据RNN在自然语言处理(NLP)领域应用广泛。 双向循环神经网络(BRNN): 此刻之前或之后的信息都应用于当前时刻网络的运算递归神经网络(RNN) 1 .1 区域的表示:Model 1 .区域-语段对齐模型 1 .2 单词的表示最简单的表示单词dog: 缺点: 维度太大,不能表示两个单词的相似性(.0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 .)dogcat man 但是,在语句中将一个单词表示为特征向量,我们希望特征向量包含更多的关于语义的特征。改进: word2 vec是一个将单词转换成k维向量形式的工具,可以用单词向量的空间距离单词之间的相似度。 Model 1 .区域-语段对齐模型 t=1 t=2 t=3 t=4 t=5 1 .2 单词的表示双向循环神经网络(BRNN): 多层感知机 Model 1 .区域-语段对齐模型K维向量,1 0 0 0 k3 d(BEST) 训练过程2 0 min,4 0 min,1 2 h,3 d(BEST) 缺点区域-单词相似度较高的是几乎都是名词、形容词,介词以、副词等的相似度非常小,模型对物体之间的关系表述较为抽象。训练难度大,由图像-语句数据生成区域-语段数据,再由区域-语段数据去训练生成模型。对齐模型产生的误差会在生成模型中放大,鲁棒性差,导致结果训练困难。生成描述中的短语大多数(6 0 %)都可以在训练集中找到生成模型中CNN作为RNN的偏置项,缺少信息表现力。 优点虽然在细节上有错误,总是能够得到图片大意,可以说具备抽象理解的能力。超过大多数前人研究的水平 1 2 3 4 5 6 7 8 9 1 0 123456
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 临时分类 > 人文社科


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!