show_attend_tell

论文 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

生成标注 $y$ , 为 $K$ (vocabulary的大小)维向量; $C$ 是标注的长度:

$mathbf{a}_{i}$ 为 $D$ 维图像特征
$mathbf { i } _ { t } , mathbf { f } _ { t } , mathbf { c } _ { t } , mathbf { o } _ { t } , mathbf { h } _ { t }$ 分别是输入、遗忘、记忆、输出、hidden state;

$hat { mathbf { z } } in mathbb { R } ^ { D }$ 是上下文向量;$mathbf { E } in mathbb { R } ^ { m times K }$ 是embedding矩阵