基于多视图跨模态特征融合的图像描述生成

张乃洲,赵云超,曹薇,张啸剑

Image captioning generation based on multiple-view cross-modal feature fusion

Naizhou ZHANG,Yunchao ZHAO,Wei CAO,Xiaojian ZHANG

表 3 在Flickr30k数据集上与其他先进模型的性能比较

Tab.3 Comparison with other state-of-the-art model on Flickr30k dataset