Vision and Language Learning with Graph Neural Networks Linchao Zhu - PowerPoint PPT Presentation

Vision and Language Learning with Graph Neural Networks Linchao Zhu 22 Apr, 2020 Recognition, LEarning, Reasoning UTS CRICOS 00099F

Overview • RNNs for Image Captioning • Transformer for Image Captioning • Graph Network for Visual Commonsense Reasoning Recognition, LEarning, Reasoning

Image Captioning Zero-shot novel object captioning: the model How to generate descriptions for • needs to caption novel objects without additional unseen words? training sentence data about the object. Wu et al., Decoupled Novel Object Captioner, ACM MM 2018. Recognition, LEarning, Reasoning

Image Captioning Wu et al., Decoupled Novel Object Captioner, ACM MM 2018. Recognition, LEarning, Reasoning

Novel Image Captioning Results on eight novel objects in the held-out MS COCO dataset • A larger dataset: nocaps: novel object captioning at scale, ICCV 2019 Wu et al., Decoupled Novel Object Captioner, ACM MM 2018. Recognition, LEarning, Reasoning

Image Captioning • Semantic attributes are useful Visual regions are useful • Li et al., Entangled Transformer for Image Captioning, ICCV 2019. Recognition, LEarning, Reasoning

Image Captioning Li et al., Entangled Transformer for Image Captioning, ICCV 2019. Recognition, LEarning, Reasoning

Image Captioning EnTangled Attention • Li et al., Entangled Transformer for Image Captioning, ICCV 2019. Recognition, LEarning, Reasoning

Image Captioning Gated Bilateral Controller • Li et al., Entangled Transformer for Image Captioning, ICCV 2019. Recognition, LEarning, Reasoning

Image Captioning Results on MSCOCO (Karpathy’s split) • Fuse two models Li et al., Entangled Transformer for Image Captioning, ICCV 2019. Recognition, LEarning, Reasoning

Image Captioning Results on MSCOCO (Karpathy’s split) with sequence-level optimization • Transformer v : visual input only (w/o GBC) Transformer s : semantic attributes only (w/o GBC) Parallel: no ETA but use GBC Stacked v : stacked two visual layers(w/o GBC) Stacked s : stacked two semantic layers (w/o GBC) ETA: ours Li et al., Entangled Transformer for Image Captioning, ICCV 2019. Recognition, LEarning, Reasoning

Visual Commonsense Reasoning Question -> Answer -> Rationale Zellers et al., 2015 Recognition, LEarning, Reasoning

Visual Commonsense Reasoning Wu et al., Connective Cognition Network for Directional Visual Commonsense Reasoning, NeurIPS 2019. Recognition, LEarning, Reasoning

Visual Commonsense Reasoning Local features Global features Wu et al., Connective Cognition Network for Directional Visual Commonsense Reasoning, NeurIPS 2019. Recognition, LEarning, Reasoning

Visual Commonsense Reasoning Directional Reasoning • Conv Local features Global features attention Wu et al., Connective Cognition Network for Directional Visual Commonsense Reasoning, NeurIPS 2019. Recognition, LEarning, Reasoning

Visual Commonsense Reasoning Loss: multi-class cross-entropy loss • • Results on the VCR dataset Wu et al., Connective Cognition Network for Directional Visual Commonsense Reasoning, NeurIPS 2019. Recognition, LEarning, Reasoning

Visual Commonsense Reasoning Conditional centers • Wu et al., Connective Cognition Network for Directional Visual Commonsense Reasoning, NeurIPS 2019. Recognition, LEarning, Reasoning

Visual Commonsense Reasoning Ablation studies for GraphVLAD • No-C: No conditional center No-G: No graph convolution Ablation studies for directional reasoning • No-R: no reasoning module LSTM-R: use LSTM for reasoning GCN: use GCN for reasoning D-GCN: directional GCN for reasoning Wu et al., Connective Cognition Network for Directional Visual Commonsense Reasoning, NeurIPS 2019. Recognition, LEarning, Reasoning

Conclusion • Visual reasoning is challenging • Graph Networks are powerful. More studies to be investigated. • One model solves them all?

Vision and Language Learning with Graph Neural Networks Linchao Zhu - PowerPoint PPT Presentation

Vision and Language Learning with Graph Neural Networks Linchao Zhu 22 Apr, 2020 Recognition, LEarning, Reasoning UTS CRICOS 00099F Overview RNNs for Image Captioning Transformer for Image Captioning Graph Network for Visual

Learning Neural Networks Learning Neural Networks Neural Networks can represent complex Neural

Neural Networks and Handwriting Recognition Background Neural Networks Neural Network Steven

Neural Networks Neural networks arise from attempts to model Neural Networks human/animal

Neural Networks and their Application to Go Neural Networks Learning Blackjack Theory Training

Graph Neural Network Fang Yuanqiang, 2019/05/18 Graph Neural Network Why GNN? Preliminary

Sequential Data with Neural Networks Recurrent Neural Networks Sequential input / output Greg

Neural Information Retrieval Wassila Lalouani 1 Plan Neural network architectures Neural

Introduction to Artificial Intelligence Neural Networks - Deep Learning for NLP Janyl Jumadinova

(Very) Brief Introduction to Neural Networks IITP-03 Algorithms for NLP 1 / 31 Learning

CHAPTER VI VI CHAPTER Learning in Feedforward Feedforward Learning in Neural Networks Neural

Neural Networks 0. Logistics Spring 2019 1 Neural Networks are taking over! Neural networks

Neural Networks 1. Introduction Fall 2017 Neural Networks are taking over! Neural networks

CHAPTER II I CHAPTER I Recurrent Neural Networks Recurrent Neural Networks CHAPTER II : I :

CHAPTER II III I CHAPTER Neural Networks as Neural Networks as Associative Memory

Convolutional Neural Networks Convolutional neural networks One of the major kinds of ANNs in use

Graph Neural Networks for Neutrino Classification Nicholas Choma and Joan Bruna July 18, 2018

Byzantine Fault Tolerance Consensus Strikes Back (continued) Announcements Lab 2 Due in

POIR 613: Computational Social Science Pablo Barber a School of International Relations

Track 1 Lightning Talk: Forking as a Tool for Software SustainabilityAn Empirical Study. SA

SE2030 Half-Exam 2 Name: Between the time you start and finish the exam, you may not contact any

Co Commonsense for r Generative Mu Multi-Ho Hop Ques p Questio ion n An Answering Tasks

The AI Future of Math, Logic, and Humanity AITP-2019 Assume a future where AI does

The Complexity of Reasoning for Fragments of Default Logic Heribert Vollmer Joint work with O.

How Far are We from Effective Context Modeling? An Exploratory Study on Semantic Parsing in