Multi-level, multi-modal interactions for visual question answering over text in images

World Wide Web ◽

10.1007/s11280-021-00976-2 ◽

2021 ◽

Author(s):

Jincai Chen ◽

Sheng Zhang ◽

Jiangfeng Zeng ◽

Fuhao Zou ◽

Yuan-Fang Li ◽

...

Keyword(s):

Question Answering ◽

Modal Interactions ◽

Visual Question Answering ◽

Download Full-text

Multi-level Attention Networks for Visual Question Answering

2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) ◽

10.1109/cvpr.2017.446 ◽

2017 ◽

Author(s):

Dongfei Yu ◽

Jianlong Fu ◽

Tao Mei ◽

Yong Rui

Keyword(s):

Question Answering ◽

Attention Networks ◽

Visual Question Answering ◽

Download Full-text

Multimodal encoders and decoders with gate attention for visual question answering

Computer Science and Information Systems ◽

10.2298/csis201120032l ◽

2021 ◽

pp. 32-32

Author(s):

Haiyan Li ◽

Dezhi Han

Keyword(s):

Computer Vision ◽

Natural Language Processing ◽

Language Processing ◽

Question Answering ◽

Visual Features ◽

Modal Interactions ◽

Crossmodal Attention ◽

The Core ◽

Visual Question Answering ◽

Language Modality

Visual Question Answering (VQA) is a multimodal research related to Computer Vision (CV) and Natural Language Processing (NLP). How to better obtain useful information from images and questions and give an accurate answer to the question is the core of the VQA task. This paper presents a VQA model based on multimodal encoders and decoders with gate attention (MEDGA). Each encoder and decoder block in the MEDGA applies not only self-attention and crossmodal attention but also gate attention, so that the new model can better focus on inter-modal and intra-modal interactions simultaneously within visual and language modality. Besides, MEDGA further filters out noise information irrelevant to the results via gate attention and finally outputs attention results that are closely related to visual features and language features, which makes the answer prediction result more accurate. Experimental evaluations on the VQA 2.0 dataset and the ablation experiments under different conditions prove the effectiveness of MEDGA. In addition, the MEDGA accuracy on the test-std dataset has reached 70.11%, which exceeds many existing methods.

Download Full-text

Multi-source Multi-level Attention Networks for Visual Question Answering

ACM Transactions on Multimedia Computing Communications and Applications ◽

10.1145/3316767 ◽

2019 ◽

Vol 15 (2s) ◽

pp. 1-20

Author(s):

Dongfei Yu ◽

Jianlong Fu ◽

Xinmei Tian ◽

Tao Mei

Keyword(s):

Question Answering ◽

Attention Networks ◽

Visual Question Answering ◽

Download Full-text

Inverse Visual Question Answering with Multi-Level Attentions

10.22215/etd/2019-13929 ◽

2019 ◽

Author(s):

Yaser Alwattar

Keyword(s):

Question Answering ◽

Visual Question Answering ◽

Download Full-text

Vision And Text Transformer For Predicting Answerability On Visual Question Answering

10.1109/icip42928.2021.9506796 ◽

2021 ◽

Author(s):

Tung Le ◽

Huy Tien Nguyen ◽

Minh Le Nguyen

Keyword(s):

Question Answering ◽

Visual Question Answering

Download Full-text

Visual Question Answering for Monas Tourism Object using Deep Learning

2020 International Conference on Advanced Computer Science and Information Systems (ICACSIS) ◽

10.1109/icacsis51025.2020.9263149 ◽

2020 ◽

Author(s):

Ahmad Hasan Siregar ◽

Dina Chahyati

Keyword(s):

Deep Learning ◽

Question Answering ◽

Visual Question Answering

Download Full-text

Cross-modality co-attention networks for visual question answering

Soft Computing ◽

10.1007/s00500-020-05539-7 ◽

2021 ◽

Author(s):

Dezhi Han ◽

Shuli Zhou ◽

Kuan Ching Li ◽

Rodrigo Fernandes de Mello

Keyword(s):

Question Answering ◽

Attention Networks ◽

Visual Question Answering

Download Full-text

Comparative Study of Visual Question Answering Algorithms

2020 15th International Conference on Computer Engineering and Systems (ICCES) ◽

10.1109/icces51560.2020.9334686 ◽

2020 ◽

Author(s):

Ahmed Mostafa ◽

Hazem Abbas ◽

Mahmoud I. Khalil

Keyword(s):

Comparative Study ◽

Question Answering ◽

Visual Question Answering

Download Full-text

Visual Question Answering: Methodologies and Challenges

2020 International Conference on Smart Technologies in Computing, Electrical and Electronics (ICSTCEE) ◽

10.1109/icstcee49637.2020.9277374 ◽

2020 ◽

Author(s):

Liyana Sahir Kallooriyakath ◽

Jithin M V ◽

Bindu P V ◽

Adith P P

Keyword(s):

Question Answering ◽

Visual Question Answering

Download Full-text

Boosting Visual Question Answering with Context-aware Knowledge Aggregation

Proceedings of the 28th ACM International Conference on Multimedia ◽

10.1145/3394171.3413943 ◽

2020 ◽

Author(s):

Guohao Li ◽

Xin Wang ◽

Wenwu Zhu

Keyword(s):

Question Answering ◽

Context Aware ◽

Visual Question Answering

Download Full-text