Multivariate Attention Network for Image Captioning

Author(s):  
Weixuan Wang ◽  
Zhihong Chen ◽  
Haifeng Hu
Author(s):  
Yun Meng ◽  
Yu Gu ◽  
Xiutiao Ye ◽  
Jingxian Tian ◽  
Shuang Wang ◽  
...  

Author(s):  
Weitao Jiang ◽  
Weixuan Wang ◽  
Haifeng Hu

Image Captioning, which automatically describes an image with natural language, is regarded as a fundamental challenge in computer vision. In recent years, significant advance has been made in image captioning through improving attention mechanism. However, most existing methods construct attention mechanisms based on singular visual features, such as patch features or object features, which limits the accuracy of generated captions. In this article, we propose a Bidirectional Co-Attention Network (BCAN) that combines multiple visual features to provide information from different aspects. Different features are associated with predicting different words, and there are a priori relations between these multiple visual features. Based on this, we further propose a bottom-up and top-down bi-directional co-attention mechanism to extract discriminative attention information. Furthermore, most existing methods do not exploit an effective multimodal integration strategy, generally using addition or concatenation to combine features. To solve this problem, we adopt the Multivariate Residual Module (MRM) to integrate multimodal attention features. Meanwhile, we further propose a Vertical MRM to integrate features of the same category, and a Horizontal MRM to combine features of the different categories, which can balance the contribution of the bottom-up co-attention and the top-down co-attention. In contrast to the existing methods, the BCAN is able to obtain complementary information from multiple visual features via the bi-directional co-attention strategy, and integrate multimodal information via the improved multivariate residual strategy. We conduct a series of experiments on two benchmark datasets (MSCOCO and Flickr30k), and the results indicate that the proposed BCAN achieves the superior performance.


Author(s):  
Weixuan Wang ◽  
Zhihong Chen ◽  
Haifeng Hu

Recently, attention mechanism has been successfully applied in image captioning, but the existing attention methods are only established on low-level spatial features or high-level text features, which limits richness of captions. In this paper, we propose a Hierarchical Attention Network (HAN) that enables attention to be calculated on pyramidal hierarchy of features synchronously. The pyramidal hierarchy consists of features on diverse semantic levels, which allows predicting different words according to different features. On the other hand, due to the different modalities of features, a Multivariate Residual Module (MRM) is proposed to learn the joint representations from features. The MRM is able to model projections and extract relevant relations among different features. Furthermore, we introduce a context gate to balance the contribution of different features. Compared with the existing methods, our approach applies hierarchical features and exploits several multimodal integration strategies, which can significantly improve the performance. The HAN is verified on benchmark MSCOCO dataset, and the experimental results indicate that our model outperforms the state-of-the-art methods, achieving a BLEU1 score of 80.9 and a CIDEr score of 121.7 in the Karpathy’s test split.


IEEE Access ◽  
2021 ◽  
pp. 1-1
Author(s):  
Weitao Jiang ◽  
Xiying Li ◽  
Haifeng Hu ◽  
Qiang Lu ◽  
Bohong Liu

Author(s):  
Holger Gevensleben ◽  
Gunther H. Moll ◽  
Hartmut Heinrich

Im Rahmen einer multizentrischen, randomisierten, kontrollierten Studie evaluierten wir die klinische Wirksamkeit eines Neurofeedback-Trainings (NF) bei Kindern mit einer Aufmerksamkeitsdefizit-/Hyperaktivitätsstörung (ADHS) und untersuchten die einem erfolgreichen Training zugrunde liegenden neurophysiologischen Wirkmechanismen. Als Vergleichstraining diente ein computergestütztes Aufmerksamkeitstraining, das dem Setting des Neurofeedback-Trainings in den wesentlichen Anforderungen und Rahmenbedingungen angeglichen war. Auf Verhaltensebene (Eltern- und Lehrerbeurteilung) zeigte sich das NF-Training nach Trainingsende dem Kontrolltraining sowohl hinsichtlich der ADHS-Kernsymptomatik als auch in assoziierten Bereichen überlegen. Für das Hauptzielkriterium (Verbesserung im FBB-HKS Gesamtwert) ergab sich eine mittlere Effektstärke (von 0.6). Sechs Monate nach Trainingsende (follow-up) konnte das gleiche Ergebnismuster gefunden werden. Die Ergebnisse legen somit den Schluss nahe, dass NF einen klinisch wirksamen Therapiebaustein zur Behandlung von Kindern mit ADHS darstellt. Auf neurophysiologischer Ebene (EEG; ereignisbezogene Potentiale, EPs) konnten für die beiden Neurofeedback-Protokolle Theta/Beta-Training und Training langsamer kortikaler Potentiale spezifische Effekte aufgezeigt werden. So war für das Theta/Beta-Training beispielsweise die Abnahme der Theta-Aktivität mit einer Reduzierung der ADHS-Symptomatik assoziiert. Für das SCP-Training wurde u. a. im Attention Network Test eine Erhöhung der kontingenten negativen Variation beobachtet, die die mobilisierten Ressourcen bei Vorbereitungsprozessen widerspiegelt. EEG- und EP-basierte Prädiktorvariablen konnten ermittelt werden. Der vorliegende Artikel bietet einen Gesamtüberblick über die in verschiedenen Publikationen unserer Arbeitsgruppe beschriebenen Ergebnisse der Studie und zeigt zukünftige Fragestellungen auf.


2018 ◽  
Vol 32 (5) ◽  
pp. 541-553 ◽  
Author(s):  
Nadine M. Richard ◽  
Charlene O'Connor ◽  
Ayan Dey ◽  
Ian H. Robertson ◽  
Brian Levine

2019 ◽  
Vol 69 (10) ◽  
pp. 423
Author(s):  
Manuel Vázquez Marrufo ◽  
Macarena García-Valdecasas Colell ◽  
Alejandro Galvao Carmona ◽  
Esteban Sarrias Arrabal ◽  
Javier Tirapu Ustárroz

Sign in / Sign up

Export Citation Format

Share Document