scholarly journals Disentangled Variational Information Bottleneck for Multiview Representation Learning

Author(s):  
Feng Bao
Entropy ◽  
2019 ◽  
Vol 21 (10) ◽  
pp. 924 ◽  
Author(s):  
Tailin Wu ◽  
Ian Fischer ◽  
Isaac L. Chuang ◽  
Max Tegmark

The Information Bottleneck (IB) method provides an insightful and principled approach for balancing compression and prediction for representation learning. The IB objective I ( X ; Z ) - β I ( Y ; Z ) employs a Lagrange multiplier β to tune this trade-off. However, in practice, not only is β chosen empirically without theoretical guidance, there is also a lack of theoretical understanding between β , learnability, the intrinsic nature of the dataset and model capacity. In this paper, we show that if β is improperly chosen, learning cannot happen—the trivial representation P ( Z | X ) = P ( Z ) becomes the global minimum of the IB objective. We show how this can be avoided, by identifying a sharp phase transition between the unlearnable and the learnable which arises as β is varied. This phase transition defines the concept of IB-Learnability. We prove several sufficient conditions for IB-Learnability, which provides theoretical guidance for choosing a good β . We further show that IB-learnability is determined by the largest confident, typical and imbalanced subset of the examples (the conspicuous subset), and discuss its relation with model capacity. We give practical algorithms to estimate the minimum β for a given dataset. We also empirically demonstrate our theoretical conditions with analyses of synthetic datasets, MNIST and CIFAR10.


Author(s):  
Liang Yang ◽  
Fan Wu ◽  
Zichen Zheng ◽  
Bingxin Niu ◽  
Junhua Gu ◽  
...  

Most attempts on extending Graph Neural Networks (GNNs) to Heterogeneous Information Networks (HINs) implicitly take the direct assumption that the multiple homogeneous attributed networks induced by different meta-paths are complementary. The doubts about the hypothesis of complementary motivate an alternative assumption of consensus. That is, the aggregated node attributes shared by multiple homogeneous attributed networks are essential for node representations, while the specific ones in each homogeneous attributed network should be discarded. In this paper, a novel Heterogeneous Graph Information Bottleneck (HGIB) is proposed to implement the consensus hypothesis in an unsupervised manner. To this end, information bottleneck (IB) is extended to unsupervised representation learning by leveraging self-supervision strategy. Specifically, HGIB simultaneously maximizes the mutual information between one homogeneous network and the representation learned from another homogeneous network, while minimizes the mutual information between the specific information contained in one homogeneous network and the representation learned from this homogeneous network. Model analysis reveals that the two extreme cases of HGIB correspond to the supervised heterogeneous GNN and the infomax on homogeneous graph, respectively. Extensive experiments on real datasets demonstrate that the consensus-based unsupervised HGIB significantly outperforms most semi-supervised SOTA methods based on complementary assumption.


Entropy ◽  
2020 ◽  
Vol 22 (2) ◽  
pp. 151 ◽  
Author(s):  
Abdellatif Zaidi ◽  
Iñaki Estella-Aguerri ◽  
Shlomo Shamai (Shitz)

This tutorial paper focuses on the variants of the bottleneck problem taking an information theoretic perspective and discusses practical methods to solve it, as well as its connection to coding and learning aspects. The intimate connections of this setting to remote source-coding under logarithmic loss distortion measure, information combining, common reconstruction, the Wyner–Ahlswede–Korner problem, the efficiency of investment information, as well as, generalization, variational inference, representation learning, autoencoders, and others are highlighted. We discuss its extension to the distributed information bottleneck problem with emphasis on the Gaussian model and highlight the basic connections to the uplink Cloud Radio Access Networks (CRAN) with oblivious processing. For this model, the optimal trade-offs between relevance (i.e., information) and complexity (i.e., rates) in the discrete and vector Gaussian frameworks is determined. In the concluding outlook, some interesting problems are mentioned such as the characterization of the optimal inputs (“features”) distributions under power limitations maximizing the “relevance” for the Gaussian information bottleneck, under “complexity” constraints.


2021 ◽  
Author(s):  
Αθανάσιος Δαββέτας

Τα τελευταία χρόνια, η διαδικασία συλλογής ολοένα και περισσότερων δεδομένων έχει ως αποτέλεσμα την ύπαρξη πληθώρας δεδομένων. Μετά τη διερεύνηση αποτελεσματικών τρόπων αποθήκευσης, διαχείρισης και συλλογής δεδομένων μεγάλης κλίμακας ή ποικίλων τύπων, το ερευνητικό ενδιαφέρον της επιστημονικής κοινότητας μετατοπίστηκε στην εξαγωγή πληροφορίας από τέτοιου είδους συλλογές. Η βαθιά μάθηση (deep learning) χρησιμοποιείται συχνά για τη διαδικασία εξαγωγής πολύτιμης πληροφορίας. Οι μέθοδοι βαθιάς μάθησης ευδοκιμούν με σύνολα δεδομένων μεγάλης κλίμακας, λόγω της ικανότητάς τους να μαθαίνουν εναλλακτικές αναπαραστάσεις από ακατέργαστες παρατηρήσεις. Η διαθέσιμη πληθώρα δεδομένων επιτρέπει την εκμάθηση γενικευμένων αναπαραστάσεων. Με τη σειρά τους, οι γενικευμένες αναπαραστάσεις επιτρέπουν την αποτελεσματική εκμάθηση πολύπλοκων εργασιών. Παρά τις επιτυχείς προσπάθειες για την εξαγωγή πληροφοριών από μεμονωμένες πηγές δεδομένων ή τύπους δεδομένων, η αντιμετώπιση πολλαπλών διαφορετικών πηγών δεδομένων παραμένει ένα ανοιχτό ερώτημα στην επιστημονική κοινότητα. Η εκμάθηση αναπαραστάσεων (representation learning) επιτρέπει τον συνδυασμό και την αντιπαράθεση πολλαπλών διαφορετικών πηγών δεδομένων σε έναν χώρο κοινό, ουσιαστικό και χαμηλότερων διαστάσεων. Ωστόσο, τα τυπικά πλαίσια μάθησης για κοινή εκμάθηση αναπαραστάσεων (joint representation learning) πρέπει να αντιμετωπίσουν μια πληθώρα προκλήσεων. Αρχικά, οι αρχιτεκτονικές αποφάσεις των εμπλεκόμενων νευρωνικών δικτύων είναι συχνά προϊόντα προερχόμενα από διαδικασίες ή αποφάσεις που εμπλέκουν ανθρώπινη παρέμβαση (μη αυτόματες). Οι συγκεκριμένες διαδικασίες ή αποφάσεις συνήθως αφορούν συγκεκριμένες εφαρμογές και σπάνια γενικεύονται σε πολλαπλούς τομείς ή εργασίες. Ταυτόχρονα, η απευθείας σύνδεση πηγών δεδομένων στα επίπεδα εισόδου του νευρωνικού δικτύου εισάγει μια προσδοκία σταθερής διαθεσιμότητας. Ωστόσο, σε πραγματικές εφαρμογές, η προσδοκία διαθεσιμότητας όλων των πηγών δεδομένων δεν είναι ρεαλιστική. Επιπλέον, η επίδοση των τυπικών πλαισίων μάθησης μπορεί να μειωθεί κατά τη χρήση περιττών ή μη συμπληρωματικών πηγών δεδομένων. Η αντιμετώπιση μια τέτοιας συμπεριφοράς, επίσης απαιτεί τη χρήση μη-αυτόματων διαδικασιών. Η χειρωνακτική εργασία που καταβάλλεται, σκοπεύει στη δημιουργία συγκεκριμένων υποθέσεων ή κανόνων που θα διασφαλίζουν τη σταθερότητα ή στην κατανόηση των περίπλοκων σχέσεων μεταξύ των πηγών δεδομένων, προκειμένου να αποφευχθούν οι μη συμπληρωματικές σχέσεις. Σε αυτή τη διατριβή, διερευνάται η υπόθεση ότι η χρήση εξωτερικών δεδομένων βελτιώνει την εκμάθηση αναπαραστάσεων. Η παραπάνω έρευνα καταλήγει στην πρόταση μιας μεθόδου εκμάθησης αναπαραστάσεων, που ονομάζεται Evidence Transfer (EviTraN). Η EviTraN είναι ένα ευέλικτο και αυτοματοποιημένο σχήμα σύντηξης πληροφορίας (information fusion) που βασίζεται στην εκμάθηση αναπαραστάσεων, τη μεταφορά μάθησης (transfer learning) και την υβριδική μοντελοποίηση (hybrid modelling). Επιπλέον, προτείνεται μια σειρά κριτηρίων αξιολόγησης για την εκμάθηση αναπαραστάσεων για τους σκοπούς της σύντηξης πληροφοριών. Ακόμα, η διατριβή περιλαμβάνει μια θεωρητική ερμηνεία της παραπάνω μεθόδου, βασισμένη στη σύγκριση με τη μέθοδο Information Bottleneck, η οποία αποτελεί θεμέλιο λίθο για επεξηγηματική μοντελοποίηση και ανοιχτή επιστήμη. Η διαδικασία αξιολόγησης της EviTraN περιλαμβάνει επίσης ένα ρεαλιστικό σενάριο ανίχνευσης έντονων καιρικών συνθηκών χωρίς επίβλεψη, αποδεικνύοντας έτσι τον αντίκτυπό της, καθώς και την πιθανή χρήση της σε πρόσθετες πραγματικές εφαρμογές. Η πειραματική αξιολόγηση με τεχνητά παραγόμενες, καθώς και ρεαλιστικές πηγές πληροφορίας υποδηλώνει ότι η EviTraN είναι μια σταθερή και αποτελεσματική μέθοδος. Επιπλέον, είναι ευέλικτη, καθώς επιτρέπει την εισαγωγή ποικίλων σχέσεων, συμπεριλαμβανομένων των μη συμπληρωματικών. Ακόμα, λόγω της διαδικασίας εκμάθησής της που βασίζεται στη μεταφορά εκμάθησης (transfer learning), είναι ένα αρθρωτό σχήμα σύντηξης που δεν απαιτεί να υπάρχουν όλες οι πηγές δεδομένων κατά την εξαγωγή συμπερασμάτων (μόνο δεδομένα που ανήκουν στην κύρια συλλογή δεδομένων).


Sign in / Sign up

Export Citation Format

Share Document