Στα δεδομένα πολλαπλών ετικετών, κάθε παράδειγμα είναι συσχετισμένο με πολλαπλές δυαδικές μεταβλητές εξόδους (ετικέτες), το οποίο επιτρέπει αναπαραστάσεις με πλουσιότερη σημασιολογία σε σύγκριση με τα δυαδικά ή πολλαπλών κλάσεων δεδομένα. Κατά τη διάρκεια των τελευταίων δύο δεκαετιών, η μάθηση πολλαπλών ετικετών έχει σταδιακά προσελκύσει την προσοχή της ερευνητικής κοινότητας, και έχει ευρέως εφαρμοστεί σε ποικίλα προβλήματα, συμπεριλαμβανομένης της κατηγοριοποίησης κειμένων, της επισημείωσης πολυμέσων και της βιοπληροφορικής. Η ανισορροπία κλάσεων είναι ένα εγγενές χαρακτηριστικό των δεδομένων πολλαπλών ετικε\-τών, το οποίο εισάγει μια κρίσιμη πρόκληση για τις μεθόδους μάθησης πολλαπλών ετικετών. Στα δεδομένα πολλαπλών ετικετών, κάθε παράδειγμα συνήθως συσχετίζεται με μερικές ετικέτες που επιλέγονται από ένα σύνολο ετικετών μεγάλης κλίμακας, καθιστώντας των χώρο των ετικετών εξόδου αραιό και πολλές φορές μεροληπτικό. Αν και έχουν προταθεί πολλές μέθοδοι για την αντιμετώπιση της ανισορροπίας των δεδομένων πολλαπλών ετικετών, υπάρχει ακόμα περιθώριο περαιτέρω βελτίωσης της ακρίβειας πρόβλεψης, ειδικά για ετικέτες με μεγάλη ανισορροπία και για δύσκολα παραδείγματα. Επιπρόσθετα, μια σημαντική και ουσιαστική εφαρμογή μάθησης πολλαπλών ετικετών στον τομέα της βιοπληροφορικής είναι η πρόβλεψη της αλληλεπίδρασης φαρμάκου-στόχου (DTI) μέσω υπολογιστικών μεθόδων, η οποία επιταχύνει την κουραστική επικύρωση πειράματος in-vitro και παίζει κύριο ρόλο στη διαδικασία ανακάλυψης φαρμάκων. Ωστόσο, εκτός από την ανισορροπία κλάσεων, η πρόβλεψη DTI αντιμετωπίζει και άλλα προβλήματα, όπως η διαθεσιμότητα διμερών πλευρικών πληροφοριών, η ύπαρξη ελλιπών αλληλεπιδράσεων, και η ανάγκη για μάθηση χωρίς παραδείγματα. Τα προβλήματα αυτά καθιστούν την πρόβλεψη DTI πιο δύσκολη από τη συμβατική μάθηση πολλαπλών ετικετών. Ο γενικός στόχος αυτής της διατριβής είναι να αναπτύξει νέες τεχνικές που χειρίζονται πιο αποτελεσματικά την ανισορροπία κλάσεων των δεδομένων πολλαπλών ετικετών. Οι συνεισφορές αυτής της διατριβής αφορούν την αντιμετώπιση προκλήσεων που προκαλούνται από την ανισορροπία των δεδομένων πολλαπλών ετικετών σε τέσσερις διαφορετικές διαστάσεις. 1) Προτείνεται μια σειρά συνόλων ταξινομητών αλυσίδας που συνδυάζει την υποδειγματοληψία με σκοπό τη μείωση της ανισορροπίας κάθε ετικέτας. Τα μοντέλα αυτά όχι μόνο μοντελοποιούν συσχετίσεις ετικετών υψηλής τάξης, αλλά προωθούν επίσης την εκμετάλλευση παραδειγμάτων πλειοψηφικών κλάσεων για την πρόβλεψη ετικετών με υψηλή ανισορροπία. 2) Παρουσιάζονται τεχνικές διπλής δειγματοληψίας για δεδομένα πολλαπλών ετικετών. Αυτές προσαρμόζουν τα παραδείγματα εκπαίδευσης με βάση την τοπική ανισορροπία των ετικετών, η οποία παρέχει περισσότερη πληροφορία από ότι η καθολική ανισορροπία των ετικετών ολόκληρου του συνόλου δεδομένων. 3) Προτείνεται ο συνδυασμός μοντέλων που βασίζονται στη γειτνίαση για την πρόβλεψη DTI, ο οποίος ανακτά ελλιπείς αλληλεπιδράσεις για να αυξήσει τα δεδομένα με λίγες αλληλεπιδράσεις, και αξιοποιεί ποικίλες στρατηγικές δειγματοληψίας για κάθε ξεχωριστό μοντέλο με σκοπό τη βελτίωση της σταθερότητας και ανθεκτικότητας της πρόβλεψης. 4) Αναπτύσσονται τρεις τεχνικές πρόβλεψης DTI βάσει παραγοντοποίησης πινάκων, οι οποίες βελτιστοποιούν άμεσα μετρικές που υπολογίζουν την περιοχή κάτω της καμπύλης που χρησιμοποιούνται ευρέως στο πλαίσιο ανισορροπίας κλάσεων. Επίσης, ενσωματώνουν μια διαδικασία συνδυασμού ομοιοτήτων με βάση την τοπική συνέπεια αλληλεπίδρασης για τον χειρισμό πολλαπλών ομοιοτήτων εισόδου.