Twizzle - A Multi-purpose Benchmarking Framework for Semantic Comparisons of Multimedia Object Pairs

Author(s):  
Stephan Escher ◽  
Patrick Teufert ◽  
Robin Herrmann ◽  
Thorsten Strufe
Keyword(s):  
1998 ◽  
Author(s):  
Marilde T. P. Santos ◽  
Marina T. P. Vieira ◽  
Mauro Biajiz

2018 ◽  
Author(s):  
Σπυρίδωνας Σταθόπουλος

Η παρούσα διατριβή ερευνά το πρόβλημα της ανάκτησης και κατηγοριοποίησης πολυμεσικού περιεχομένου. Στο πρώτο μέρος γίνεται μία διερεύνηση της εφαρμογής Λανθάνουσας Σημασιολογικής Ανάλυσης για ανάκτηση εικόνας σε συλλογές μεγάλης κλίμακας (LSA). Παρουσιάζεται μία αποτελεσματική προσέγγιση για την εφαρμογή LSA η οποία παρακάμπτει την Ανάλυση Ιδιαζουσών Τιμών (SVD) στον πίνακα χαρακτηριστικών, ξεπερνώντας με αυτόν τον τρόπο το πρόβλημα της εφαρμογής της μεθόδου σε σύνολα δεδομένων μεγάλης κλίμακας. Στη μελέτη αυτή διερευνάται ο συνδυασμός διαφορετικών αναπαραστάσεων εικόνας είτε σε πρώιμο στάδιο (Early fusion) είτε σε μεταγενέστερο (Late fusion) με στόχο την αποτελεσματικότερη ανάκτηση εικόνας. Επιπλέον, προτείνεται μία συνάρτηση πυρήνα (Kernel function) βασισμένη στην LSA η οποία συσχετίζει χαρακτηριστικά από διαφορετικές πηγές σε ένα κοινό λανθάνοντα χώρο. Η προτεινόμενη προσέγγιση συνδυάζει την ταξινόμηση με την ανάκτηση, αναπαριστώντας τις εικόνες με ένα σύνθετο διάνυσμα ενσωματώνοντας την πληροφορία που προκύπτει από την κατηγοριοποίηση. Τα πειραματικά αποτελέσματα δείχνουν ότι υπερέχει της λανθάνουσας ευρετηρίασης που προκύπτει από την εφαρμογή SVD.Για την αναπαράσταση εικόνων, προτείνεται μια γενίκευση του μοντέλου Bag-of-Colors (BoC). Ο νέος αλγόριθμος, που αναφέρεται ως QBoC, βασίζεται στην αποσύνθεση των εικόνων σε ένα δέντρο από τεταρτημόρια κωδικοποιώντας με αυτόν τον τρόπο χωρικές πληροφορίες στην τελική απεικόνιση της εικόνας. Σε συνδυασμό με το μοντέλο Bag-of-Visual-Words (BoVW) χρησιμοποιείται για την αποτελεσματική κατηγοριοποίηση ιατρικών εικόνων.Τέλος, παρουσιάζεται μια νέα προσέγγιση για το συνδυασμό του LSA με Νευρωνικά Δίκτυα Συνέλιξης (CNNs) για την ταξινόμηση εικόνων βάση περιεχομένου. Για το σκοπό αυτό, κατασκευάζεται ένας βελτιστοποιημένος λανθάνων σημασιολογικός χώρος που καταγράφει τη συσχέτιση των εικόνων σε κάθε κατηγορία χρησιμοποιώντας ένα προ-εκπαιδευμένο νευρωνικό δίκτυο.Τα χαρακτηριστικά των εικόνων προβάλλονται μέσο ενός σταθμισμένου Latent Semantic Tensor σε ένα χαμηλότερο χώρο και χρησιμοποιούνται για να εκπαιδεύσουν ένα CNN που πραγματοποιεί την τελική ταξινόμηση. Τα πειραματικά αποτελέσματα καταδεικνύουν την αποτελεσματικότητα αυτής της προσέγγισης σε ότι αφορά την ακρίβεια της ταξινόμησης, επιτυγχάνοντας συγκρίσιμα αποτελέσματα με αντίστοιχες σύγχρονες προσεγγίσεις.


Author(s):  
Nour Didi ◽  
Maurizzio DeCecco ◽  
Antoine Rizk ◽  
Anne Béguin ◽  
Eric Pillevesse

Author(s):  
Michael Verhaart ◽  
Kinshuk

Digital media elements, or digital assets, are used to illustrate things such as images, sounds, or events. As humans, we use many senses to assist our cognitive processes, and providing multiple representations will enhance our ability to store, recall, and synthesise the knowledge and information contained in the digital asset. This chapter introduces a model for a multimedia object, that allows multiple representations to be managed, and includes a structured metadata file describing the asset that captures the original context. Humans are capable of classifying and describing millions of such objects, but recalling context and content often blurs over time. Computer systems provide us with a way to store electronic objects, and with a variety of representations and sufficient metadata they can be used to assist cognitive recall.


Author(s):  
Rolf Käckenhoff ◽  
Detlef Merten ◽  
Klaus Meyer-Wegener
Keyword(s):  

Sign in / Sign up

Export Citation Format

Share Document