Large scale hierarchical text classification

Mapping Intimacies ◽

10.12681/eadd/36242 ◽

2015 ◽

Author(s):

Άρης Κοσμόπουλος

Keyword(s):

Principal Component Analysis ◽

Text Classification ◽

Large Scale ◽

Principal Component ◽

Component Analysis ◽

Bag Of Words ◽

Word Embeddings ◽

Medical Text ◽

Hierarchical Text Classification

Οι ιεραρχίες χρησιμοποιούνται όλο και πιο συχνά στην την οργάνωση κειμένων και η χρήση αυτή είναι ακόμη πιο συχνή στο διαδίκτυο. Οι κατάλογοι ιστοσελίδων, όπως το Yahoo Directory και το Dmoz Directory, είναι τέτοια τυπικά παραδείγματα. Μαζί με την συχνή χρήση τους όμως προκύπτει και η ανάγκη για αυτοματοποιημένους τρόπους ταξινόμησης των νέων κειμένων στις κατηγορίες των ιεραρχιών αυτών. Σε αυτή τη διατριβή, ονομάζουμε το πρόβλημα αυτό "μεγάλης κλίμακας Ιεραρχική κατηγοριοποίηση κειμένων". Είναι μεγάλης κλίμακας, γιατί οι κατηγορίες είναι χιλιάδες και τα κείμενα μπορεί να είναι από εκατοντάδες χιλιάδες μέχρι και εκατομμύρια. Είναι επίσης ιεραρχικό επειδή οι κατηγορίες συν΄δεονται μεταξύ τους με σχέσεις γονέα-πατέρα. Ένα σημαντικό θέμα στην ιεραρχική κατηγοριοποίηση είναι η αξιολόγηση διαφορετικών αλγορίθμων κατηγοριοποίησης, που είναι ακόμη πιο έντονο λόγο της ύπαρξης της ιεραρχίας. Διάφορα ιεραρχικά μέτρα έχουν προταθεί στο παρελθόν, αλλά χωρίς να προσφέρουν ένα ενοποιημένο τρόπο εποπτείας του προβλήματος. Σε αυτή τη διατριβή, μελετούμε το πρόβλημα της αξιολόγησης στην ιεραρχική κατηγοριοποίηση, αναλύοντας τα βασικά στοιχεία των υπαρχόντων ιεραρχικών μέτρων. Επίσης διαχωρίζουμε τα υπάρχοντα ιεραρχικά μέτρα σε δυο εναλλακτικά γενικά μοντέλα και προτείνουμε δυο καινοτόμα μέτρα για κάθε μοντέλο. Τα υπάρχοντα και τα προτεινόμενα μέτρα δοκιμάζονται σε τρία μεγάλα σύνολα δεδομένων κατηγοριοποίησης κειμένων. Τα αποτελέσματα των πειραμάτων δείχνουν τους περιορισμούς των υπαρχόντων μέτρων και το πως τα νέα προτεινόμενα μέτρα ξεπερνούν αυτούς τους περιορισμούς. Στη συνέχεια επικεντρωνόμαστε στην απλούστερη μορφή ιεραρχικής κατηγοριοποίησης όπου κάθε κείμενο ανήκει σε μόνο μία κατηγορία και η ιεραρχία έχει μορφή δένδρου. Η πιο συνηθισμένη μορφή ιεραρχικής κατηγοριοποίησης είναι αυτή του Cascade, στην οποία διατρέχεται η ιεραρχία από τη ρίζα του δένδρου ως το προτεινόμενο φύλλο. Για να πραγματοποιηθεί αυτή η διαδικασία, πρέπει να εκπαιδευτεί ένας ταξινομητής σε κάθε κόμβο του δένδρου, αλλά στα πιο ψηλά επίπεδα ο αριθμός των χαρακτηριστικών μπορεί να γίνει απαγορευτικά υψηλός. Για αυτό και είναι επιθυμητή η μείωση της διαστασιμότητας του χώρου των χαρακτηριστικών σε αυτά τα επίπεδα. Δεδομένου ότι η πιο ευρέος διαδεδομένη μέθοδος μείωσης χαρακτηριστικών είναι το Principal Component Analysis (PCA), εξετάζουμε τη χρήση του στο Cascade μελετώντας την επίδραση του στο υπολογιστικό κόστος αλλά και την ακρίβεια των ταξινομικών. Επίσης προτείνουμε έναν εναλλακτικό τρόπο πιθανοτικού Cascade ο οποίος κάνοντας καλύτερη χρήση των πιθανοτήτων των ταξινομητών επιτυγχάνει καλύτερα αποτελέσματα σε σχέση με το παραδοσιακό Cascade. Τέλος, εξετάζουμε ένα πιο πολύπλοκο πρόβλημα, γνωστό ως βιοϊατρική σημασιολογική ταξινόμηση όπου βιοϊατρικά κείμενα πρέπει να ταξινομηθούν σε κατηγορίες που ανήκουν σε μια μεγάλη βιοϊατρική ιεραρχία. Το πρόβλημα αυτό είναι πιο πολύπλοκο διότι η ιεραρχία είναι κατευθυνόμενος γράφος και όχι απλά δένδρο, ενώ κάθε κείμενο μπορεί να ανήκει σε πολλές κατηγορίες η οποίες μάλιστα μπορεί να μην είναι απαραίτητα φύλλα του γράφου. Σε αυτό το πρόβλημα, εξετάζουμε της χρήση πυκνών διανυσμάτων λέξεων (word embeddings) ως ένα τρόπο για μείωση της διαστασημότητας των χαρακτηριστικών. Εξετάζουμε διάφορες προσεγγίσεις για να περάσουμε από τα διανύσματα λέξεων σε διανύσματα κειμένων και προτείνουμε μια απλή διαδικασία με χρήση κεντροειδούς η οποία είναι κατάλληλη για το πρόβλημα. Επίσης δείχνουμε πως η υιοθέτηση αυτής της προσέγγισης κάνει το πρόβλημα της μεγάλης κλίμακας ιεραρχικής κατηγοριοποίησης πολύ πιο κλιμακώσιμο, χωρίς να υστερεί σε ακρίβεια σε σχέση με τη συνηθισμένη προσέγγιση bag-of-words. Στα πειράματά μας εξετάζουμε τη χρήση ιεραρχικών και μη ιεραρχικών ταξινομητών κ-κοντινότερων-γειτόνων και μελετάμε την επίδραση των διαφόρων παραμέτρων τους. Επίσης παρουσιάζουμε ένα υψηλής ακρίβειας σύστημα που συνδυάζεται με το ευρέος χρησιμοποιημένο Medical Text Indexer (MTI) σύστημα της Εθνικής Βιβλιοθήκης της Ιατρικής με στόχο τη βελτίωση των προβλέψεών του.

Download Full-text

Development of energy efficiency principal component analysis model for factor extraction and efficiency evaluation in large-scale chemical processes

International Journal of Energy Research ◽

10.1002/er.4312 ◽

2018 ◽

Vol 43 (2) ◽

pp. 814-828 ◽

Cited By ~ 5

Author(s):

Li Zhu ◽

Junghui Chen

Keyword(s):

Principal Component Analysis ◽

Energy Efficiency ◽

Large Scale ◽

Principal Component ◽

Component Analysis ◽

Chemical Processes ◽

Efficiency Evaluation ◽

Analysis Model ◽

Principal Component Analysis Model

Download Full-text

Cooperative Co-evolution with Principal Component Analysis for Large Scale Optimization

Communications in Computer and Information Science - Bio-inspired Computing: Theories and Applications ◽

10.1007/978-981-13-2829-9_39 ◽

2018 ◽

pp. 426-434

Author(s):

Guangzhi Xu ◽

Xinchao Zhao ◽

Rui Li

Keyword(s):

Principal Component Analysis ◽

Large Scale ◽

Principal Component ◽

Component Analysis ◽

Large Scale Optimization ◽

Scale Optimization

Download Full-text

Rapid multivariate analysis of 3D ToF-SIMS data: graphical processor units (GPUs) and low-discrepancy subsampling for large-scale principal component analysis

Surface and Interface Analysis ◽

10.1002/sia.6042 ◽

2016 ◽

Vol 48 (12) ◽

pp. 1328-1336 ◽

Cited By ~ 14

Author(s):

Peter J Cumpson ◽

Ian W Fletcher ◽

Naoko Sano ◽

Anders J Barlow

Keyword(s):

Principal Component Analysis ◽

Multivariate Analysis ◽

Large Scale ◽

Principal Component ◽

Component Analysis ◽

Tof Sims ◽

Graphical Processor

Download Full-text

Matrix-based Kernel Principal Component analysis for large-scale data set

2009 International Joint Conference on Neural Networks ◽

10.1109/ijcnn.2009.5178692 ◽

2009 ◽

Cited By ~ 3

Author(s):

Weiya Shi ◽

Yue-Fei Guo ◽

Xiangyang Xue

Keyword(s):

Principal Component Analysis ◽

Large Scale ◽

Principal Component ◽

Component Analysis ◽

Kernel Principal Component Analysis ◽

Data Set ◽

Large Scale Data ◽

Scale Data

Download Full-text

An Improved Kernel Principal Component Analysis for Large-Scale Data Set

Advances in Neural Networks - ISNN 2010 - Lecture Notes in Computer Science ◽

10.1007/978-3-642-13318-3_2 ◽

2010 ◽

pp. 9-16 ◽

Cited By ~ 1

Author(s):

Weiya Shi ◽

Dexian Zhang

Keyword(s):

Principal Component Analysis ◽

Large Scale ◽

Principal Component ◽

Component Analysis ◽

Kernel Principal Component Analysis ◽

Data Set ◽

Large Scale Data ◽

Scale Data

Download Full-text

Regionalization of Daily Soil Moisture Dynamics Using Wavelet-Based Multiscale Entropy and Principal Component Analysis

Entropy ◽

10.3390/e21060548 ◽

2019 ◽

Vol 21 (6) ◽

pp. 548 ◽

Cited By ~ 1

Author(s):

Yuqing Sun ◽

Jun Niu

Keyword(s):

Principal Component Analysis ◽

Soil Moisture ◽

Large Scale ◽

Hydrological Modeling ◽

Simulated Data ◽

Grid Cell ◽

Principal Component ◽

Component Analysis ◽

Multiscale Entropy ◽

Homogeneous Groups

Hydrological regionalization is a useful step in hydrological modeling and prediction. The regionalization is not always straightforward, however, due to the lack of long-term hydrological data and the complex multi-scale variability features embedded in the data. This study examines the multiscale soil moisture variability for the simulated data on a grid cell base obtained from a large-scale hydrological model, and clusters the grid-cell based soil moisture data using wavelet-based multiscale entropy and principal component analysis, over the Xijiang River basin in South China, for the period of 2002–2010. The effective regionalization, for 169 grid cells with the special resolution of 0.5° × 0.5°, produced homogeneous groups based on the pattern of wavelet-based entropy information. Four distinct modes explain 80.14% of the total embedded variability of the transformed wavelet power across different timescales. Moreover, the possible implications of the regionalization results for local hydrological applications, such as parameter estimation for an ungagged catchment and designing a uniform prediction strategy for a sub-area in a large-scale basin, are discussed.

Download Full-text

Compression of Large-Scale Image Dataset using Principal Component Analysis and K-means Clustering

2019 International Conference on Electrical, Computer and Communication Engineering (ECCE) ◽

10.1109/ecace.2019.8679270 ◽

2019 ◽

Author(s):

Rushrukh Rayan ◽

Md. Sabir Hossain ◽

Asaduzzaman

Keyword(s):

Principal Component Analysis ◽

Large Scale ◽

Principal Component ◽

Component Analysis ◽

Image Dataset

Download Full-text

Kernel Principal Component Analysis for Large Scale Data Set

Lecture Notes in Computer Science - Intelligent Computing ◽

10.1007/11816157_91 ◽

2006 ◽

pp. 745-756 ◽

Cited By ~ 1

Author(s):

Haixian Wang ◽

Zilan Hu ◽

Yu’e Zhao

Keyword(s):

Principal Component Analysis ◽

Large Scale ◽

Principal Component ◽

Component Analysis ◽

Kernel Principal Component Analysis ◽

Data Set ◽

Large Scale Data ◽

Scale Data

Download Full-text

Fast Principal Component Analysis of Large-Scale Genome-Wide Data

PLoS ONE ◽

10.1371/journal.pone.0093766 ◽

2014 ◽

Vol 9 (4) ◽

pp. e93766 ◽

Cited By ~ 145

Author(s):

Gad Abraham ◽

Michael Inouye

Keyword(s):

Principal Component Analysis ◽

Large Scale ◽

Principal Component ◽

Component Analysis ◽

Genome Wide ◽

Genome Wide Data

Download Full-text

Assisted History Matching of Channelized Models by Use of Pluri-Principal-Component Analysis

SPE Journal ◽

10.2118/173192-pa ◽

2016 ◽

Vol 21 (05) ◽

pp. 1793-1812 ◽

Cited By ~ 17

Author(s):

C.. Chen ◽

G.. Gao ◽

B. A. Ramirez ◽

J. C. Vink ◽

A. M. Girardi

Keyword(s):

Principal Component Analysis ◽

History Matching ◽

Large Scale ◽

Gaussian Model ◽

Principal Component ◽

Component Analysis ◽

Work Flow ◽

Real Field ◽

Assisted History Matching ◽

Facies Types

Summary Assisted history matching (AHM) of a channelized reservoir is still a very-challenging task because it is very difficult to gradually deform the discrete facies in an automated fashion, while preserving geological realism. In this paper, a pluri-principal-component-analysis (PCA) method, which supports PCA with a pluri-Gaussian model, is proposed to reconstruct geological and reservoir models with multiple facies. PCA extracts the major geological features from a large collection of training channelized models and generates gridblock-based properties and real-valued (i.e., noninteger-valued) facies. The real-valued facies are mapped to discrete facies indicators according to rock-type rules (RTRs) that determine the fraction of each facies and neighboring connections between different facies. Pluri-PCA preserves the main (or principal) features of both geological and geostatistical characteristics of the prior models. A new method is also proposed to automatically build the RTRs with an ensemble of training realizations. An AHM work flow is developed by integrating pluri-PCA with a derivative-free optimization algorithm. This work flow is validated on a synthetic model with four facies types and a real-field channelized model with three facies types, and it is applied to update both the facies model and the reservoir model by conditioning to production data and/or hard data. The models generated by pluri-PCA preserve the major geological/geostatistical descriptions of the original training models. This has great potential for practical applications in large-scale history matching and uncertainty quantification.

Download Full-text