Fuzzy c-means based coincidental link filtering in support of inferring social networks from spatiotemporal data streams

Στη σύγχρονη ψηφιακή εποχή, η δημιουργία και η διάθεση νέας πληροφορίας γίνεται με ταχείς ρυθμούς. Η επιλεκτική διάχυση πληροφορίας (information dissemination, publish/subscribe) έχει αναπτυχθεί ως το μέσο για την διευκόλυνση της αναζήτησης και έγκαιρης διάδοσης πληροφορίας στους χρήστες, καθώς και της ανακάλυψης νέου και ενδιαφέροντος περιεχομένου.Τα τελευταία χρόνια, η επιστημονική έρευνα στον τομέα της διάχυσης πληροφορίας έχει επικεντρωθεί στην αναπαράσταση των ενδιαφερόντων των χρηστών που εκφράζονται μέσω της δημιουργίας προφίλ (π.χ., εγγραφές σε υπηρεσίες παροχής ειδήσεων, δημιουργία προφίλ σε κοινωνικά δίκτυα κ.λ.π.) και στην αποτελεσματική και γρήγορη διανομή της πληροφορίας στους χρήστες, όταν αυτή γίνει διαθέσιμη. Ο τεράστιος όγκος δεδομένων όμως που γίνεται διαθέσιμος καθημερινά στον Παγκόσμιο Ιστό απαιτεί αποτελεσματικούς αλγόριθμους τόσο για την αναπαράσταση και ευρετηρίαση των προφίλ (profile creation, profile indexing), όσο και για το φιλτράρισμα της νέας διαθέσιμης πληροφορίας (publication filtering, information dissemination, mutli-query processing). Η παρούσα διατριβή στοχεύει στην επίλυση των παραπάνω προβλημάτων χρησιμοποιώντας σύγχρονες μορφές αναπαράστασης δεδομένων (RDF data, graph data), και προτείνοντας δομές δεδομένων και αλγόριθμους για την διαχείριση του μεγάλου όγκου πληροφορίας. Η παρούσα έρευνα μελέτησε λύσεις ευρετηρίασης και φιλτραρίσματος πληροφορίας κειμένου βασισμένες σε δεντρικές δομές (trie-based profile indexing), σχεδίασε και ανέπτυξε αλγορίθμους για την ευρετηρίαση δεδομένων μεγάλου όγκου που έχουν ληφθεί από μια πληθώρα συλλογών κειμένων. Οι προτεινόμενοι αλγόριθμοι αξιολογήθηκαν πειραματικά και τα αποτελέσματα που προκύπτουν από την αξιολόγηση υποδεικνύουν βελτίωση έως και δυο τάξεις μεγέθους σε σύγκριση με υπάρχουσες λύσεις της βιβλιογραφίας. Τα αποτελέσματα της έρευνας μας επισημαίνουν ως καίριο παράγοντα βελτιστοποίησης της αποτελεσματικής απόδοσης του φιλτραρίσματος τις δεντρικές δομές. Πιο συγκεκριμένα, τα αποτελέσματα υποδεικνύουν ότι η μορφολογία και οργάνωση των δεντρικών δομών είναι ο καθοριστικός παράγοντας βελτιστοποίησης, σε αντίθεση με την μέχρι έως τώρα πεποίθηση ότι το μέγεθος των δεντρικών δομών (forest compactness) αποτελεί τον κύριο παράγοντα απόδοσης. Σε συνέχεια της παρούσας έρευνας, σχεδιάσθηκαν και αναπτύχθηκαν αλγορίθμοι για την ευρετηρίαση και το φιλτράρισμα δεδομένων που αναπαριστώνται στο μοντέλο δεδομένων RDF. Επιπρόσθετα, προτείναμε μια καινοτόμα επέκταση της γλώσσας ερωτήσεων SPARQL, η οποία στοχεύει στην αύξηση της εκφραστικότητας των ερωτήσεων των χρηστών μέσω της παροχής τελεστών κειμένου (full-text operators). Οι αλγόριθμοι που σχεδιάστηκαν και αναπτύχθηκαν αξιολογήθηκαν πειραματικά, και τα αποτελέσματα που προκύπτουν από την αξιολόγηση υποδεικνύουν βελτίωση έως και δύο τάξεις μεγέθους σε σύγκριση με υπάρχουσες καινοτόμες λύσεις της βιβλιογραφίας.Επιπλέον, η έρευνα μας στόχευσε στη σχεδίαση και ανάπτυξη αλγορίθμων για την ευρετηρίαση και την αξιολόγηση ερωτήσεων σε ροές δεδομένων για γράφους. Η παρούσα έρευνα είναι η πρώτη στη βιβλιογραφία η οποία εισάγει την συνεχή αξιολόγηση πολλαπλών ερωτήσεων (mutli-query processing) πάνω από ροές δεδομένων για γράφους. Πιο συγκεκριμένα, σχεδιάσαμε και αναπτύξαμε τέσσερις νέους αλγορίθμους με σκοπό την μελέτη και αξιολόγηση της απόδοσης διαφορετικών προσεγγίσεων ευρετηρίασης προφίλ. Η αξιολόγηση στόχευσε στην εκτίμηση της απόδοσης των αλγορίθμων σε ένα ευρύ πεδίο εφαρμογών, όπως τα κοινωνικά δίκτυα (Social Networks), τα δίκτυα κίνησης οχημάτων σε αστικά κέντρα (Road Networks), και οι γράφοι αλληλεπιδράσεων πρωτεϊνών (Protein-to-Protein Interaction Graphs), και στην αξιολόγηση και στην σύγκριση των σχεδιασθέντων αλγορίθμων με υπάρχουσες εμπορικές λύσεις. Τα αποτελέσματα της πειραματικής αξιολόγησης τονίζουν την ανάγκη για ανάπτυξη εξιδεικευμένων λύσεων σχεδιασμένων για συνεχή αξιολόγηση ερωτήσεων σε ροές δεδομένων γράφων, καθώς παρατηρήθηκε βελτίωση του χρόνου φιλτραρίσματος κατά δυο τάξεις μεγέθους ανάμεσα στους προτεινόμενους αλγόριθμους και στις πιο απλοϊκές προσεγγίσεις.Τέλος, η έρευνα μας επικεντρώθηκε στην σχεδίαση και ανάπτυξη ενός καινοτόμου, πλήρως λειτουργικού, συστήματος φιλτραρίσματος πληροφορίας κειμένου, με την ονομασία Ping. Η ανάπτυξη του συστήματος Ping στόχευσε στη μελέτη υπαρχόντων τεχνολογικών λύσεων υπό το φως της διάχυσης πληροφορίας, και στη δημιουργία ενός πλήρως λειτουργικού συστήματος παροχής υπηρεσιών φιλτραρίσματος για τους χρήστες. Η δημιουργία ενός τέτοιου συστήματος αναδεικνύει την εφαρμοσιμότητα προηγμένων τεχνολογικών λύσεων στον τομέα της διάχυσης πληροφορίας.

Download Full-text

Incremental autoencoders for text streams clustering in social networks

JUCS - Journal of Universal Computer Science ◽

10.3897/jucs.76770 ◽

2021 ◽

Vol 27 (11) ◽

pp. 1203-1221

Author(s):

Amal Rekik ◽

Salma Jamoussi

Keyword(s):

Social Networks ◽

Big Data ◽

Deep Learning ◽

Data Streams ◽

High Speed ◽

Clustering Method ◽

Text Streams ◽

Data Field ◽

Learning Technique ◽

Clustering Data

Clustering data streams in order to detect trending topic on social networks is a chal- lenging task that interests the researchers in the big data field. In fact, analyzing such data needs several requirements to be addressed due to their large amount and evolving nature. For this purpose, we propose, in this paper, a new evolving clustering method which can take into account the incremental nature of the data and meet with its principal requirements. Our method explores a deep learning technique to learn incrementally from unlabelled examples generated at high speed which need to be clustered instantly. To evaluate the performance of our method, we have conducted several experiments using the Sanders, HCR and Terr-Attacks datasets.

Download Full-text

Mining Developing Trends of Dynamic Spatiotemporal Data Streams

Journal of Computers ◽

10.4304/jcp.1.3.43-50 ◽

2006 ◽

Vol 1 (3) ◽

Cited By ~ 2

Author(s):

Yu Meng ◽

Margaret H. Dunham

Keyword(s):

Data Streams ◽

Spatiotemporal Data

Download Full-text

Spatiotemporal social (STS) data model: correlating social networks and spatiotemporal data

Social Network Analysis and Mining ◽

10.1007/s13278-016-0388-z ◽

2016 ◽

Vol 6 (1) ◽

Cited By ~ 2

Author(s):

Sonia Khetarpaul ◽

S. K. Gupta ◽

L. Venkata Subramaniam

Keyword(s):

Social Networks ◽

Data Model ◽

Spatiotemporal Data

Download Full-text

A fuzzy c means variant for clustering evolving data streams

2007 IEEE International Conference on Systems, Man and Cybernetics ◽

10.1109/icsmc.2007.4413710 ◽

2007 ◽

Cited By ~ 21

Author(s):

Prodip Hore ◽

Lawrence O. Hall ◽

Dmitry B. Goldgof

Keyword(s):

Data Streams ◽

Fuzzy C Means ◽

Evolving Data

Download Full-text

Application of Spatiotemporal Fuzzy C-Means Clustering for Crime Spot Detection

Defence Science Journal ◽

10.14429/dsj.68.12518 ◽

2018 ◽

Vol 68 (4) ◽

pp. 374 ◽

Cited By ~ 3

Author(s):

Mohd Yousuf Ansari ◽

Anand Prakash ◽

Dr Mainuddin

Keyword(s):

Distance Function ◽

Spatiotemporal Data ◽

Crime Analysis ◽

Fuzzy C Means ◽

Squared Error ◽

Spot Detection ◽

Different Types ◽

Fuzzy C Means Clustering ◽

Future Events

<p>The various sources generate large volume of spatiotemporal data of different types including crime events. In order to detect crime spot and predict future events, their analysis is important. Crime events are spatiotemporal in nature; therefore a distance function is defined for spatiotemporal events and is used in Fuzzy C-Means algorithm for crime analysis. This distance function takes care of both spatial and temporal components of spatiotemporal data. We adopt sum of squared error (SSE) approach and Dunn index to measure the quality of clusters. We also perform the experimentation on real world crime data to identify spatiotemporal crime clusters.</p><div> </div>

Download Full-text

INCREMENTAL PRINCIPAL COMPONENT ANALYSIS BASED OUTLIER DETECTION METHODS FOR SPATIOTEMPORAL DATA STREAMS

ISPRS Annals of Photogrammetry Remote Sensing and Spatial Information Sciences ◽

10.5194/isprsannals-ii-4-w2-67-2015 ◽

2015 ◽

Vol II-4/W2 ◽

pp. 67-71 ◽

Cited By ~ 2

Author(s):

A. Bhushan ◽

M. H. Sharker ◽

H. A. Karimi

Keyword(s):

Principal Component Analysis ◽

Real Time ◽

Outlier Detection ◽

Data Streams ◽

Credit Card ◽

Principal Component ◽

Component Analysis ◽

Spatiotemporal Data ◽

Sensor Data ◽

Detection Methods

In this paper, we address outliers in spatiotemporal data streams obtained from sensors placed across geographically distributed locations. Outliers may appear in such sensor data due to various reasons such as instrumental error and environmental change. Real-time detection of these outliers is essential to prevent propagation of errors in subsequent analyses and results. Incremental Principal Component Analysis (IPCA) is one possible approach for detecting outliers in such type of spatiotemporal data streams. IPCA has been widely used in many real-time applications such as credit card fraud detection, pattern recognition, and image analysis. However, the suitability of applying IPCA for outlier detection in spatiotemporal data streams is unknown and needs to be investigated. To fill this research gap, this paper contributes by presenting two new IPCA-based outlier detection methods and performing a comparative analysis with the existing IPCA-based outlier detection methods to assess their suitability for spatiotemporal sensor data streams.

Download Full-text

Towards integrating real-world spatiotemporal data with social networks

Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems - GIS '11 ◽

10.1145/2093973.2094046 ◽

2011 ◽

Cited By ~ 9

Author(s):

Huy Pham ◽

Ling Hu ◽

Cyrus Shahabi

Keyword(s):

Social Networks ◽

Real World ◽

Spatiotemporal Data

Download Full-text