apache storm Latest Research Papers

Energy efficient resource controller for Apache Storm

Concurrency and Computation Practice and Experience ◽

10.1002/cpe.6799 ◽

2021 ◽

Author(s):

MohammadReza HoseinyFarahabady ◽

Javid Taheri ◽

Albert Y. Zomaya ◽

Zahir Tari

Keyword(s):

Energy Efficient ◽

Efficient Resource ◽

Apache Storm

Real-time user clickstream behavior analysis based on apache storm streaming

Electronic Commerce Research ◽

10.1007/s10660-021-09518-4 ◽

2021 ◽

Author(s):

Gautam Pal ◽

Katie Atkinson ◽

Gangmin Li

Keyword(s):

Real Time ◽

Pattern Mining ◽

Expectation Maximization Algorithm ◽

Gaussian Mixture ◽

The Past ◽

Lambda Architecture ◽

Market Driven ◽

Client Side ◽

Distributed Cluster ◽

Apache Storm

AbstractThis paper presents an approach to analyzing consumers’ e-commerce site usage and browsing motifs through pattern mining and surfing behavior. User-generated clickstream is first stored in a client site browser. We build an ingestion pipeline to capture the high-velocity data stream from a client-side browser through Apache Storm, Kafka, and Cassandra. Given the consumer’s usage pattern, we uncover the user’s browsing intent through n-grams and Collocation methods. An innovative clustering technique is constructed through the Expectation-Maximization algorithm with Gaussian Mixture Model. We discuss a framework for predicting a user’s clicks based on the past click sequences through higher order Markov Chains. We developed our model on top of a big data Lambda Architecture which combines high throughput Hadoop batch setup with low latency real-time framework over a large distributed cluster. Based on this approach, we developed an experimental setup for an optimized Storm topology and enhanced Cassandra database latency to achieve real-time responses. The theoretical claims are corroborated with several evaluations in Microsoft Azure HDInsight Apache Storm deployment and in the Datastax distribution of Cassandra. The paper demonstrates that the proposed techniques help user experience optimization, building recently viewed products list, market-driven analyses, and allocation of website resources.

Study on Big Data Frameworks

International Journal of Scientific Research in Science and Technology ◽

10.32628/ijsrst218475 ◽

2021 ◽

pp. 491-499

Author(s):

Adriano Fernandes ◽

Jonathan Barretto ◽

Jonas Fernandes

Keyword(s):

Big Data ◽

Execution Time ◽

Data Analytics ◽

Processing Time ◽

Performance Metrics ◽

Big Data Analytics ◽

Apache Hadoop ◽

And Performance ◽

General Collection ◽

Apache Storm

Big data analytics is becoming more and more popular every day as a tool for evaluating large volumes of data on demand. Apache Hadoop, Spark, Storm, and Flink are four of the most widely used big data processing frameworks. Although all four architectures support big data analysis, they vary in how they are used and the infrastructure that supports it. This paper defines a general collection of main performance metrics, which include Processing Time, CPU Use, Latency, Execution Time, Performance, Scalability, and Fault-tolerance, and contrasting the four big data architectures against these KPIs in a literature review. When compared to Apache Hadoop and Apache Storm frameworks for non-real-time results, Spark was found to be the winner over multiple KPIs, including processing time, CPU usage, Latency, Execution time, and Scalability. In terms of processing time, CPU consumption, latency, execution time, and performance, Flink surpassed Apache Spark and Apache Storm architectures.

Discovering Influential Twitter Authors Via Clustering And Ranking On Apache Storm

10.1109/iisa52424.2021.9555528 ◽

2021 ◽

Author(s):

Christina Saravanos ◽

Georgios Drakopoulos ◽

Andreas Kanavos ◽

Eleanna Kafeza ◽

Christos Makris

Keyword(s):

Apache Storm

RDMA-Based Apache Storm for High-Performance Stream Data Processing

International Journal of Parallel Programming ◽

10.1007/s10766-021-00696-0 ◽

2021 ◽

Author(s):

Ziyu Zhang ◽

Zitan Liu ◽

Qingcai Jiang ◽

Junshi Chen ◽

Hong An

Keyword(s):

Data Processing ◽

High Performance ◽

Stream Data ◽

Stream Data Processing ◽

Apache Storm

Scotty

ACM Transactions on Database Systems ◽

10.1145/3433675 ◽

2021 ◽

Vol 46 (1) ◽

pp. 1-46

Author(s):

Jonas Traub ◽

Philipp Marian Grulich ◽

Alejandro Rodríguez Cuéllar ◽

Sebastian Breß ◽

Asterios Katsifodimos ◽

...

Keyword(s):

Data Stream ◽

Stream Processing ◽

Sliding Window ◽

Improve Performance ◽

General Applicability ◽

Aggregation Functions ◽

Aggregation Techniques ◽

Aggregation Queries ◽

Alternative Solutions ◽

Apache Storm

Window aggregation is a core operation in data stream processing. Existing aggregation techniques focus on reducing latency, eliminating redundant computations, or minimizing memory usage. However, each technique operates under different assumptions with respect to workload characteristics, such as properties of aggregation functions (e.g., invertible, associative), window types (e.g., sliding, sessions), windowing measures (e.g., time- or count-based), and stream (dis)order. In this article, we present Scotty , an efficient and general open-source operator for sliding-window aggregation in stream processing systems, such as Apache Flink, Apache Beam, Apache Samza, Apache Kafka, Apache Spark, and Apache Storm. One can easily extend Scotty with user-defined aggregation functions and window types. Scotty implements the concept of general stream slicing and derives workload characteristics from aggregation queries to improve performance without sacrificing its general applicability. We provide an in-depth view on the algorithms of the general stream slicing approach. Our experiments show that Scotty outperforms alternative solutions.

Machine learning based implementation with apache storm for cavernous analytics of data

Materials Today Proceedings ◽

10.1016/j.matpr.2021.01.748 ◽

2021 ◽

Author(s):

B. Jhansi Rani ◽

V. Akila ◽

Priya Pogaku ◽

Mekala Kiran

Keyword(s):

Machine Learning ◽

Apache Storm

Parallel and distributed processing of big data streams and scheduling algorithms

10.12681/eadd/48866 ◽

2021 ◽

Author(s):

Νικολέτα Τανταλάκη

Keyword(s):

Big Data ◽

Data Streams ◽

Distributed Processing ◽

Scheduling Algorithms ◽

Parallel And Distributed Processing ◽

Big Data Streams ◽

Apache Storm

Συνεχόμενες ροές δεδομένων σε όλο τον κόσμο αναπτύσσονται διαρκώς, δημιουργώντας επιτακτική ανάγκη να διαχειριστούμε αυτόν τον μεγάλο όγκο δεδομένων που καταφθάνει συνεχώς, έγκαιρα και αποτελεσματικά. Μοντέλα υπολογιστικής μνήμης χρησιμοποιούνται, προκειμένου να επιτευχθούν απαιτήσεις απόδοσης όπως η χρονοκαθυστέρηση και η ρυθμαπόδοση, που είναι εξαιρετικά σημαντικές για κάθε εφαρμογή επεξεργασίας ροών δεδομένων. Πληθώρα διαφορετικών τεχνολογιών έχει προκύψει, ειδικά για να αντιμετωπίσει τις προκλήσεις της επεξεργασίας υψηλού όγκου δεδομένων σε πραγματικό χρόνο, εκμεταλλευόμενη υπολογισμούς on-the-fly. Κατανεμημένα συστήματα επεξεργασίας ροών δεδομένων αναθέτουν τις επιμέρους εργασίες μιας εφαρμογής στους διαθέσιμους πόρους και δρομολογούν ροές δεδομένων μέσα από αυτές. Η αποτελεσματική δρομολόγηση των εργασιών μπορεί να μειώσει τις χρονοκαθυστερήσεις μιας εφαρμογής και να περιορίσει τη συμφόρηση στο δίκτυο. Ωστόσο, οι τεχνικές δρομολόγησης που είναι ενσωματωμένες στα διαθέσιμα επεξεργασίας ροών δεν είναι οι βέλτιστες δυνατές. Στην παρούσα διατριβή, γίνεται προσπάθεια επίλυσης του προβλήματος της χρονοδρομολόγησης των εργασιών σε συστήματα επεξεργασίας ροών δεδομένων. Το πρόβλημα αυτό εστιάζει στο ποιες εργασίες πρέπει να τοποθετηθούν, σε ποιους διαθέσιμους πόρους και ελέγχει τη σειρά της εκτέλεσής τους. Αρχικά, γίνεται μια επισκόπηση των διαθέσιμων συστημάτων επεξεργασίας ροών δεδομένων και μια κατηγοριοποίηση των διαθέσιμων τεχνικών δρομολόγησης από μελέτη σχετικής βιβλιογραφίας. Με αυτόν τον τρόπο, προέκυψαν οι παράγοντες που πρέπει να λαμβάνονται υπόψη, όταν σχεδιάζεται μια αποτελεσματική τεχνική δρομολόγησης. Έπειτα, γίνεται μοντελοποίηση του προβλήματος και παρουσιάζεται ένα γραμμικό σχήμα βασισμένο σε μετασχηματισμούς πινάκων. Σε αντίθεση με τις υπάρχουσες προτάσεις της βιβλιογραφίας που σπάνια λαμβάνουν υπόψη την κατανάλωση μνήμης στην ανάλυσή τους, το σχήμα που προτείνεται εδώ εκτελείται με έναν τρόπο που διαχειρίζεται αποτελεσματικά τη μνήμη και είναι ισορροπημένο ως προς τον φόρτο. Το σχήμα αυτό, εκμεταλλεύεται την τεχνική της διασωλήνωσης, προκειμένου να διαχειριστεί αποτελεσματικά εφαρμογές, όπου υπάρχει ανάγκη για πλήρη επικοινωνία μεταξύ των εργασιών διαφορετικών τελεστών της εφαρμογής. Το σχήμα της παρούσας μελέτη είναι στατικό. Ωστόσο, στην περίπτωση των ροών δεδομένων, ο φόρτος εισόδου μεταβάλλεται δραστικά με την πάροδο του χρόνου. Τα δυναμικά σχήματα προσαρμόζονται και πραγματοποιούν κατάλληλες μεταβολές στη δρομολόγηση των εργασιών κατά τη διάρκεια εκτέλεσης μιας εφαρμογής, προκειμένου να διαχειριστούν αποτελεσματικά τις αλλαγές στο cluster. Κάτι τέτοιο, όμως, οδηγεί σε σημαντικές καθυστερήσεις και μείωση της απόδοσης του συστήματος. Το προτεινόμενο σχήμα αντί να προσαρμόζει εκ νέου κατά τη διάρκεια της εκτέλεσης, την ανάθεση των επιμέρους εργασιών μιας εφαρμογής, χειρίζεται με έναν αποτελεσματικό τρόπο τις ουρές αναμονής και προσπαθεί να διατηρήσει μια σταθερή και ισχυρή ρύθμιση, ισορροπώντας τον φόρτο μεταξύ των κόμβων του cluster. Σαφώς, μια δυναμική έκδοση της παρούσας προσέγγισης θα βελτίωνε την απόδοσή της, γι’ αυτό και η επέκταση αυτή, είναι μία από τις προτάσεις για μελλοντική έρευνα. Για λόγους ευκρίνειας, η παρούσα προσέγγιση γίνεται με βάση τη σημασιολογία του συστήματος Apache Storm. Η αποτίμηση της αποδοτικότητας του σχήματος υποδεικνύει την σημασία του περιορισμού της απαιτούμενης ενδιάμεσης μνήμης και της εξισορρόπησης φόρτου στη βελτίωση της απόδοσης του συστήματος και στην αντιμετώπιση των προκλήσεων της εκτέλεσης εφαρμογών που επεξεργάζονται ροές δεδομένων. Κατά την εκτέλεση των πειραμάτων, πραγματοποιήθηκε σύγκριση του προτεινόμενου σχήματος με τον προκαθορισμένο δρομολογητή του Apache Storm, καθώς και με τον δρομολογητή R-Storm που προέκυψε από τη βιβλιογραφική ανασκόπηση. Το παρόν σχήμα ξεπέρασε σε επίπεδο ρυθμαπόδοσης και τα δύο σχήματα, παρέχοντας βελτίωση της τάξης του 25%-45% υπό διαφορετικά σενάρια, κυρίως χάρη στη μείωση χρήσης της ενδιάμεσης μνήμης (≈45% λιγότερη μνήμη). Στο τέλος της παρούσας διατριβής, παρουσιάζεται η συνεισφορά της επεξεργασίας δεδομένων σε πραγματικό χρόνο σε ένα πεδίο εφαρμογής. Η χρήση συσκευών ΙοΤ και εργαλείων όπως τα αυτόνομα οχήματα, οι ασύρματοι αισθητήρες και οι ρομποτικές κατασκευές, που παράγουν συνεχώς ροές δεδομένων υψηλής ταχύτητας, αποτελούν κλειδί στην εφαρμογή πρακτικών γεωργίας ακριβείας. Ο πρωτογενής τομέας καλείται σήμερα να αντιμετωπίσει ιδιαίτερες προκλήσεις χάρη στην πληθώρα των τεχνολογικών μετασχηματισμών που πραγματοποιούνται, ώστε να αυξηθεί η παραγωγικότητα και η ποιότητα των παραγόμενων προϊόντων με σεβασμό στο περιβάλλον. Νέες εφαρμογές με μεγάλες δυνατότητες έχουν αρχίσει να αναπτύσσονται, προσπαθώντας να εκμεταλλευτούν την πρόοδο του Διαδικτύου των Πραγμάτων και της υπολογιστικής νέφους. Ωστόσο, οι προκλήσεις είναι πολλές και φανερώνουν νέα ανοιχτά πεδία έρευνας και μελλοντικές τάσεις.

Graceful Performance Degradation in Apache Storm

Parallel and Distributed Computing, Applications and Technologies - Lecture Notes in Computer Science ◽

10.1007/978-3-030-69244-5_35 ◽

2021 ◽

pp. 389-400

Author(s):

Mohammad Reza HoseinyFarahabady ◽

Javid Taheri ◽

Albert Y. Zomaya ◽

Zahir Tari

Keyword(s):

Performance Degradation ◽

Apache Storm

RDMA-Based Apache Storm for High-Performance Stream Data Processing

Lecture Notes in Computer Science - Network and Parallel Computing ◽

10.1007/978-3-030-79478-1_24 ◽

2021 ◽

pp. 276-287

Author(s):

Ziyu Zhang ◽

Zitan Liu ◽

Qingcai Jiang ◽

Zheng Wu ◽

Junshi Chen ◽

...

Keyword(s):

Data Processing ◽

High Performance ◽

Stream Data ◽

Stream Data Processing ◽

Apache Storm

apache storm
Recently Published Documents

TOTAL DOCUMENTS

H-INDEX

Energy efficient resource controller for Apache Storm

Real-time user clickstream behavior analysis based on apache storm streaming

Study on Big Data Frameworks

Discovering Influential Twitter Authors Via Clustering And Ranking On Apache Storm

RDMA-Based Apache Storm for High-Performance Stream Data Processing

Scotty

Machine learning based implementation with apache storm for cavernous analytics of data

Parallel and distributed processing of big data streams and scheduling algorithms

Graceful Performance Degradation in Apache Storm

RDMA-Based Apache Storm for High-Performance Stream Data Processing

Export Citation Format

apache stormRecently Published Documents

TOTAL DOCUMENTS

H-INDEX

Energy efficient resource controller for Apache Storm

Real-time user clickstream behavior analysis based on apache storm streaming

Study on Big Data Frameworks

Discovering Influential Twitter Authors Via Clustering And Ranking On Apache Storm

RDMA-Based Apache Storm for High-Performance Stream Data Processing

Scotty

Machine learning based implementation with apache storm for cavernous analytics of data

Parallel and distributed processing of big data streams and scheduling algorithms

Graceful Performance Degradation in Apache Storm

RDMA-Based Apache Storm for High-Performance Stream Data Processing

apache storm
Recently Published Documents