Investigation on Processing of Real-Time Streaming Big Data

MapReduce is the most widely used for huge data processing and it is a part of the Hadoop big data and this will provide the quality and efficient results because of their processing functions. For the batch jobs, Hadoop is the proper and also there is inflated request for non-batch elements homogeneous interactive jobs, and high data currents. For this non-batch assignments, consider Hadoop is not useful and present situations are recommending to these new crises. In this paper, these are divided into two stages that are real-time processing, and stream processing of big data. For every stage, the models are deliberate, stability and diversity to Hadoop. For every group, we have provided the working systems and structures. For the creation of the new examples, some experiments are conducted to improve the new results belongs to available Hadoop-based solutions.

Download Full-text

Real-time processing of streaming big data

Real-Time Systems ◽

10.1007/s11241-016-9257-0 ◽

2016 ◽

Vol 53 (1) ◽

pp. 1-44 ◽

Cited By ~ 16

Author(s):

Ali A. Safaei

Keyword(s):

Big Data ◽

Real Time ◽

Real Time Processing ◽

Time Processing ◽

Streaming Big Data

Download Full-text

A Real Time Processing system for big data in astronomy: Applications to HERA

Astronomy and Computing ◽

10.1016/j.ascom.2021.100489 ◽

2021 ◽

pp. 100489

Author(s):

Paul La Plante ◽

P.K.G. Williams ◽

M. Kolopanis ◽

J.S. Dillon ◽

A.P. Beardsley ◽

...

Keyword(s):

Big Data ◽

Real Time ◽

Processing System ◽

Real Time Processing ◽

Time Processing

Download Full-text

Towards a real-time processing framework based on improved distributed recurrent neural network variants with fastText for social big data analytics

Information Processing & Management ◽

10.1016/j.ipm.2019.102122 ◽

2020 ◽

Vol 57 (1) ◽

pp. 102122 ◽

Cited By ~ 6

Author(s):

Badr Ait Hammou ◽

Ayoub Ait Lahcen ◽

Salma Mouline

Keyword(s):

Neural Network ◽

Big Data ◽

Real Time ◽

Recurrent Neural Network ◽

Data Analytics ◽

Big Data Analytics ◽

Real Time Processing ◽

Time Processing ◽

Social Big Data ◽

Processing Framework

Download Full-text

Real time processing technologies in big data: Comparative study

2017 IEEE International Conference on Power, Control, Signals and Instrumentation Engineering (ICPCSI) ◽

10.1109/icpcsi.2017.8392202 ◽

2017 ◽

Cited By ~ 3

Author(s):

Kandrouch Ibtissame ◽

Redouani Yassine ◽

Chaoui Habiba

Keyword(s):

Big Data ◽

Comparative Study ◽

Real Time ◽

Processing Technologies ◽

Real Time Processing ◽

Time Processing

Download Full-text

A library for fMRI real-time processing systems in python (RTPSpy) with comprehensive online noise reduction, fast and accurate anatomical image processing, and online processing simulation

10.1101/2021.12.13.472468 ◽

2021 ◽

Author(s):

Masaya Misaki ◽

Jerzy Bodurka ◽

Martin P Paulus

Keyword(s):

Image Processing ◽

Data Processing ◽

Real Time ◽

Easy Access ◽

External Application ◽

Real Time Processing ◽

Time Processing ◽

Target Signal ◽

Processing Pipeline ◽

Anatomical Image

We introduce a python library for real-time fMRI (rtfMRI) data processing systems, Real-Time Processing System in python (RTPSpy), to provide building blocks for a custom rtfMRI application with extensive and advanced functionalities. RTPSpy is a library package including 1) a fast, comprehensive, and flexible online fMRI denoising pipeline comparable to offline processing, 2) utilities for fast and accurate anatomical image processing to define a target region on-site, 3) a simulation system of online fMRI processing to optimize a pipeline and target signal calculation, 4) interface to an external application for feedback presentation, and 5) a boilerplate graphical user interface (GUI) integrating operations with RTPSpy library. Since online fMRI data processing cannot be equivalent to offline, we discussed the limitations of online analysis and their solutions in the RTPSpy implementation. We developed a fast and accurate anatomical image processing script with fast tissue segmentation (FastSeg), image alignment, and spatial normalization, utilizing the FastSurfer, AFNI, and ANTs. We confirmed that the FastSeg output was comparable with FreeSurfer, and could complete all the anatomical image processing in a few minutes. Thanks to its highly modular architecture, RTPSpy can easily be used for a simulation analysis to optimize a processing pipeline and target signal calculation. We present a sample script for building a real-time processing pipeline and running a simulation using RTPSpy. The library also offers a simple signal exchange mechanism with an external application. An external application can receive a real-time neurofeedback signal from RTPSpy in a background thread with a few lines of script. While the main components of the RTPSpy are the library modules, we also provide a GUI class for easy access to the RTPSpy functions. The boilerplate GUI application provided with the package allows users to develop a customized rtfMRI application with minimum scripting labor. Finally, we discussed the limitations of the package regarding environment-specific implementations. We believe that RTPSpy is an attractive option for developing rtfMRI applications highly optimized for individual purposes. The package is available from GitHub (https://github.com/mamisaki/RTPSpy) with GPL3 license.

Download Full-text

A research on smart tourism-oriented big data real-time processing technology

2017 29th Chinese Control And Decision Conference (CCDC) ◽

10.1109/ccdc.2017.7978817 ◽

2017 ◽

Cited By ~ 3

Author(s):

Jin Wei ◽

Lei Ma ◽

Zhongqiu Zhang

Keyword(s):

Big Data ◽

Real Time ◽

Processing Technology ◽

Real Time Processing ◽

Time Processing ◽

Smart Tourism

Download Full-text

Anomaly detection for machinery by using Big Data Real-Time processing and clustering technique

Proceedings of the 2019 3rd International Conference on Big Data Research ◽

10.1145/3372454.3372480 ◽

2019 ◽

Author(s):

Zhuo Wang ◽

Yanghui Zhou ◽

Gangmin Li

Keyword(s):

Big Data ◽

Anomaly Detection ◽

Real Time ◽

Real Time Processing ◽

Time Processing ◽

Clustering Technique

Download Full-text

Survey of real-time processing systems for big data

Proceedings of the 18th International Database Engineering & Applications Symposium on - IDEAS '14 ◽

10.1145/2628194.2628251 ◽

2014 ◽

Cited By ~ 46

Author(s):

Xiufeng Liu ◽

Nadeem Iftikhar ◽

Xike Xie

Keyword(s):

Big Data ◽

Real Time ◽

Real Time Processing ◽

Time Processing

Download Full-text

Railway Big Data Real-time Processing Based on Storm

Proceedings of the 2016 2nd Workshop on Advanced Research and Technology in Industry Applications ◽

10.2991/wartia-16.2016.108 ◽

2016 ◽

Author(s):

Shihang Guo ◽

LiChen Zhang

Keyword(s):

Big Data ◽

Real Time ◽

Real Time Processing ◽

Time Processing

Download Full-text

Deterministic, elastic and real - time processing in the big data era

10.12681/eadd/44613 ◽

2018 ◽

Author(s):

Νικόλαος Ζαχείλας

Keyword(s):

Big Data ◽

Real Time ◽

Apache Spark ◽

Trade Off ◽

Real Time Processing ◽

Time Processing ◽

Apache Storm

Τα τελευταία χρόνια παρατηρούμε μία ραγδαία αύξηση του πλήθους τωνδεδομένων τα οποία είναι απαραίτητο να αναλυθούν σε πραγματικό χρόνοαπό διαφορετικού είδους εφαρμογές, οι οποίες περιλαμβάνουν, εφαρμογέςανάλυσης της κυκλοφοριακής συμφόρησης, ιατροφαρμακευτικής περίθαλψηςκαθώς και χρηματοοικονομικές εφαρμογές. Προκείμενου να γίνει μεαποδοτικό τρόπο η επεξεργασία τόσου μεγάλου όγκου δεδομένων, έχουνπροταθεί πρωτότυπα κατανεμημένα συστήματα επεξεργασίας μεγάλου όγκουδεδομένων όπως το Apache Storm και το Apache Spark. Αυτά τα συστήματαείναι κλιμακωτά και παρέχουν χαμηλό χρόνο απόκρισης με το νακατανέμουν την επεξεργασία των δεδομένων σε πολλαπλούς και παράλληλαεκτελέσιμους υπολογιστικούς πόρους. Παρόλα αυτά, υπάρχουν αρκετές καισημαντικές ερευνητικές προκλήσεις που πρέπει να διευθετηθούνπροκειμένου να χρησιμοποιηθούν με τις πλήρεις δυνατότητές τους. Αυτέςοι προκλήσεις περιλαμβάνουν - αλλά δεν περιορίζονται μόνο σε αυτές -την παροχή της ντετερμινιστικής επεξεργασίας των δεδομένων, τονκαθορισμό των υπολογιστικών πόρων που πρέπει να χρησιμοποιηθούν, τηδιαχείριση της ασυμμετρίας που παρουσιάζεται στα δεδομένα που πρέπεινα επεξεργαστούν παράλληλα καθώς και τον αποτελεσματικόχρονοπρογραμματισμό των πολλαπλών εφαρμογών που εκτελούνται πάνω απότο σύστημα όταν οι εφαρμογές έχουν απαιτήσεις απόκρισης πραγματικούχρόνου. Ο σκοπός αυτής της διδακτορικής διατριβής είναι η πρότασηπρακτικών μεθόδων για την αντιμετώπιση αυτών των προβλημάτων.Το πρώτο μέρος της διδακτορικής διατριβής περιλαμβάνει προτάσεις γιατη βελτίωση της απόδοσης των συστημάτων επεξεργασίας μεγάλου όγκουδεδομένων μέσω της αντιμετώπισης του προβλήματος της παροχήςντετερμιστικής επεξεργασίας των δεδομένων και ταυτόχρονα τηνικανοποίηση απαιτήσεων απόκρισης πραγματικού χρόνου. Προκειμένου ταδεδομένα να επεξεργαστούν ντετερμινιστικά, είναι απαραίτητη η χρήσημηχανισμών που καθορίζουν τη σειρά με την οποία τα δεδομέναεπεξεργάζονται από τους υπολογιστικούς πόρους. Αφ'ετέρου, ηικανοποίηση περιορισμών πραγματικού χρόνου σε τέτοια συστήματα απαιτείτην αποτελεσματική διαχείριση του αντισταθμίσματος (trade-off) μεταξύτης ντετερμινιστικής επεξεργασίας και του μικρού χρόνου απόκρισης.Εξετάζοντας αυτές τις προκλήσεις και το αντιστάθμισμα πουδημιουργείται λόγω των περιορισμών πραγματικού χρόνου, ένα σύνολο απόσυστήματα και μεθοδολογίες προτείνονται στα πλαίσια του διδακτορικούπροκειμένου να επιτραπεί στους χρήστες των εφαρμογών και τουςδιαχειριστές των συστημάτων να χαλαρώνουν δυναμικά τους περιορισμούςτου ντετερμινισμού οταν είναι απαραίτητο, ώστε να ικανοποιηθούν οιπεριορισμοί στο χρόνο απόκρισης των εφαρμογών.Το δεύτερο μέρος της διατριβής επικεντρώνεται στο πρόβλημα τουχρονοπρογραμματισμού εφαρμογών με απαιτήσεις πραγματικού χρόνου σεσυστήματα επεξεργασίας δεδομένων μεγάλης κλίμακας δεδομένων πουχρησιμοποιούν το MapReduce προγραμματιστικό μοντέλο, και επιπροσθέτωςστο πρόβλημα της δημιουργίας υψηλής ακρίβειας μοντέλων πρόβλεψης τουχρόνου εκτέλεσης των εφαρμογών. Η δυσκολία των προβλημάτων έγκειταιστο ότι οι εφαρμογές πολλές φορές εκτελούνται σε ετερογενήπεριβάλλοντα, στην ανομοιομορφία των δεδομένων που επεξεργάζονται οιυπολογιστικοί πόροι λόγου της ασυμμετρίας (skewness) των δεδομένων,στις απαιτήσεις πραγματικού χρόνου που έχουν οι εφαρμογές καθώς και τοπεριορισμένο πλήθος διαθέσιμων εκτελέσεων για τη δημιουργία μοντέλωνπρόβλεψης υψηλής ακρίβειας. Προκειμένου να αντιμετωπιστούν ταπροαναφερθέντα προβλήματα προτείνονται ένα σύνολο από αλγορίθμουςχρονοπρογραμματισμού καθώς και ένα πρωτότυπο σύστημα δημιουργίαςπροφιλ εφαρμογών . Τέλος, το τρίτο μέρος της διδακτορικής διατριβήςσυνεισφέρει στο πρόβλημα της αποτελεσματικής διαχείρισης των πόρων σεκατανεμημένα συστήματα ροών δεδομένων. Προτείνεται ένας πρωτότυποςμηχανισμός ελαστικότητας (elasticity) ο οποίος επιτρέπει των καθορισμόεκ των προτέρων του βαθμού του παραλληλισμού των επεξεργαστικών πόρωντου συστήματος, καθώς επίσης εξετάζεται και η χρήση γνωστών αλγορίθμωνδιαμοιρασμού του φόρτου εργασίας μεταξύ των υπολογιστικών πόρωνπροκειμένου να βελτιώσουμε περαιτέρω το διαμετακομιστικό ρυθμό(throughput) του συστήματος.Καθ' όλη την διατριβή, οι μεθοδολογίες που αναπτύχθηκαν έχουναξιολογηθεί σε πραγματικά δεδομένα και σενάρια. Τα πειραματικάαποτελέσματα έδειξαν ότι οι προτεινόμενοι αλγόριθμοι ξεπερνούνσυστηματικά τις υπάρχουσες προσεγγίσεις και ότι αποτελούν πρακτικέςτεχνικές που μπορούν να χρησιμοποιηθούν σε δημοφιλή κατανεμημένασυστήματα επεξεργασίας ροών δεδομένων, όπως το Apache Storm και τοApache Spark.

Download Full-text