Hardware Transactional Memories

The initiation to have a concept of shared memory in processors has built an opportunity for thread level parallelism. In various applications, synchronization or ordering tools are utilized to have an access to shared data. Traditionally, multithreaded programming models usually suggest a set of low-level primitives, such as locks, to guarantee mutual exclusion. Possession of one or more locks protects access to shared data. But, due to some flaws they become a suboptimal solution. The idea of transactional memory is in research presently as an alternative to locks. Among which, one way is hardware transactional memory. Atomicity is well supported by using transactions in hardware. In this chapter, we have focused on hardware transactional memories and the work done on them so far.

Download Full-text

COOL MULTITHREADING IN HTMT SPELL-1 PROCESSORS

International Journal of High Speed Electronics and Systems ◽

10.1142/s0129156400000283 ◽

2000 ◽

Vol 10 (01) ◽

pp. 247-253 ◽

Cited By ~ 3

Author(s):

MIKHAIL DOROJEVETS

Keyword(s):

Shared Memory ◽

Memory System ◽

Flux Quantum ◽

Hybrid Technology ◽

Fine Grain ◽

Rapid Single Flux Quantum ◽

Thread Level Parallelism ◽

Multithreaded Architecture ◽

Level Parallelism ◽

Suny Stony

A COOL-1 multiprocessor shared memory system based on superconductor Rapid Single-Flux Quantum (RSFQ) technology is being developed at SUNY (Stony Brook, USA) within the framework of the Hybrid Technology Multithreaded architecture (HTMT) petaflops project led by JPL. This paper describes a multithreading approach proposed in the COOL-I architecture and mechanisms to exploit the thread level parallelism in RSFQ processors called SPELL-1. Up to 128 fine-grain threads called (instruction) streams arranged in 16 groups of 8 streams each can run in parallel within a SPELL-1 processor. All eight streams comprising each COOL stream cluster can communicate and synchronize directly via shared registers. Fast creation and termination of streams including speculative stream execution are also supported.

Download Full-text

Thread-Level Parallelism & Shared-Memory Pool Techniques for Authorization of Credit Card System

2008 International Symposium on Communications and Information Technologies ◽

10.1109/iscit.2008.4700232 ◽

2008 ◽

Author(s):

Mohd Hairul Nizam M. Nasir ◽

Siti Hafizah Ab. Hamid ◽

Hazrina Hassan

Keyword(s):

Shared Memory ◽

Credit Card ◽

Memory Pool ◽

Card System ◽

Thread Level Parallelism ◽

Level Parallelism

Download Full-text

Exploiting Speculative Thread-Level Parallelism Based on Transactional Memory

2011 Third International Conference on Communications and Mobile Computing ◽

10.1109/cmc.2011.43 ◽

2011 ◽

Author(s):

Yaobin Wang ◽

Hong An ◽

Yuan Liu ◽

Wanli Dong ◽

Kang Xu

Keyword(s):

Transactional Memory ◽

Thread Level Parallelism ◽

Level Parallelism

Download Full-text

Τεχνικές για την βελτιστοποίηση και αποδοτική απεικόνιση παράλληλων κωδίκων σε υπολογιστικούς κόμβους με πολυνηματικές και πολυπύρηνες αρχιτεκτονικές μικροεπεξεργαστών

10.12681/eadd/18839 ◽

2010 ◽

Author(s):

Νικόλαος Αναστόπουλος

Keyword(s):

Transactional Memory ◽

Simultaneous Multithreading ◽

Speculative Parallelization ◽

Thread Level Parallelism ◽

Level Parallelism

Οι πολυπύρηνες και πολυνηματικές αρχιτεκτονικές κερδίζουν συνεχώς έδαφος τα τελευταία χρόνια αποτελώντας πλέον τον κανόνα στη σχεδίαση των επεξεργαστών σε ένα ευρύ φάσμα εφαρμογών. Για να μπορούν να αξιοποιήσουν τα προγράμματα του χρήστη τις δυνατότητές τους, είναι απαραίτητη μια γενικότερη στροφή προς την εκμετάλλευση του παραλληλισμού επιπέδου νημάτων (thread-level parallelism - TLP) που μπορεί να εξαχθεί από αυτά. Σε αυτό το νέο περιβάλλον τίθενται επομένως μια σειρά από σημαντικές προκλήσεις στον προγραμματιστή, όπως ο εντοπισμός, η έκφραση και η απεικόνιση του παραλληλισμού, ο συγχρονισμός μεταξύ των νημάτων και η αποδοτική διαχείριση των πόρων της υποκείμενης αρχιτεκτονικής. Συμβατικές τεχνικές παραλληλοποίησης και συγχρονισμού που έχουν προταθεί στη βιβλιογραφία είναι θεωρητικά εφαρμόσιμες στις νέες αρχιτεκτονικές, όμως είτε καλύπτουν συγκεκριμένα είδη εφαρμογών με προφανή και άμεσα εκμεταλλεύσιμο παραλληλισμό, είτε δε λαμβάνουν υπόψη τις ιδιαιτερότητες κάθε αρχιτεκτονικής στη διαχείριση των πόρων με αποτέλεσμα να οδηγούν σε μειωμένη απόδοση. Στα πλαίσια αυτής της διατριβής εξετάζουμε τεχνικές που έχουν σαν στόχο τον εντοπισμό και την απεικόνιση του παραλληλισμού καθώς και τον αποδοτικό συγχρονισμό σε αρχιτεκτονικές επεξεργαστών με Ταυτόχρονο Πολυνηματισμό (Simultaneous Multithreading - SMT) και Πολυεπεξεργασία σε Επίπεδο Τσιπ (Chip-level Multiprocessing - CMP). Διερευνούμε εναλλακτικές τεχνικές παραλληλοποίησης που στηρίζονται στην ιδέα της βοηθητικής νημάτωσης (helper threading) και οι οποίες προορίζονται κυρίως για εφαρμογές με ασαφή, ακανόνιστο ή και μηδενικό εγγενή παραλληλισμό. Τέτοιες εφαρμογές δε θα μπορούσαν να λάβουν σημαντικά οφέλη αν εκτελούνταν σε κάποιο παραδοσιακό σύστημα πολυεπεξεργασίας ή χρησιμοποιώντας κάποια παραδοσιακή τεχνική παραλληλοποίησης. Στις αρχιτεκτονικές SMT χρησιμοποιούμε τη βοηθητική νημάτωση για να αποφορτίσουμε το κύριο νήμα μιας εφαρμογής από χρονοβόρες λειτουργίες πρόσβασης στη μνήμη. Σε αρκετές περιπτώσεις επιτυγχάνουμε αξιοσημείωτα αποτελέσματα, ωστόσο οι συγκρούσεις ανάμεσα στα εκτελούμενα νήματα για κοινούς πόρους του επεξεργαστή καθιστούν δύσκολη την επίτευξη μεγαλύτερων επιταχύνσεων. Στην κατεύθυνση αυτή προτείνουμε ένα πλαίσιο για την υλοποίηση αποδοτικών λειτουργιών συγχρονισμού, οι οποίες σε σύγκριση με άλλες υλοποιήσεις είναι σε θέση να προσφέρουν τον καλύτερο συμβιβασμό ανάμεσα στην αποδοτική διαχείριση πόρων και τη χαμηλή καθυστέρηση. Στις αρχιτεκτονικές CMP χρησιμοποιούμε τη βοηθητική νημάτωση για να αποφορτίσουμε το κύριο νήμα από πραγματικούς υπολογισμούς, αξιοποιώντας έναν προηγμένο μηχανισμό συγχρονισμού στο υλικό, αυτόν της μνήμης διενεργειών (transactional memory - ΤΜ). Παρουσιάζουμε ένα σχήμα υποθετικής παραλληλοποίησης (speculative parallelization), μέσω του οποίου καταφέρνουμε να επιταχύνουμε μια περίπτωση εφαρμογής για την οποία οποιοδήποτε συμβατικό σχήμα παραλληλοποίησης μέχρι τώρα είχε αρνητικά αποτελέσματα.

Download Full-text

An analytical model for a GPU architecture with memory-level and thread-level parallelism awareness

Proceedings of the 36th annual international symposium on Computer architecture - ISCA '09 ◽

10.1145/1555754.1555775 ◽

2009 ◽

Cited By ~ 256

Author(s):

Sunpyo Hong ◽

Hyesoon Kim

Keyword(s):

Analytical Model ◽

Thread Level Parallelism ◽

Level Parallelism ◽

Gpu Architecture ◽

With Memory

Download Full-text

Thread partitioning and value prediction for exploiting speculative thread-level parallelism

IEEE Transactions on Computers ◽

10.1109/tc.2004.1261823 ◽

2004 ◽

Vol 53 (2) ◽

pp. 114-125 ◽

Cited By ~ 11

Author(s):

P. Marcuello ◽

A. Gonzalez ◽

J. Tubella

Keyword(s):

Value Prediction ◽

Thread Level Parallelism ◽

Thread Partitioning ◽

Level Parallelism

Download Full-text

GPU Performance vs. Thread-Level Parallelism

ACM Transactions on Architecture and Code Optimization ◽

10.1145/3177964 ◽

2018 ◽

Vol 15 (1) ◽

pp. 1-21 ◽

Cited By ~ 4

Author(s):

Zhen Lin ◽

Michael Mantor ◽

Huiyang Zhou

Keyword(s):

Thread Level Parallelism ◽

Level Parallelism

Download Full-text

Mechanical Verification of Transactional Memories with Non-transactional Memory Accesses

Computer Aided Verification - Lecture Notes in Computer Science ◽

10.1007/978-3-540-70545-1_13 ◽

2008 ◽

pp. 121-134 ◽

Cited By ~ 15

Author(s):

Ariel Cohen ◽

Amir Pnueli ◽

Lenore D. Zuck

Keyword(s):

Transactional Memory ◽

Mechanical Verification ◽

Memory Accesses ◽

Transactional Memories

Download Full-text

CaLRS: A Critical-Aware Shared LLC Request Scheduling Algorithm on GPGPU

The Scientific World JOURNAL ◽

10.1155/2015/848416 ◽

2015 ◽

Vol 2015 ◽

pp. 1-10

Author(s):

Jianliang Ma ◽

Jinglei Meng ◽

Tianzhou Chen ◽

Minghui Wu

Keyword(s):

Scheduling Algorithm ◽

Global Memory ◽

Request Sequence ◽

Thread Level Parallelism ◽

Level Parallelism ◽

Memory Request ◽

Request Service

Ultra high thread-level parallelism in modern GPUs usually introduces numerous memory requests simultaneously. So there are always plenty of memory requests waiting at each bank of the shared LLC (L2 in this paper) and global memory. For global memory, various schedulers have already been developed to adjust the request sequence. But we find few work has ever focused on the service sequence on the shared LLC. We measured that a big number of GPU applications always queue at LLC bank for services, which provide opportunity to optimize the service order on LLC. Through adjusting the GPU memory request service order, we can improve the schedulability of SM. So we proposed a critical-aware shared LLC request scheduling algorithm (CaLRS) in this paper. The priority representative of memory request is critical for CaLRS. We use the number of memory requests that originate from the same warp but have not been serviced when they arrive at the shared LLC bank to represent the criticality of each warp. Experiments show that the proposed scheme can boost the SM schedulability effectively by promoting the scheduling priority of the memory requests with high criticality and improves the performance of GPU indirectly.

Download Full-text

Brief Announcement: Acceleration by Contention for Shared Memory Mutual Exclusion Algorithms

Lecture Notes in Computer Science - Distributed Computing ◽

10.1007/978-3-642-04355-0_18 ◽

2009 ◽

pp. 172-173

Author(s):

Michiko Inoue ◽

Tsuyoshi Suzuki ◽

Hideo Fujiwara

Keyword(s):

Shared Memory ◽

Mutual Exclusion

Download Full-text