A Profile Guided Approach to Optimize Branch Divergence While Transforming Applications for GPUs

With financial modelling requiring a better understanding of model risk, it is helpful to be able to vary assumptions about underlying probability distributions in an efficient manner, preferably without the noise induced by resampling distributions managed by Monte Carlo methods. This paper presents differential equations and solution methods for the functions of the form Q(x) = F−1(G(x)), where F and G are cumulative distribution functions. Such functions allow the direct recycling of Monte Carlo samples from one distribution into samples from another. The method may be developed analytically for certain special cases, and illuminate the idea that it is a more precise form of the traditional Cornish–Fisher expansion. In this manner the model risk of distributional risk may be assessed free of the Monte Carlo noise associated with resampling. The method may also be regarded as providing both analytical and numerical bases for doing more precise Cornish–Fisher transformations. Examples are given of equations for converting normal samples to Student t, and converting exponential to normal. In the case of the normal distribution, the change of variables employed allows the sampling to take place to good accuracy based on a single rational approximation over a very wide range of sample space. The avoidance of branching statements is of use in optimal graphics processing unit (GPU) computations as it avoids the effect of branch divergence. We give a branch-free normal quantile that offers performance improvements in a GPU environment while retaining the best precision characteristics of well-known methods. We also offer models with low probability branch divergence. Comparisons of new and existing forms are made on Nvidia GeForce GTX Titan and Tesla C2050 GPUs. We argue that in both single- and double-precisions, the change-of-variables approach offers the most GPU-optimal Gaussian quantile yet, working faster than the Cuda 5.5 built-in function.

Download Full-text

Improving branch divergence performance on GPGPU with a new PDOM stack and multi-level warp scheduling

Journal of Systems Architecture ◽

10.1016/j.sysarc.2013.11.008 ◽

2014 ◽

Vol 60 (5) ◽

pp. 420-430 ◽

Cited By ~ 1

Author(s):

Licheng Yu ◽

Xingsheng Tang ◽

Minghui Wu ◽

Tianzhou Chen

Keyword(s):

Multi Level ◽

Branch Divergence

Download Full-text

Branch Divergence Reduction Based on Code Motion

Journal of Information Processing ◽

10.2197/ipsjjip.28.302 ◽

2020 ◽

Vol 28 (0) ◽

pp. 302-309 ◽

Cited By ~ 1

Author(s):

Junji Fukuhara ◽

Munehiro Takimoto

Keyword(s):

Code Motion ◽

Branch Divergence

Download Full-text

On-GPU thread-data remapping for nested branch divergence

Journal of Parallel and Distributed Computing ◽

10.1016/j.jpdc.2020.02.003 ◽

2020 ◽

Vol 139 ◽

pp. 75-86 ◽

Cited By ~ 1

Author(s):

Huanxin Lin ◽

Cho-Li Wang

Keyword(s):

Data Remapping ◽

Branch Divergence

Download Full-text

Using program branch probability for the thread parallelisation of branch divergence on the CUDA platform

International Journal of Autonomous and Adaptive Communications Systems ◽

10.1504/ijaacs.2018.10013261 ◽

2018 ◽

Vol 11 (2) ◽

pp. 171

Author(s):

Caifeng Zou ◽

Huifang Deng ◽

Hong Yao

Keyword(s):

Branch Divergence

Download Full-text

Reducing branch divergence in GPU programs

Proceedings of the Fourth Workshop on General Purpose Processing on Graphics Processing Units - GPGPU-4 ◽

10.1145/1964179.1964184 ◽

2011 ◽

Cited By ~ 82

Author(s):

Tianyi David Han ◽

Tarek S. Abdelrahman

Keyword(s):

Branch Divergence

Download Full-text

Thread Similarity Matrix: Visualizing Branch Divergence in GPGPU Programs

2016 45th International Conference on Parallel Processing (ICPP) ◽

10.1109/icpp.2016.27 ◽

2016 ◽

Author(s):

Zhibin Yu ◽

Lieven Eeckhout ◽

Chengzhong Xu

Keyword(s):

Similarity Matrix ◽

Branch Divergence

Download Full-text

Do trees have constant branch divergence angles?

Journal of Theoretical Biology ◽

10.1016/j.jtbi.2020.110567 ◽

2020 ◽

pp. 110567

Author(s):

Robert M. Beyer ◽

David Basler ◽

Pasi Raumonen ◽

Mikko Kaasalainen ◽

Hans Pretzsch

Keyword(s):

Branch Divergence

Download Full-text

A GPU performance estimation model based on micro-benchmarks and black-box kernel profiling

10.12681/eadd/41390 ◽

2017 ◽

Author(s):

Ηλίας Κωνσταντινίδης

Keyword(s):

Black Box ◽

Performance Estimation ◽

Memory Access ◽

Estimation Model ◽

Model Based ◽

Performance Estimation Model ◽

Access Patterns ◽

Branch Divergence

Κατά την τελευταία δεκαετία, οι επεξεργαστές γραφικών (GPUs) έχουν εδραιωθεί στον τομέα των υπολογιστικών συστημάτων υψηλής απόδοσης ως επιταχυντές υπολογισμών. Τα βασικά χαρακτηριστικά που δικαιολογούν αυτή τη σύγχρονη τάση είναι η εξαιρετικά υψηλή υπολογιστική απόδοση τους και η αξιοσημείωτη ενεργειακή αποδοτικότητα τους. Ωστόσο, η απόδοση τους είναι πολύ ευαίσθητη σε πολλούς παράγοντες, όπως π.χ. τον τύπο των μοτίβων πρόσβασης στη μνήμη (memory access patterns), την απόκλιση διακλαδώσεων (branch divergence), τον βαθμό παραλληλισμού και τις δυνητικές καθυστερήσεις (latencies). Συνεπώς, ο χρόνος εκτέλεσης ενός πυρήνα (kernel) σε ένα επεξεργαστή γραφικών είναι ένα δύσκολα προβλέψιμο μέγεθος. Στην περίπτωση που η απόδοση του πυρήνα δεν περιορίζεται από καθυστερήσεις, μπορεί να παρασχεθεί μια χονδρική εκτίμηση του χρόνου εκτέλεσης σε ένα συγκεκριμένο επεξεργαστή εφαρμόζοντας το μοντέλο γραμμής-οροφής (roofline), το οποίο χρησιμοποιείται για να αντιστοιχίσει την ένταση υπολογισμών του προγράμματος στην μέγιστη αναμενόμενη απόδοση για ένα συγκεκριμένο επεξεργαστή. Αν και αυτή η προσέγγιση είναι απλή, δεν μπορεί να παρέχει ακριβή αποτελέσματα πρόβλεψης.Σε αυτή τη διατριβή, μετά την επαλήθευση της αρχής του μοντέλου γραμμής-οροφής σε επεξεργαστές γραφικών με τη χρήση ενός μικρο-μετροπρογράμματος, προτείνεται ένα αναλυτικό μοντέλο απόδοσης. Συγκεκριμένα, βελτιώνεται το μοντέλο γραμμής-οροφής ακολουθώντας μια ποσοτική προσέγγιση και παρουσιάζεται μία πλήρως αυτοματοποιημένη μέθοδος πρόβλεψης απόδοσης σε επεξεργαστή γραφικών. Από αυτή την άποψη, το προτεινόμενο μοντέλο χρησιμοποιεί την αξιολόγηση μέσω μικρο-μετροπρογραμμάτων και την καταγραφή μετρικών με μέθοδο «μαύρου κουτιού», καθώς δεν απαιτείται διερεύνηση του πηγαίου/δυαδικού κώδικα. Το προτεινόμενο μοντέλο συνδυάζει τις παραμέτρους του επεξεργαστή γραφικών και του πυρήνα για να χαρακτηρίσει τον παράγοντα περιορισμού της απόδοσης και να προβλέψει το χρόνο εκτέλεσης στο στοχευόμενο υλικό, λαμβάνοντας υπόψη την αποδοτικότητα των ωφελίμων υπολογιστικών εντολών. Επιπλέον, προτείνεται η οπτική αναπαράσταση «διαμοιρασμού-τεταρτημορίου» (“quadrant-split”), η οποία αποδίδει τα χαρακτηριστικά πολλών επεξεργαστών σε σχέση με έναν συγκεκριμένο πυρήνα.Η πειραματική αξιολόγηση συνδυάζει δοκιμαστικές εκτελέσεις σε υπολογισμούς μορίων (κόκκινο/μαύρο SOR, LMSOR), πολλαπλασιασμό πινάκων (SGEMM) και ένα σύνολο 28 πυρήνων της σουίτας μετροπρογραμμάτων Rodinia, όλα εφαρμοσμένα σε έξι επεξεργαστές γραφικών CUDA. Το παρατηρηθέν απόλυτο σφάλμα στις προβλέψεις ήταν 27,66% στη μέση περίπτωση. Διερευνήθηκαν και αιτιολογήθηκαν ιδιαίτερες περιπτώσεις εσφαλμένων προβλέψεων. Επιπλέον, το προαναφερθέν μικρο-μετροπρόγραμμα χρησιμοποιήθηκε ως αντικείμενο για την πρόβλεψη απόδοσης και τα αποτελέσματα ήταν πολύ ακριβή. Προσθέτως, το μοντέλο απόδοσης εξετάστηκε σε σύνθετο περιβάλλον μεταξύ διαφορετικών κατασκευαστών, εφαρμόζοντας τη μέθοδο πρόβλεψης στους ίδιους πηγαίους κώδικες πυρήνων μέσω του περιβάλλοντος προγραμματισμού HIP που υποστηρίζεται από την πλατφόρμα AMD ROCm. Τα σφάλματα πρόβλεψης ήταν συγκρίσιμα αυτών των πειραμάτων του περιβάλλοντος CUDA, παρά τις σημαντικές διαφορές αρχιτεκτονικής που παρατηρούνται μεταξύ των διαφορετικών κατασκευαστών επεξεργαστών γραφικών.

Download Full-text