Efficient algorithms and architectures for protein 3-D structure comparison

Mapping Intimacies ◽

10.12681/eadd/44985 ◽

2018 ◽

Author(s):

Σάρμα Ανούτζ

Keyword(s):

Protein Structure ◽

Nearest Neighbor ◽

Network On Chip ◽

Consensus Methods ◽

Structure Comparison ◽

Protein Structure Comparison ◽

Class D ◽

On Chip ◽

Many Core ◽

F Measure

Η σύγκριση πρωτεϊνών με βάση τη δομή τους (protein structure comparison, PSC) αποτελεί τομέα της υπολογιστικής πρωτεομικής με ενεργό ενδιαφέρον καθότι χρησιμοποιείται ευρέως στη δομική βιολογία και την ανακάλυψη νέων φαρμάκων. Η ταχεία αύξηση των υπολογιστικών απαιτήσεων για τη σύγκριση πρωτεϊνικών δομών είναι αποτέλεσμα τριών κυρίως παραγόντων: ταχεία επέκταση των βάσεων δεδομένων με νέες δομές πρωτεϊνών, υψηλή υπολογιστική πολυπλοκότητα των αλγορίθμων σύγκρισης δύο πρωτεινών, τάση στον τομέα για χρήση πολλαπλών μεθόδων σύγκρισης και συνδυασμό των αποτελεσμάτων τους (multicriteria PSC, MCPSC) σε ένα σκορ συναίνεσης (consensus methods). Παρά την μεγάλη πρόοδο, εξακολουθούν να υπάρχουν ανοικτές προκλήσεις στην εφαρμογή MCPSC τεχνικών σε ευρεία κλίμακα. Πρώτον, η επιτάχυνση της λειτουργίας MCPSC με τη χρήση σύγχρονων αρχιτεκτονικών επεξεργαστών πολλών πυρήνων παραμένει κατά πολύ ανεξερεύνητη. Δεύτερον, η εφαρμογή μέθόδων MCPSC στη ταξινόμηση νεων δομών πρωτεϊνών είναι περιορισμένη λόγω του υπολογιστικού κόστους και της ανάγκης χρήσης υπερυπολογιστικών δομών. Τέλος, υπάρχει έλλειψη ελεύθερα διαθέσιμων εργαλείων βιοπληροφορικής που να υποστηρίζουν τη συστηματική σύγκριτική ανάλυση και κατηγοριοποίηση μεγάλων συνόλων πρωτεϊνών με βάση τη δομή τους σε κοινούς υπολογιστές.Προκειμένου να αντιμετωπιστούν αυτές οι σημαντικές προκλήσεις, σε αυτή την διατριβή αναπτύξαμε πλαίσιο λογισμικού που εκμεταλλεύεται σύγχρονους επεξεργαστές (CPUs) για την αποδοτική υλοποίηση παράλληλων MCPSC τεχνικών βασισμένων σε τρεις δημοφιλείς μεθόδους PSC, τις TMalign, CE και USM. Συγκρίνουμε και αξιολογούμε την απόδοση και την αποδοτικότητα δύο παράλληλων υλοποιήσεων, μια για τον επεξεργαστή αρχιτεκτονικής many-core Intel Single Cloud Computer (SCC) με 48 πυρήνες οργανωμένους σε δίκτυο πλέγματος (Network on Chip), και μια και για τον γνωστό επεξεργαστή Intel Core i7 πολλαπλών πυρήνων (multi-core CPU). Επιπλέον, αναπτύξαμε Python εφαρμογή, που ονομάζεται pyMCPSC, και επιτρέπει στους χρήστες να εκτελούν εύκολα υπολογιστικά πειράματα βασισμένα σε MCPSC με μεγάλα σύνολα δεδομένων, αξιοποιώντας τον παραλληλισμό που προσφέρουν οι επεξεργαστές πολλαπλών πυρήνων των σημερινών επιτραπέζιων υπολογιστών. Δείχνουμε πώς το pyMCPSC, το οποίο συνδυάζει πέντε δημοφιλείς μεθόδους PSC για τη δημιουργία πέντε διαφορετικών σκορ συναίνεσης (consensus scores), επιταχύνει σημαντικά και διευκολύνει την συγκριτική ανάλυση μεγάλων συνόλων δεδομένων με δομές πρωτεϊνών. Επιπλέον μπορεί να επεκταθεί εύκολα ώστε να ενσωματώνει στους αλγόριθμους συναίνεση και νέες μεθόδους PSC που μπορεί να προταθούν μελλοντικά καθώς ο τομέας εξελίσσεται.Τα αποτελέσματα συγκριτικής ανάλυσής δείχνουν ότι ο επεξεργαστής Intel SCC με 48 πυρήνες (Network on Chip) είναι πιο αποδοτικός από την τελευταίας γενιάς Core i7 CPU, επιτυγχάνοντας συντελεστή επιτάχυνσης 42 (απόδοση 0,9), και καθιστώντας τους επεξεργαστές αρχιτεκτονικής many-core τεχνολογία επιλογής για την υπολογιστική δομική πρωτεομική μεγάλης κλίμακας. Επιπλέον, δείχνουμε ότι το MCPSC ξεπερνά τις μεθόδους PSC στις οποίες στηρίζεται ως προς την επιτυχία της ομαδοποίησης νεων πρωτεϊνών, επιτυγχάνοντας F-measure 0,91 στο σύνολο δεδομένων αναφοράς CK34. Επιπλέον, δείχνουμε, με τη χρήση του συνόλου δεδομένων Proteus300, ότι οι τεχνικές MCPSC που αναπτύχθηκαν βελτιωνουν την κατηγοριοποίηση πρωτεϊνών, όπως αυτό αποδεικνύεται τόσο από την ανάλυση ROC όσο και από την ανάλυση κοντινότερων γειτόνων (Nearest-Neighbor). Επιπλεον. τα ”φυλογενετικά δέντρα” που προκύπτουν με τη χρηση MCPSC παρέχουν χρήσιμες πληροφορίες και σχετικά με τη πιθανή λειτουργικότητα νεων πρωτεϊνών. Τέλος, η συγκριτική ανάλυση αναδεικνύει την ύπαρξη ισχυρής συσχέτισης πρωτεϊνικών δομών της κατηγορίας SCOP class C και χαλαρής συσχέτισης μεταξύ εκείνων της κατηγορίας SCOP class D (Proteus300). Τέτοιου είδους ενδελεχείς αναλύσεις δεδομένων και οι αντίστοιχες οπτικοποιήσεις που τις συνοδεύουν βοηθούν τους χρήστες να εξερευνούν και να εξάγουν γνώση από σύνολα δεδομένων που αναλύουν, όσο μεγάλα κι αν είναι αυτά. Δειχνουμε ότι ακόμη και σε πολύ μεγάλα σύνολα δεδομένων, με χιλιάδες domains (όπως το SCOPCATH), μπορεί να εφαρμοστεί αποδοτικά MCPSC επεξεργασία προκειμένου να διερευνηθεί η εσωτερική δομή τους, αξιοποιώντας τους επεξεργαστές πολλών πυρήνων που υπάρχουν σήμερα στους ατομικούς υπολογιστες. Το pyMCPSC που υλοποιεί παράλληλα όλη την υπολογιστική ροή (pipeline) που αξιοποιεί μεθόδους MCPSC οι οποίες αναπτύχθηκαν σε αυτή την διδακτορική διατριβή διατίθεται ελεύθερα στη επιστημονική κοινότητα στο σύνδεσμο https://github.com/xulesc/pymcpsc.

Efficient Multicriteria Protein Structure Comparison on Modern Processor Architectures

BioMed Research International ◽

10.1155/2015/563674 ◽

2015 ◽

Vol 2015 ◽

pp. 1-13 ◽

Cited By ~ 2

Author(s):

Anuj Sharma ◽

Elias S. Manolakos

Keyword(s):

Protein Structure ◽

Large Scale ◽

Protein Structures ◽

Structural Proteomics ◽

Single Chip ◽

Structure Comparison ◽

Protein Structure Comparison ◽

Processor Architectures ◽

Comparison Algorithms ◽

Many Core

Fast increasing computational demand for all-to-all protein structures comparison (PSC) is a result of three confounding factors: rapidly expanding structural proteomics databases, high computational complexity of pairwise protein comparison algorithms, and the trend in the domain towards using multiple criteria for protein structures comparison (MCPSC) and combining results. We have developed a software framework that exploits many-core and multicore CPUs to implement efficient parallel MCPSC in modern processors based on three popular PSC methods, namely, TMalign, CE, and USM. We evaluate and compare the performance and efficiency of the two parallel MCPSC implementations using Intel’s experimental many-core Single-Chip Cloud Computer (SCC) as well as Intel’s Core i7 multicore processor. We show that the 48-core SCC is more efficient than the latest generation Core i7, achieving a speedup factor of 42 (efficiency of 0.9), making many-core processors an exciting emerging technology for large-scale structural proteomics. We compare and contrast the performance of the two processors on several datasets and also show that MCPSC outperforms its component methods in grouping related domains, achieving a highF-measure of 0.91 on the benchmark CK34 dataset. The software implementation for protein structure comparison using the three methods and combined MCPSC, along with the developed underlyingrckskelalgorithmic skeletons library, is available via GitHub.

ProCKSI: a decision support system for Protein (Structure) Comparison, Knowledge, Similarity and Information

BMC Bioinformatics ◽

10.1186/1471-2105-8-416 ◽

2007 ◽

Vol 8 (1) ◽

pp. 416 ◽

Cited By ~ 40

Author(s):

Daniel Barthel ◽

Jonathan D Hirst ◽

Jacek Błażewicz ◽

Edmund K Burke ◽

Natalio Krasnogor

Keyword(s):

Decision Support ◽

Protein Structure ◽

Decision Support System ◽

Support System ◽

Structure Comparison ◽

Protein Structure Comparison ◽

Knowledge Similarity

FoToNoC: A Folded Torus-Like Network-on-Chip Based Many-Core Systems-on-Chip in the Dark Silicon Era

IEEE Transactions on Parallel and Distributed Systems ◽

10.1109/tpds.2016.2643669 ◽

2017 ◽

Vol 28 (7) ◽

pp. 1905-1918 ◽

Cited By ~ 16

Author(s):

Lei Yang ◽

Weichen Liu ◽

Weiwen Jiang ◽

Mengquan Li ◽

Peng Chen ◽

...

Keyword(s):

Network On Chip ◽

Dark Silicon ◽

Systems On Chip ◽

On Chip ◽

Many Core

Algorithmic re-structuring and data replication for protein structure comparison on a GRID

Future Generation Computer Systems ◽

10.1016/j.future.2006.03.029 ◽

2007 ◽

Vol 23 (3) ◽

pp. 391-397

Author(s):

G. Ciriello ◽

M. Comin ◽

C. Guerra

Keyword(s):

Protein Structure ◽

Data Replication ◽

Structure Comparison ◽

Protein Structure Comparison

Multi-criteria protein structure comparison and structural similarities analysis using pyMCPSC

PLoS ONE ◽

10.1371/journal.pone.0204587 ◽

2018 ◽

Vol 13 (10) ◽

pp. e0204587 ◽

Cited By ~ 1

Author(s):

Anuj Sharma ◽

Elias S. Manolakos

Keyword(s):

Protein Structure ◽

Structure Comparison ◽

Protein Structure Comparison

Protein structure comparison

Protein Geometry, Classification, Topology and Symmetry - Series in Biophysics ◽

10.1201/9781420033632.ch6 ◽

2004 ◽

Keyword(s):

Protein Structure ◽

Structure Comparison ◽

Protein Structure Comparison

TS-AMIR: a topology string alignment method for intensive rapid protein structure comparison

Algorithms for Molecular Biology ◽

10.1186/1748-7188-7-4 ◽

2012 ◽

Vol 7 (1) ◽

Cited By ~ 6

Author(s):

Jafar Razmara ◽

Safaai Deris ◽

Sepideh Parvizpour

Keyword(s):

Protein Structure ◽

Alignment Method ◽

Structure Comparison ◽

Protein Structure Comparison ◽

String Alignment

Hybrid silicon-photonic network-on-chip for future generations of high-performance many-core systems

The Journal of Supercomputing ◽

10.1007/s11227-015-1539-0 ◽

2015 ◽

Vol 71 (12) ◽

pp. 4446-4475 ◽

Cited By ~ 12

Author(s):

Achraf Ben Ahmed ◽

Abderazek Ben Abdallah

Keyword(s):

High Performance ◽

Network On Chip ◽

Future Generations ◽

Photonic Network ◽

Silicon Photonic ◽

Hybrid Silicon ◽

On Chip ◽

Many Core

Machine learning for design and optimization challenges in multi/many-core network-on-chip

10.1145/3477231.3490427 ◽

2021 ◽

Author(s):

Md Farhadur Reza

Keyword(s):

Machine Learning ◽

Network On Chip ◽

Core Network ◽

Design And Optimization ◽

On Chip ◽

Many Core

A Novel Hybrid Cache Coherence with Global Snooping for Many-core Architectures

ACM Transactions on Design Automation of Electronic Systems ◽

10.1145/3462775 ◽

2022 ◽

Vol 27 (1) ◽

pp. 1-31

Author(s):

Sri Harsha Gade ◽

Sujay Deb

Keyword(s):

Lower Energy ◽

Cache Coherence ◽

Network On Chip ◽

Highly Efficient ◽

Wireless Links ◽

Coherence Protocols ◽

High Area ◽

On Chip ◽

Many Core ◽

Clustered Network

Cache coherence ensures correctness of cached data in multi-core processors. Traditional implementations of existing protocols make them unscalable for many core architectures. While snoopy coherence requires unscalable ordered networks, directory coherence is weighed down by high area and energy overheads. In this work, we propose Wireless-enabled Share-aware Hybrid (WiSH) to provide scalable coherence in many core processors. WiSH implements a novel Snoopy over Directory protocol using on-chip wireless links and hierarchical, clustered Network-on-Chip to achieve low-overhead and highly efficient coherence. A local directory protocol maintains coherence within a cluster of cores, while coherence among such clusters is achieved through global snoopy protocol. The ordered network for global snooping is provided through low-latency and low-energy broadcast wireless links. The overheads are further reduced through share-aware cache segmentation to eliminate coherence for private blocks. Evaluations show that WiSH reduces traffic by and runtime by , while requiring smaller storage and lower energy as compared to existing hierarchical and hybrid coherence protocols. Owing to its modularity, WiSH provides highly efficient and scalable coherence for many core processors.