scholarly journals HOBFLOPS for CNNs: Hardware Optimized Bitslice-Parallel Floating-Point Operations for Convolutional Neural Networks

Author(s):  
James Garland ◽  
David Gregg

Abstract Low-precision floating-point (FP) can be highly effective for convolutional neural network (CNN) inference. Custom low-precision FP can be implemented in field programmable gate array (FPGA) and application-specific integrated circuit (ASIC) accelerators, but existing microprocessors do not generally support fast, custom precision FP. We propose hardware optimized bitslice-parallel floating-point operators (HOBFLOPS), a generator of efficient custom precision emulated bitslice-parallel software(C/C++) FP arithmetic. We generate custom-precision FP routines, optimized using a hardware synthesis design flow, to create circuits. We provide standard cell libraries matching the bitwise operations on the target microprocessor architecture and a code generator to translate the hardware circuits to bitslice software equivalents. We exploit bitslice parallelism to create a novel, very wide (32—512 element) vectorized CNN convolution for inference. On Arm and Intel processors, the multiply-accumulate (MAC) performance in CNN convolution of HOBFLOPS, Flexfloat, and Berkeley’s SoftFP are compared. HOBFLOPS outperforms Flexfloat by up to 10× on Intel AVX512. HOBFLOPS offers arbitrary-precision FP with custom range and precision, e . g ., HOBFLOPS9, which outperforms Flexfloat 9-bit on Arm Neon by 7×. HOBFLOPS allows researchers to prototype different levels of custom FP precision in the arithmetic of software CNN ac celerators. Furthermore, HOBFLOPS fast custom-precision FP CNNs may be valuable in cases where memory bandwidth is limited.

2014 ◽  
Vol 496-500 ◽  
pp. 1885-1888
Author(s):  
Jian Wei Leng ◽  
Qiong Qiong Xu

Requirement on signal processing of radar level system is higher and higher at present. Standards such as generalization, systematic and modular cannot be satisfied through traditional methods which were using software program, application specific integrated circuit (ASIC) to achieve fast flourier transform (FFT). Therefore taking advantage of field programmable gate array (FPGA) to complete FFT had been the choosing trend of most researchers. Based on arithmetic FFT raised by Cooley-Tukey, a new design scheme of base-4 FFT was put forward in this paper. The design flow of FFT was fairly simple for the rich resource and flexible intellectual property core (IP Core). Simulation and experiment results indicated that this method was easy and flexible, accuracy and reliable. And it can decrease the development period. The calculation speed was also improved greatly.


Computers ◽  
2020 ◽  
Vol 9 (3) ◽  
pp. 70
Author(s):  
Carolina Fernández ◽  
Sergio Giménez ◽  
Eduard Grasa ◽  
Steve Bunch

The lack of high-performance RINA (Recursive InterNetwork Architecture) implementations to date makes it hard to experiment with RINA as an underlay networking fabric solution for different types of networks, and to assess RINA’s benefits in practice on scenarios with high traffic loads. High-performance router implementations typically require dedicated hardware support, such as FPGAs (Field Programmable Gate Arrays) or specialized ASICs (Application Specific Integrated Circuit). With the advance of hardware programmability in recent years, new possibilities unfold to prototype novel networking technologies. In particular, the use of the P4 programming language for programmable ASICs holds great promise for developing a RINA router. This paper details the design and part of the implementation of the first P4-based RINA interior router, which reuses the layer management components of the IRATI Linux-based RINA implementation and implements the data-transfer components using a P4 program. We also describe the configuration and testing of our initial deployment scenarios, using ancillary open-source tools such as the P4 reference test software switch (BMv2) or the P4Runtime API.


2021 ◽  
Author(s):  
Χρήστος Μπακάλης

Ο Μεγάλος Επιταχυντής Αδρονίων (Large Hadron Collider (LHC)), του Ευρωπαϊκού Κέντρου Πυρηνικών Ερευνών (CERN) ξεκίνησε να επιταχύνει τις πρώτες του δέσμες το 2008. Από τις πρώτες μέρες λειτουργίας του, ο LHC έχει επιτρέψει στην επιστημονική κοινότητα να τελέσει πρωτοπόρα πειράματα, που έχουν σαν στόχο να απαντήσουν θεμελιώδη ερωτήματα για τη φύση της ύλης και της ενέργειας. Επειδή τα πειράματα φυσικής υψηλών ενεργειών είναι βασισμένα στη συλλογή δεδομένων μεγάλης κλίμακας, η αύξηση του ρυθμού αντιδράσεων θεωρείται θέμα μείζονας σημασίας. Όσο πιο υψηλός ο ρυθμός αλληλεπιδράσεων, τόσο περισσότερα δεδομένα καταγράφονται, και σπάνια φαινόμενα που υπό άλλες συνθήκες θα επικαλύπτονταν από άλλες διεργασίες, περισσότερο συχνές, θα μπορέσουν να μελετηθούν. Για το λόγο αυτό, ο LHC θα προβεί στις ανάλογες αναβαθμίσεις, οι οποίες θα αυξήσουν την ενέργεια κέντρου μάζας, και την φωτεινότητά του. Επιπλέον αναβαθμίσεις που θα οδηγήσουν στην Phase-II 2026-2038, θα αυξήσουν τη φωτεινότητα ακόμα περισσότερο, με την ενέργεια κέντρου μάζας να φτάνει τα 14 TeV. Η αύξηση της φωτεινότητας θα οδηγήσει και σε αύξηση του ρυθμού αλληλεπιδράσεων, άρα και στη ροή σωματιδίων που διαπερνούν τους ανιχνευτές του μεγάλου επιταχυντή αδρονίων. Για αυτό το λόγο ο ανιχνευτής Toroidal LHC ApparatuS (ATLAS), που είναι ο μεγαλύτερος του LHC, θα αντικαταστήσει τα εσωτερικά καπάκια του μιονικού φασματομέτρου κατά τη διάρκεια της δεύτερης μεγάλης παύσης. Η αναβάθμιση New Small Wheel (NSW) όπως καλείται, θα αποτελείται από δύο τεχνολογίες ανιχνευτών, τους Micromegas (MM) και τους small-strip Thin Gap Chambers (sTGC). Ο NSW έχει σχεδιαστεί να υπομένει το αυξημένο υπόβαθρο λόγω των αναβαθμίσεων του επιταχυντή, προσφέροντας δεδομένα ανακατασκευής τροχιών μιονίων στον ATLAS, καθώς και πληροφορίες σκανδαλισμού. Ο ακρογωνιαίος λίθος του συστήματος ανάγνωσης δεδομένων του NSW, είναι το VMM Application-Specific Integrated Circuit (ASIC), μία ηλεκτρονική μονάδα που θα χρησιμοποιηθεί και από τις δύο τεχνολογίες ανιχνευτών του NSW. Λόγω του σχεδιασμού του, το VMM έχει προταθεί και σε μία πληθώρα άλλων πειραμάτων που κάνουν χρήση ανάλογων ανιχνευτικών συστημάτων. Το VMM αποτελείται από 64 ανεξάρτητα κανάλια, κάθε ένα εκ των οποίων προβαίνει σε μετρήσεις ακριβείας πάνω στους ηλεκτρονικούς παλμούς που δημιουργούνται από τους ανιχνευτές όταν διαπεραστούν από μιόνια, ενώ προσφέρει και γρήγορα δεδομένα για το σύστημα σκανδαλισμού του ATLAS. Η πρώτη έκδοση του VMM έκανε την εμφάνισή του το 2012, και μετά από τέσσερις εκδόσεις, αποφάνθηκε ότι είναι έτοιμο να εξυπηρετήσει τις ανάγκες του NSW. Καμία από αυτές τις αναβαθμίσεις δεν θα μπορούσε να είχε ολοκληρωθεί, αν δεν υπήρχε μία αξιόπιστη πλατφόρμα χαρακτηρισμού της μονάδας. Αυτή η πλατφόρμα ήρθε στη μορφή του VMM Readout System (VRS), που κάνει χρήση μονάδων Field-Programmable Gate Array (FPGA), προκειμένου να ληφθούν τα δεδομένα από το VMM, και να διαμορφωθεί τη λειτουργία του. Με έμφαση στην ευελιξία, το υλικολογισμικό των FPGA του VRS, είχε σχεδιαστεί με τέτοιο τρόπο προκειμένου να εξυπηρετήσει διάφορα σενάρια λήψης δεδομένων (π.χ. εργαστηριακές συνθήκες χωρίς ανιχνευτή, ή τεστ-δέσμης). Ένα μεγάλο κομμάτι της παρούσας διατριβής αφιερώνεται στην περιγραφή της αρχιτεκτονικής του εν λόγω υλικολογισμικού, που αναπτύχθηκε για να καλύψει τις ανάγκες της αναβάθμισης του ATLAS NSW. Το σύστημα χρησιμοποιήθηκε για να επιβεβαιώσει την ορθή λειτουργία του VMM, να κάνει τον μαζικό έλεγχο των τελικών μονάδων του VMM πριν αυτά εγκατασταθούν στον ATLAS, και να λάβει τα δεδομένα από το VMM, μαζί με τον ανιχνευτή Micromegas, σε συνθήκες τεστ-δέσμης. Μετά την παραγωγή των τελικών μονάδων ASIC που διαβάζουν και διαμορφώνουν τις λειτουργίες του VMM στο πείραμα ATLAS, το σύστημα που βασιζόταν σε FPGA αντικαταστάθηκε από το τελικό, που είχε σα βάση ένα σύστημα λήψης δεδομένων επόμενης γενιάς, που ονομάζεται Front-End LInk eXchange (FELIX). Ένα ποσοστό της παρούσας εργασίας περιγράφει τα εργαλεία λογισμικού που αναπτύχθηκαν προκειμένου να διευκολυνθεί η διαδικασία ενσωμάτωσης του ηλεκτρονικού συστήματος του NSW με το FELIX. Επίσης, τα εν λόγω πακέτα λογισμικού χρησιμοποιήθηκαν και για στη διαδικασία ελέγχου της ορθής λειτουργίας των τελικών ανιχνευτών του Micromegas, πριν αυτοί εγκατασταθούν στον ATLAS, καθώς τα δεδομένα τους λαμβάνονταν από το τελικό σύστημα λήψης δεδομένων. Το τελευταίο Κεφάλαιο της παρούσας διατριβής, αφιερώνεται στην περιγραφή του Slow Control Adapter eXtension (SCAX), το οποίο είναι ένα πακέτο υλικολογισμικού που ενσωματώνεται σε ένα FPGA και μιμείται μία βασική ηλεκτρονική μονάδα του NSW, ονόματι SCA ASIC. Το SCA είναι μια μονάδα που βρίσκεται στα ηλεκτρονικά του NSW, και χρησιμοποιείται για τη διαμόρφωση των λειτουργιών όλων των άλλων μονάδων ASIC του συστήματος. To SCAX από την άλλη, έχει σχεδιαστεί για να υποστηρίξει FPGA που είναι επίσης μέρος του συστήματος ηλεκτρονικών του ATLAS, και βρίσκονται μακριά από περιοχές υψηλής ραδιενέργειας. Δίνει τη δυνατότητα στο χρήστη του να γράψει παραμέτρους διαμόρφωσης λειτουργιών στη λογική του FPGA που βρίσκεται, και να αναγνώσει τιμές κατάστασης από καταχωρητές του υπόλοιπου υλικολογισμικού. Το SCAX μιμείται το πρωτόκολλο I2C που το SCA χρησιμοποιεί για να επικοινωνήσει με άλλες συσκευές, ενώ επίσης μιμείται και το πρωτόκολλο μεταξύ αυτού και του συστήματος FELIX. Με αυτόν τον τρόπο, επιτρέπει τη χρήση της ήδη υπάρχουσας υποδομής λογισμικού και ηλεκτρονικών, ώστε να διαμορφώσει τις λειτουργίες του FPGA μέσα στο οποίο έχει υλοποιηθεί. Το SCAX χρησιμοποιείται από τον επεξεργαστή σκανδαλισμού του NSW, και μπορεί να χρησιμοποιηθεί από οποιοδήποτε FPGA που επικοινωνεί με το FELIX.


2013 ◽  
Vol 3 (4) ◽  
Author(s):  
K. Rahimunnisa ◽  
P. Karthigaikumar ◽  
N. Christy ◽  
S. Kumar ◽  
J. Jayakumar

AbstractAs the technology is growing day by day, information security plays a very important role in our lives. In order to protect the information, several cryptographic algorithms have been proposed. The aim of this paper is to present an effective Advanced Encryption Standard (AES) architecture to achieve high throughput for security applications. The Parallel Sub-Pipelined architecture (PSP) is proposed in order to obtain high throughput. The proposed architecture is also compared with loop unrolled, pipelined, sub-pipelined, parallel and parallel pipelined architecture in terms of throughput. The AES algorithm using Parallel Sub-Pipelined architecture was prototyped in FPGA (Field Programmable Gate Array) and ASIC (Application Specific Integrated Circuit).The proposed architecture yielded a throughput of 59.59 Gbps at a frequency of 450.045 MHz on FPGA Virtex XC6VLX75T which is higher than the throughput yielded in other architectures. In ASIC 0.13 µm technology, the proposed architecture yielded a throughput of 25.60 Gbps and in 0.18 µm, it yielded a throughput of 20.56 Gbps.


2019 ◽  
Vol 8 (2) ◽  
pp. 3476-3482

Technologies to design an embedded system can be of three types: processor technology, IC technology & design technology. Billions of computing systems are built every year for a variety of purpose. They are built within larger electronic devices. These systems perform a one particular function on regular basis. These systems do not recognized by the device’s user. These systems are known as embedded system. Broad categories for system implementation are: Application Specific Integrated Circuit, Field Programmable Gate Array, CoProcessor, Application Specific Instruction Processor and General Purpose Processor. From the network processor’s designing point of view, it is very important to understand the preliminary characteristics of network applications which are generally based on address lookup, pattern matching, and queuing management which is further classified as Control plane and Data Plane processing.


2020 ◽  
Vol 10 (1) ◽  
pp. 3
Author(s):  
Arielle Verri Lucca ◽  
Guilherme Augusto Mariano Sborz ◽  
Valderi Reis Quietinho Leithardt ◽  
Marko Beko ◽  
Cesar Albenes Zeferino ◽  
...  

Cryptography is considered indispensable among security measures applied to data concerning insecure means of transmission. Among various existent algorithms on asymmetric cryptography, we may cite Elliptic Curve Cryptography (ECC), which has been widely used due to its security level and reduced key sizes. When compared to Rivest, Shamir and Adleman (RSA), for example, ECC can maintain security levels with a shorter key. Elliptic Curve Point Multiplication (ECPM) is the main function in ECC, and is the component with the highest hardware cost. Lots of ECPM implementations have been applied on hardware targeting the acceleration of its calculus. This article presents a systematic review of literature on ECPM implementations on both Field-Programmable Gate Array (FPGA) and Application-Specific Integrated Circuit (ASIC). The obtained results show which methods and technologies have been used to implement ECPM on hardware and present some findings of the choices available to the hardware designers.


Electronics ◽  
2021 ◽  
Vol 10 (6) ◽  
pp. 679
Author(s):  
Jongpal Kim

An instrumentation amplifier (IA) capable of sensing both voltage and current at the same time has been introduced and applied to electrocardiogram (ECG) and photoplethysmogram (PPG) measurements for cardiovascular health monitoring applications. The proposed IA can switch between the voltage and current sensing configurations in a time–division manner faster than the ECG and PPG bandwidths. The application-specific integrated circuit (ASIC) of the proposed circuit design was implemented using 180 nm CMOS fabrication technology. Input-referred voltage noise and current noise were measured as 3.9 µVrms and 172 pArms, respectively, and power consumption was measured as 34.9 µA. In the current sensing configuration, a current noise reduction technique is applied, which was confirmed to be a 25 times improvement over the previous version. Using a single IA, ECG and PPG can be monitored in the form of separated ECG and PPG signals. In addition, for the first time, a merged ECG/PPG signal is acquired, which has features of both ECG and PPG peaks.


1994 ◽  
Vol 04 (04) ◽  
pp. 501-516 ◽  
Author(s):  
BOGDAN T. FIJALKOWSKI ◽  
JAN W. KROSNICKI

Concepts of the electronically-controlled electromechanical/mechanoelectrical Steer-, Autodrive- and Autoabsorbable Wheels (SA2W) with their brushless Alternating Current-to-Alternating Current (AC-AC), Alternating Current-to-Direct Current-Alternating Current (AC-DC-AC) and/or Direct Current-to-Alternating Current (DC-AC)/Alternating Current-to-Direct Current (AC-DC) macroelectronic converter commutator (macro-commutator) wheel-hub motors/generators with the Application Specific Integrated Matrixer (ASIM) macroelectronic converter commutators (ASIM macrocommutators) and Application Specific Integrated Circuit (ASIC) microelectronic Neuro-Fuzzy (NF) computer (processor) controllers (ASIC NF microcontrollers) for environmentally-friendly tri-mode supercars (advanced ultralight hybrids) have been conceived by the first author and designed by both authors with the Cracow University of Technology’s Automotive Mechatronics Research and Development (R&D) Team. These electromechanical/mechanoelectrical wheel-hub motors/generators, respectively, for instance, can be composed of the outer rotor with the Interior Permanent Magnet (IPM) poles and the inner stator that has the three-phase armature winding. The macroelectronic converter commutator establishes the AC-AC cycloconverter, AC-DC rectifier-DC-AC inverter and/or DC-AC inverter/AC-DC rectifier ASIM macrocommutator. The microelectronic NF computer (processor) controller establishes the ASIC microcomputer-based NF microcontroller. By adopting continuous semiconductor bipolar electrical valves in the high-power ASIM, it has been able to increase the commutation (switching) frequency and reduce harmonic losses of the electromechanical/mechanoelectrical wheel-hub motors/generators, respectively.


Sign in / Sign up

Export Citation Format

Share Document