scholarly journals A Lightweight AES Coprocessor Based on RISC-V Custom Instructions

2021 ◽  
Vol 2021 ◽  
pp. 1-13
Author(s):  
Lihang Pan ◽  
Guoqing Tu ◽  
Shubo Liu ◽  
Zhaohui Cai ◽  
Xingxing Xiong

With the increasing popularity of the Internet of Things (IoT), the issue of its information security has drawn more and more attention. To overcome the resource constraint barrier for secure and reliable data transmission on the widely used IoT devices such as wireless sensor network (WSN) nodes, many researcher studies consider hardware acceleration of traditional cryptographic algorithms as one of the effective methods. Meanwhile, as one of the current research topics in the reduced instruction set computer (RISC), RISC-V provides a solid foundation for implementing domain-specific architecture (DSA). To this end, we propose an extended instruction scheme for the advanced encryption standard (AES) based on RISC-V custom instructions and present a coprocessor designed on the open-source core Hummingbird E203. The AES coprocessor uses direct memory access channels to achieve parallel data access and processing, which provides flexibility in memory space allocation and improves the efficiency of cryptographic components. Applications with embedded AES custom instructions running on an experimental prototype of the field-programmable gate array (FPGA) platform demonstrated a 25.3% to 37.9% improvement in running time over previous similar works when processing no less than 80 bytes of data. In addition, the application-specific integrated circuit (ASIC) experiments show that in most cases, the coprocessor only consumes up to 20% more power than the necessary AES operations.

Computers ◽  
2020 ◽  
Vol 9 (3) ◽  
pp. 70
Author(s):  
Carolina Fernández ◽  
Sergio Giménez ◽  
Eduard Grasa ◽  
Steve Bunch

The lack of high-performance RINA (Recursive InterNetwork Architecture) implementations to date makes it hard to experiment with RINA as an underlay networking fabric solution for different types of networks, and to assess RINA’s benefits in practice on scenarios with high traffic loads. High-performance router implementations typically require dedicated hardware support, such as FPGAs (Field Programmable Gate Arrays) or specialized ASICs (Application Specific Integrated Circuit). With the advance of hardware programmability in recent years, new possibilities unfold to prototype novel networking technologies. In particular, the use of the P4 programming language for programmable ASICs holds great promise for developing a RINA router. This paper details the design and part of the implementation of the first P4-based RINA interior router, which reuses the layer management components of the IRATI Linux-based RINA implementation and implements the data-transfer components using a P4 program. We also describe the configuration and testing of our initial deployment scenarios, using ancillary open-source tools such as the P4 reference test software switch (BMv2) or the P4Runtime API.


2020 ◽  
Vol 18 (1) ◽  
pp. 31-38
Author(s):  
Vivek Pogra ◽  
Santosh Kumar Vishvakarma ◽  
Balwinder Raj

This paper proposes a novel design of application specific integrated circuit (ASIC) which is capable of connecting sensor network and other electronic systems to the Internet. The transfer of data between different networks and internet of things (IoT) platform is controlled by IoT platform with the help of instruction sent to ASIC. ASIC will act as serial peripheral interface (SPI) master to all connected networks and data will be transferred serially between them. The different ASIC modules are SPI module, control module, memory module and data/instruction decoder with additional modules built-in self-test (BIST) and direct memory access (DMA). The proposed ASIC will consume less power as compared to conventional microcontroller/microprocessor due to the fact that it is designed for IoT applications. It is described in VHDL at RTL level and simulation is done on the Vivado 2016.2.


Electronics ◽  
2018 ◽  
Vol 7 (8) ◽  
pp. 135 ◽  
Author(s):  
Nikolay Chervyakov ◽  
Pavel Lyakhov ◽  
Dmitry Kaplun ◽  
Denis Butusov ◽  
Nikolay Nagornov

In this paper, we analyze the noise quantization effects in coefficients of discrete wavelet transform (DWT) filter banks for image processing. We propose the implementation of the DWT method, making it possible to determine the effective bit-width of the filter banks coefficients at which the quantization noise does not significantly affect the image processing results according to the peak signal-to-noise ratio (PSNR). The dependence between the PSNR of the DWT image quality on the wavelet and the bit-width of the wavelet filter coefficients is analyzed. The formulas for determining the minimal bit-width of the filter coefficients at which the processed image achieves high quality (PSNR ≥ 40 dB) are given. The obtained theoretical results were confirmed through the simulation of DWT for a test image using the calculated bit-width values. All considered algorithms operate with fixed-point numbers, which simplifies their hardware implementation on modern devices: field-programmable gate array (FPGA), application-specific integrated circuit (ASIC), etc.


2017 ◽  
Vol 2017 ◽  
pp. 1-11
Author(s):  
Yichun Sun ◽  
Hengzhu Liu ◽  
Tong Zhou

Cholesky factorization is a fundamental problem in most engineering and science computation applications. When dealing with a large sparse matrix, numerical decomposition consumes the most time. We present a vector architecture to parallelize numerical decomposition of Cholesky factorization. We construct an integrated analytical parameterized performance model to accurately predict the execution times of typical matrices under varying parameters. Our proposed approach is general for accelerator and limited by neither field-programmable gate arrays (FPGAs) nor application-specific integrated circuit. We implement a simplified module in FPGAs to prove the accuracy of the model. The experiments show that, for most cases, the performance differences between the predicted and measured execution are less than 10%. Based on the performance model, we optimize parameters and obtain a balance of resources and performance after analyzing the performance of varied parameter settings. Comparing with the state-of-the-art implementation in CPU and GPU, we find that the performance of the optimal parameters is 2x that of CPU. Our model offers several advantages, particularly in power consumption. It provides guidance for the design of future acceleration components.


Author(s):  
Mini P. Varghese ◽  
A. Manjunatha ◽  
T. V. Snehaprabha

In the current digital environment, central processing unit (CPUs), field programmable gate array (FPGAs), application-specific integrated circuit (ASICs), as well as peripherals, are growing progressively complex. On motherboards in many areas of computing, from laptops and tablets to servers and Ethernet switches, multiphase phase buck regulators are seen to be more common nowadays, because of the higher power requirements. This study describes a four-stage buck converter with a phase shedding scheme that can be used to power processors in programmable logic controller (PLCs). The proposed power supply is designed to generate a regulated voltage with minimal ripple. Because of the suggested phase shedding method, this power supply also offers better light load efficiency. For this objective, a multiphase system with phase shedding is modeled in MATLAB SIMULINK, and the findings are validated.


Author(s):  
Aein Rezaei Shahmirzadi ◽  
Dušan Božilov ◽  
Amir Moradi

Being based on a sound theoretical basis, masking schemes are commonly applied to protect cryptographic implementations against Side-Channel Analysis (SCA) attacks. Constructing SCA-protected AES, as the most widely deployed block cipher, has been naturally the focus of several research projects, with a direct application in industry. The majority of SCA-secure AES implementations introduced to the community opted for low area and latency overheads considering Application-Specific Integrated Circuit (ASIC) platforms. Albeit a few, those which particularly targeted Field Programmable Gate Arrays (FPGAs) as the implementation platform yield either a low throughput or a not-highly secure design.In this work, we fill this gap by introducing first-order glitch-extended probing secure masked AES implementations highly optimized for FPGAs, which support both encryption and decryption. Compared to the state of the art, our designs efficiently map the critical non-linear parts of the masked S-box into the built-in Block RAMs (BRAMs).The most performant variant of our constructions accomplishes five first-order secure AES encryptions/decryptions simultaneously in 50 clock cycles. Compared to the equivalent state-of-the-art designs, this leads to at least 70% reduction in utilization of FPGA resources (slices) at the cost of occupying BRAMs. Last but not least, we provide a wide range of such secure and efficient implementations supporting a large set of applications, ranging from low-area to high-throughput.


2021 ◽  
Author(s):  
Χρήστος Μπακάλης

Ο Μεγάλος Επιταχυντής Αδρονίων (Large Hadron Collider (LHC)), του Ευρωπαϊκού Κέντρου Πυρηνικών Ερευνών (CERN) ξεκίνησε να επιταχύνει τις πρώτες του δέσμες το 2008. Από τις πρώτες μέρες λειτουργίας του, ο LHC έχει επιτρέψει στην επιστημονική κοινότητα να τελέσει πρωτοπόρα πειράματα, που έχουν σαν στόχο να απαντήσουν θεμελιώδη ερωτήματα για τη φύση της ύλης και της ενέργειας. Επειδή τα πειράματα φυσικής υψηλών ενεργειών είναι βασισμένα στη συλλογή δεδομένων μεγάλης κλίμακας, η αύξηση του ρυθμού αντιδράσεων θεωρείται θέμα μείζονας σημασίας. Όσο πιο υψηλός ο ρυθμός αλληλεπιδράσεων, τόσο περισσότερα δεδομένα καταγράφονται, και σπάνια φαινόμενα που υπό άλλες συνθήκες θα επικαλύπτονταν από άλλες διεργασίες, περισσότερο συχνές, θα μπορέσουν να μελετηθούν. Για το λόγο αυτό, ο LHC θα προβεί στις ανάλογες αναβαθμίσεις, οι οποίες θα αυξήσουν την ενέργεια κέντρου μάζας, και την φωτεινότητά του. Επιπλέον αναβαθμίσεις που θα οδηγήσουν στην Phase-II 2026-2038, θα αυξήσουν τη φωτεινότητα ακόμα περισσότερο, με την ενέργεια κέντρου μάζας να φτάνει τα 14 TeV. Η αύξηση της φωτεινότητας θα οδηγήσει και σε αύξηση του ρυθμού αλληλεπιδράσεων, άρα και στη ροή σωματιδίων που διαπερνούν τους ανιχνευτές του μεγάλου επιταχυντή αδρονίων. Για αυτό το λόγο ο ανιχνευτής Toroidal LHC ApparatuS (ATLAS), που είναι ο μεγαλύτερος του LHC, θα αντικαταστήσει τα εσωτερικά καπάκια του μιονικού φασματομέτρου κατά τη διάρκεια της δεύτερης μεγάλης παύσης. Η αναβάθμιση New Small Wheel (NSW) όπως καλείται, θα αποτελείται από δύο τεχνολογίες ανιχνευτών, τους Micromegas (MM) και τους small-strip Thin Gap Chambers (sTGC). Ο NSW έχει σχεδιαστεί να υπομένει το αυξημένο υπόβαθρο λόγω των αναβαθμίσεων του επιταχυντή, προσφέροντας δεδομένα ανακατασκευής τροχιών μιονίων στον ATLAS, καθώς και πληροφορίες σκανδαλισμού. Ο ακρογωνιαίος λίθος του συστήματος ανάγνωσης δεδομένων του NSW, είναι το VMM Application-Specific Integrated Circuit (ASIC), μία ηλεκτρονική μονάδα που θα χρησιμοποιηθεί και από τις δύο τεχνολογίες ανιχνευτών του NSW. Λόγω του σχεδιασμού του, το VMM έχει προταθεί και σε μία πληθώρα άλλων πειραμάτων που κάνουν χρήση ανάλογων ανιχνευτικών συστημάτων. Το VMM αποτελείται από 64 ανεξάρτητα κανάλια, κάθε ένα εκ των οποίων προβαίνει σε μετρήσεις ακριβείας πάνω στους ηλεκτρονικούς παλμούς που δημιουργούνται από τους ανιχνευτές όταν διαπεραστούν από μιόνια, ενώ προσφέρει και γρήγορα δεδομένα για το σύστημα σκανδαλισμού του ATLAS. Η πρώτη έκδοση του VMM έκανε την εμφάνισή του το 2012, και μετά από τέσσερις εκδόσεις, αποφάνθηκε ότι είναι έτοιμο να εξυπηρετήσει τις ανάγκες του NSW. Καμία από αυτές τις αναβαθμίσεις δεν θα μπορούσε να είχε ολοκληρωθεί, αν δεν υπήρχε μία αξιόπιστη πλατφόρμα χαρακτηρισμού της μονάδας. Αυτή η πλατφόρμα ήρθε στη μορφή του VMM Readout System (VRS), που κάνει χρήση μονάδων Field-Programmable Gate Array (FPGA), προκειμένου να ληφθούν τα δεδομένα από το VMM, και να διαμορφωθεί τη λειτουργία του. Με έμφαση στην ευελιξία, το υλικολογισμικό των FPGA του VRS, είχε σχεδιαστεί με τέτοιο τρόπο προκειμένου να εξυπηρετήσει διάφορα σενάρια λήψης δεδομένων (π.χ. εργαστηριακές συνθήκες χωρίς ανιχνευτή, ή τεστ-δέσμης). Ένα μεγάλο κομμάτι της παρούσας διατριβής αφιερώνεται στην περιγραφή της αρχιτεκτονικής του εν λόγω υλικολογισμικού, που αναπτύχθηκε για να καλύψει τις ανάγκες της αναβάθμισης του ATLAS NSW. Το σύστημα χρησιμοποιήθηκε για να επιβεβαιώσει την ορθή λειτουργία του VMM, να κάνει τον μαζικό έλεγχο των τελικών μονάδων του VMM πριν αυτά εγκατασταθούν στον ATLAS, και να λάβει τα δεδομένα από το VMM, μαζί με τον ανιχνευτή Micromegas, σε συνθήκες τεστ-δέσμης. Μετά την παραγωγή των τελικών μονάδων ASIC που διαβάζουν και διαμορφώνουν τις λειτουργίες του VMM στο πείραμα ATLAS, το σύστημα που βασιζόταν σε FPGA αντικαταστάθηκε από το τελικό, που είχε σα βάση ένα σύστημα λήψης δεδομένων επόμενης γενιάς, που ονομάζεται Front-End LInk eXchange (FELIX). Ένα ποσοστό της παρούσας εργασίας περιγράφει τα εργαλεία λογισμικού που αναπτύχθηκαν προκειμένου να διευκολυνθεί η διαδικασία ενσωμάτωσης του ηλεκτρονικού συστήματος του NSW με το FELIX. Επίσης, τα εν λόγω πακέτα λογισμικού χρησιμοποιήθηκαν και για στη διαδικασία ελέγχου της ορθής λειτουργίας των τελικών ανιχνευτών του Micromegas, πριν αυτοί εγκατασταθούν στον ATLAS, καθώς τα δεδομένα τους λαμβάνονταν από το τελικό σύστημα λήψης δεδομένων. Το τελευταίο Κεφάλαιο της παρούσας διατριβής, αφιερώνεται στην περιγραφή του Slow Control Adapter eXtension (SCAX), το οποίο είναι ένα πακέτο υλικολογισμικού που ενσωματώνεται σε ένα FPGA και μιμείται μία βασική ηλεκτρονική μονάδα του NSW, ονόματι SCA ASIC. Το SCA είναι μια μονάδα που βρίσκεται στα ηλεκτρονικά του NSW, και χρησιμοποιείται για τη διαμόρφωση των λειτουργιών όλων των άλλων μονάδων ASIC του συστήματος. To SCAX από την άλλη, έχει σχεδιαστεί για να υποστηρίξει FPGA που είναι επίσης μέρος του συστήματος ηλεκτρονικών του ATLAS, και βρίσκονται μακριά από περιοχές υψηλής ραδιενέργειας. Δίνει τη δυνατότητα στο χρήστη του να γράψει παραμέτρους διαμόρφωσης λειτουργιών στη λογική του FPGA που βρίσκεται, και να αναγνώσει τιμές κατάστασης από καταχωρητές του υπόλοιπου υλικολογισμικού. Το SCAX μιμείται το πρωτόκολλο I2C που το SCA χρησιμοποιεί για να επικοινωνήσει με άλλες συσκευές, ενώ επίσης μιμείται και το πρωτόκολλο μεταξύ αυτού και του συστήματος FELIX. Με αυτόν τον τρόπο, επιτρέπει τη χρήση της ήδη υπάρχουσας υποδομής λογισμικού και ηλεκτρονικών, ώστε να διαμορφώσει τις λειτουργίες του FPGA μέσα στο οποίο έχει υλοποιηθεί. Το SCAX χρησιμοποιείται από τον επεξεργαστή σκανδαλισμού του NSW, και μπορεί να χρησιμοποιηθεί από οποιοδήποτε FPGA που επικοινωνεί με το FELIX.


2020 ◽  
Vol 18 (9) ◽  
pp. 700-705
Author(s):  
Vivek Pogra ◽  
Amandeep Singh ◽  
Santosh Kumar Vishvakarma ◽  
Balwinder Raj

This paper proposes a novel design of application specific integrated circuit (ASIC) which is capable of connecting sensor network and other electronic systems to the internet. The transfer of data between different networks and electronic systems is controlled by internet of things (IoT) platform with the help of instruction sent to ASIC. ASIC will act as serial peripheral interface (SPI) master to all connected networks and data will be transferred serially between them. The different ASIC modules are SPI module, control module, memory module and data/instruction decoder with additional modules built-in self-test (BIST) and direct memory access (DMA). The proposed ASIC will consume less power as compared to conventional microcontroller/microprocessor due to SPI feature along with DMA on ASIC for IoT applications. It is described in very high speed integrated circuit hardware description language (VHDL) at register transfer level (RTL) and simulation is done on the Vivado 2016.2.


2013 ◽  
Vol 3 (4) ◽  
Author(s):  
K. Rahimunnisa ◽  
P. Karthigaikumar ◽  
N. Christy ◽  
S. Kumar ◽  
J. Jayakumar

AbstractAs the technology is growing day by day, information security plays a very important role in our lives. In order to protect the information, several cryptographic algorithms have been proposed. The aim of this paper is to present an effective Advanced Encryption Standard (AES) architecture to achieve high throughput for security applications. The Parallel Sub-Pipelined architecture (PSP) is proposed in order to obtain high throughput. The proposed architecture is also compared with loop unrolled, pipelined, sub-pipelined, parallel and parallel pipelined architecture in terms of throughput. The AES algorithm using Parallel Sub-Pipelined architecture was prototyped in FPGA (Field Programmable Gate Array) and ASIC (Application Specific Integrated Circuit).The proposed architecture yielded a throughput of 59.59 Gbps at a frequency of 450.045 MHz on FPGA Virtex XC6VLX75T which is higher than the throughput yielded in other architectures. In ASIC 0.13 µm technology, the proposed architecture yielded a throughput of 25.60 Gbps and in 0.18 µm, it yielded a throughput of 20.56 Gbps.


Sign in / Sign up

Export Citation Format

Share Document