Regression with Adaptive Lasso and Correlation based Penalty

Author(s):  
Yadi Wang ◽  
Wenbo Zhang ◽  
Minghu Fan ◽  
Qiang Ge ◽  
Baojun Qiao ◽  
...  
Keyword(s):  
2021 ◽  
Vol 0 (0) ◽  
Author(s):  
Alexander Schmidt ◽  
Karsten Schweikert

Abstract In this paper, we propose a new approach to model structural change in cointegrating regressions using penalized regression techniques. First, we consider a setting with known breakpoint candidates and show that a modified adaptive lasso estimator can consistently estimate structural breaks in the intercept and slope coefficient of a cointegrating regression. Second, we extend our approach to a diverging number of breakpoint candidates and provide simulation evidence that timing and magnitude of structural breaks are consistently estimated. Third, we use the adaptive lasso estimation to design new tests for cointegration in the presence of multiple structural breaks, derive the asymptotic distribution of our test statistics and show that the proposed tests have power against the null of no cointegration. Finally, we use our new methodology to study the effects of structural breaks on the long-run PPP relationship.


2019 ◽  
Vol 0 (0) ◽  
Author(s):  
Jan G. De Gooijer ◽  
Dawit Zerom

Abstract We propose a hybrid penalized averaging for combining parametric and non-parametric quantile forecasts when faced with a large number of predictors. This approach goes beyond the usual practice of combining conditional mean forecasts from parametric time series models with only a few predictors. The hybrid methodology adopts the adaptive LASSO regularization to simultaneously reduce predictor dimension and obtain quantile forecasts. Several recent empirical studies have considered a large set of macroeconomic predictors and technical indicators with the goal of forecasting the S&P 500 equity risk premium. To illustrate the merit of the proposed approach, we extend the mean-based equity premium forecasting into the conditional quantile context. The application offers three main findings. First, combining parametric and non-parametric approaches adds quantile forecast accuracy over and above the constituent methods. Second, a handful of macroeconomic predictors are found to have systematic forecasting power. Third, different predictors are identified as important when considering lower, central and upper quantiles of the equity premium distribution.


Author(s):  
Zeying Huang ◽  
Di Zeng

China has the highest mortality rate caused by diseases and conditions associated with its high-salt diet. Since 2016, China has initiated a national salt reduction campaign that aims at promoting the usage of salt information on food labels and salt-restriction spoons and reducing condiment and pickled food intake. However, factors affecting individuals’ decisions to adopt these salt reduction measures remain largely unknown. By comparing the performances of logistic regression, stepwise logistic regression, lasso logistic regression and adaptive lasso logistic regression, this study aims to fill this gap by analyzing the adoption behaviour of 1610 individuals from a nationally representative online survey. It was found that the practices were far from adopted and only 26.40%, 22.98%, 33.54% and 37.20% reported the adoption of labelled salt information, salt-restriction spoons, reduced condiment use in home cooking and reduced pickled food intake, respectively. Knowledge on salt, the perceived benefits of salt reduction, participation in nutrition education and training programs on sodium reduction were positively associated with using salt information labels. Adoption of the other measures was largely explained by people’s awareness of hypertension risks and taste preferences. It is therefore recommended that policy interventions should enhance Chinese individuals’ knowledge of salt, raise the awareness of the benefits associated with a low-salt diet and the risks associated with consuming excessive salt and reshape their taste choices.


2021 ◽  
pp. 096228022199750
Author(s):  
Zhaoxin Ye ◽  
Yeying Zhu ◽  
Donna L Coffman

Causal mediation effect estimates can be obtained from marginal structural models using inverse probability weighting with appropriate weights. In order to compute weights, treatment and mediator propensity score models need to be fitted first. If the covariates are high-dimensional, parsimonious propensity score models can be developed by regularization methods including LASSO and its variants. Furthermore, in a mediation setup, more efficient direct or indirect effect estimators can be obtained by using outcome-adaptive LASSO to select variables for propensity score models by incorporating the outcome information. A simulation study is conducted to assess how different regularization methods can affect the performance of estimated natural direct and indirect effect odds ratios. Our simulation results show that regularizing propensity score models by outcome-adaptive LASSO can improve the efficiency of the natural effect estimators and by optimizing balance in the covariates, bias can be reduced in most cases. The regularization methods are then applied to MIMIC-III database, an ICU database developed by MIT.


2019 ◽  
Author(s):  
Σοφία Ροδοπούλου

Η διερεύνηση της συνολικής επίδρασης συσχετισμένων εκθέσεων σε δείκτες υγείας είναι ένα ανοικτό μεθοδολογικό ζήτημα ειδικά στην περιβαλλοντική επιδημιολογία. Οι περισσότερες μελέτες μέχρι τώρα έχουν εφαρμόσει μοντέλα παλινδρόμησης με όρους αλληλεπίδρασης ή μεθόδους μείωσης της διάστασης των μοντέλων. Η συνολική επίδραση των ρύπων έχει επίσης εκτιμηθεί χρησιμοποιώντας κλίμακες έκθεσης οι οποίες περιλαμβάνουν στάθμες που προσδιορίζονται είτε από τη συνεισφορά κάθε ρύπου στην ατμόσφαιρα είτε από την επίδραση αυτού στην υγεία. Παρόλα αυτά υπάρχει έλλειψη μελετών οι οποίες συγκρίνουν τις διάφορες μεθόδους κάτω από ποικίλες συνθήκες. Στην παρούσα διατριβή, συγκρίθηκαν τρεις μεθοδολογικές προσεγγίσεις για τη διερεύνηση των επιδράσεων πολλαπλών συσχετισμένων βραχυχρόνιων εκθέσεων στα πλαίσια της ανάλυσης δεδομένων χρονοσειρών και της παλινδρόμησης Poisson με υπερ-διασπορά με στόχο τη συμβολή στην εν εξελίξει μεθοδολογική συζήτηση. Οι προσεγγίσεις που συγκρίθηκαν ήταν: ένα μοντέλο βασικών επιδράσεων, δηλαδή ένα μοντέλο παλινδρόμησης που περιλάμβανε όλους τους υπό μελέτη ρύπους θεωρώντας ότι κάθε ρύπος είχε μία αθροιστική επίδραση στο γραμμικό προσδιοριστή, η χρήση της προσαρμοσμένης συνάρτηση ελάχιστης απόλυτης συρρίκνωσης και επιλογής (adaptive LASSO), δηλαδή μία μέθοδος μείωσης της διάστασης των μοντέλων η οποία πραγματοποιεί επιλογή μεταβλητών με ποινή, πριν την εφαρμογή ενός μοντέλου βασικών επιδράσεων, και μία σταθμισμένη κλίμακα έκθεσης που συνυπολόγισε όλους τους υπό μελέτη ρύπους. Για τη στάθμιση της κλίμακας έκθεσης χρησιμοποιήθηκαν δύο ομάδες τιμών ως στάθμες: 1) οι συναρτήσεις συγκέντρωσης-απόκρισης του κάθε ρύπου με την υπό μελέτη έκβαση από δημοσιευμένες ανασκοπήσεις και 2) μία τυποποιημένη εκδοχή του 1) που προήλθε από τη διαίρεση των εκτιμητριών με το τυπικό τους σφάλμα.Οι τρεις μέθοδοι αξιολογήθηκαν ως προς την ικανότητα τους να εκτιμήσουν τη «πραγματική» συνολική επίδραση της βραχυχρόνιας έκθεσης σε έξι ατμοσφαιρικούς ρύπους σε δύο εκβάσεις θνησιμότητας, και συγκεκριμένα στον ημερήσιο αριθμό θανάτων από όλες τις αιτίες, εξαιρουμένων των εξωτερικών αιτιών, και στον ημερήσιο αριθμό θανάτων από αναπνευστικές, μη κακοήθεις αιτίες, χρησιμοποιώντας προσομοιώσεις υπό διάφορες υποθέσεις για τη συσχέτιση μεταξύ των ρύπων (χαμηλή, μέτρια, υψηλή). Η συνάρτηση συγκέντρωσης-απόκρισης για τη «πραγματική» συνολική επίδραση θεωρήθηκε ίση με 0,01 και 0,02 για τη θνησιμότητα από όλες τις αιτίες και τις αναπνευστικές αιτίες, αντίστοιχα. Οι προσομοιώσεις βασίστηκαν σε δεδομένα χρονοσειρών από την Αθήνα για τη περίοδο 2007-2012 χρησιμοποιώντας τη πολυμεταβλητή κανονική κατανομή για τη δημιουργία των ημερησίων συγκεντρώσεων των ρύπων και την αρνητική διωνυμική κατανομή για τη δημιουργία του ημερήσιου αριθμού θανάτων υπό μία Poisson κατανομή με υπερδιασπορα. Ο πίνακας διακύμανσης συν-διακύμανσης της πολυμεταβλητής κανονικής κατανομής προσδιορίστηκε ανάλογα με τις τρεις υποθέσεις για τη συσχέτιση μεταξύ των ρύπων: 1) η συσχέτιση θεωρήθηκε ίση με τη παρατηρούμενη στα δεδομένα της Αθήνας (μέτρια συσχέτιση), 2) η συσχέτιση θεωρήθηκε η μισή της παρατηρούμενης (χαμηλή συσχέτιση) και 3) η συσχέτιση θεωρήθηκε η διπλάσια της παρατηρούμενης (υψηλή συσχέτιση). Για κάθε υπόθεση συσχέτισης και δείκτη υγείας πραγματοποιήθηκαν 1000 επαναλήψεις και εκτιμήθηκε η μεροληψία (bias), η πιθανότητα κάλυψης (coverage probability) και το μέσο τετραγωνικό σφάλμα (mean square error, MSE). Τέλος, οι τρεις προσεγγίσεις εφαρμόστηκαν στα πραγματικά δεδομένα από την Αθήνα και συγκρίθηκαν τα επιμέρους αποτελέσματα. Η σταθμισμένη κλίμακα έκθεσης παρείχε τις λιγότερο μεροληπτικές εκτιμήσεις της συνολικής επίδρασης των ρύπων για όλες τις υποθέσεις της συσχέτισης μεταξύ αυτών και για τις δύο εκβάσεις θνησιμότητας. H μέγιστη τιμή της μεροληψίας ήταν 0,020 με √(MSE ) = 0,020 υπό την υπόθεση της υψηλής συσχέτισης για την θνησιμότητα από όλες τις αιτίες για τη τυποποιημένη εκδοχή της κλίμακας, ενώ τα αντίστοιχα νούμερα για την αναπνευστική θνησιμότητα ήταν μεροληψία ίση με 0,014 και √(MSE ) = 0,014. Η προσαρμοσμένη συνάρτηση ελάχιστης απόλυτης συρρίκνωσης και επιλογής έδωσε καλές εκτιμήσεις της συνολικής επίδρασης στην περίπτωση της χαμηλής και μέτριας συσχέτισης μεταξύ των ρύπων. Η μέγιστη τιμή της μεροληψίας ήταν 0,027 με √(MSE ) = 0,027 υπό την υπόθεση της μέτριας συσχέτισης για την αναπνευστική θνησιμότητα. Τέλος, το μοντέλο των κύριων επιδράσεων αξιολογήθηκε ως η χειρότερη προσέγγιση με μεγάλη μεροληψία αφού η μέγιστη τιμή μεροληψίας κατά απόλυτη τιμή ήταν 9,937 με √(MSE ) = 11,748 υπό την υπόθεση της υψηλής συσχέτισης για την αναπνευστική θνησιμότητα. Από την εφαρμογή στα πραγματικά δεδομένα, προέκυψε ότι η εκτίμηση της συνολικής επίδρασης ήταν παρόμοια μεταξύ των τριών προσεγγίσεων για τον ημερήσιο αριθμό θανάτων από όλες τις αιτίες και κυμαινόταν από 0,7% αύξηση ανά ενδοτεταρτημοριακό εύρος για τη σταθμισμένη κλίμακα μέχρι 1,1% για το μοντέλο κύριων επιδράσεων. Τα συμπεράσματα για τον ημερήσιο αριθμό θανάτων από αναπνευστικές αιτίες ήταν αντιφατικά και κυμαίνονταν από 0,6% μείωση για τη προσαρμοσμένη συνάρτηση ελάχιστης απόλυτης συρρίκνωσης και επιλογής μέχρι 2,8% αύξηση για τη σταθμισμένη κλίμακα έκθεσης. Οι εκτιμήσεις της συνολικής επίδρασης στην αναπνευστική θνησιμότητα παρουσίασαν μεγάλη αβεβαιότητα ανεξαρτήτως από τη προσέγγιση που χρησιμοποιήθηκε, πιθανότατα λόγω της σπανιότητας της έκβασης. Συμπερασματικά, η χρήση μίας σταθμισμένης κλίμακας έκθεσης μπορεί να εκτιμήσει αμερόληπτα τη συνολική επίδραση συσχετισμένων δεικτών έκθεσης υπό διαφορετικές τιμές συσχέτισης και μεταβλητότητας σε εκβάσεις υγείας. Ωστόσο, θα πρέπει να μελετηθούν και να αξιολογηθούν τα αποτελέσματα των μεθόδων υπό διαφορετικές δομές χρονικής υστέρησης ανά δείκτη έκθεσης ή τις τυχόν μη γραμμικές σχέσεις με τις υπό μελέτη εκβάσεις.


2021 ◽  
Author(s):  
Takeru Fujii ◽  
Kazumitsu Maehara ◽  
Masatoshi Fujita ◽  
Yasuyuki Ohkawa

ABSTRACTStatistical methods for detecting differences in individual gene expression are indispensable for understanding cell types. However, conventional statistical methods have faced difficulties associated with the inflation of P-values because of both the large sample size and selection bias introduced by exploratory data analysis such as single-cell transcriptomics. Here, we propose the concept of discriminative feature of cells (DFC), an alternative to using differentially expressed gene-based approaches. We implemented DFC using logistic regression with an adaptive LASSO penalty to perform binary classification for the discrimination of a population of interest and variable selection to obtain a small subset of defining genes. We demonstrated that DFC prioritized gene pairs with non-independent expression using artificial data, and that DFC enabled to characterize the muscle satellite cell population. The results revealed that DFC well captured cell-type-specific markers, specific gene expression patterns, and subcategories of this cell population. DFC may complement differentially expressed gene-based methods for interpreting large data sets.


Sign in / Sign up

Export Citation Format

Share Document