scholarly journals JMASM 52: Extremely Efficient Permutation and Bootstrap Hypothesis Tests Using R

2020 ◽  
Vol 18 (2) ◽  
pp. 2-16
Author(s):  
Christina Chatzipantsiou ◽  
Marios Dimitriadis ◽  
Manos Papadakis ◽  
Michail Tsagris

Re-sampling based statistical tests are known to be computationally heavy, but reliable when small sample sizes are available. Despite their nice theoretical properties not much effort has been put to make them efficient. Computationally efficient method for calculating permutation-based p-values for the Pearson correlation coefficient and two independent samples t-test are proposed. The method is general and can be applied to other similar two sample mean or two mean vectors cases.

2005 ◽  
Vol 03 (03) ◽  
pp. 627-643 ◽  
Author(s):  
SACH MUKHERJEE ◽  
STEPHEN J. ROBERTS

A great deal of recent research has focused on the challenging task of selecting differentially expressed genes from microarray data ("gene selection"). Numerous gene selection algorithms have been proposed in the literature, but it is often unclear exactly how these algorithms respond to conditions like small sample sizes or differing variances. Choosing an appropriate algorithm can therefore be difficult in many cases. In this paper we propose a theoretical analysis of gene selection, in which the probability of successfully selecting differentially expressed genes, using a given ranking function, is explicitly calculated in terms of population parameters. The theory developed is applicable to any ranking function which has a known sampling distribution, or one which can be approximated analytically. In contrast to methods based on simulation, the approach presented here is computationally efficient and can be used to examine the behavior of gene selection algorithms under a wide variety of conditions, even when the number of genes involved runs into the tens of thousands. The utility of our approach is illustrated by comparing three widely-used gene selection methods.


2021 ◽  
Author(s):  
Robert J. Leigh ◽  
Richard A. Murphy ◽  
Fiona Walsh

There is a reproducibility crisis in scientific studies. Some of these crises arise from incorrect application of statistical tests to data that follow inappropriate distributions, have inconsistent equivariance, or have very small sample sizes. As determining which test is most appropriate for all data in a multicategorical study (such as comparing taxa between sites in microbiome studies), we present statsSuma, an interactive Python notebook (which can be run from any desktop computer using the Google Colaboratory web service) and does not require a user to have any programming experience. This software assesses underlying data structures in a given dataset to advise what pairwise or listwise statistical procedure would be best suited for all data. As some users may be interested in further mining specific trends, statSuma performs 5 different two-tailed pairwise tests (Student's t-test, Welch's t-test, Mann-Whitney U-test, Brunner-Munzel test, and a pairwise Kruskal-Wallis H-test) and advises the best test for each comparison. This software also advises whether ANOVA or a multicategorical Kruskal-Wallis H-test is most appropriate for a given dataset and performs both procedures. A data distribution-vs-Gaussian distribution plot is produced for each taxon at each site and a variance plot between all combinations of 2 taxa at each site are produced so Gaussian tests and variance tests can be visually confirmed alongside associated statistical determinants.


Author(s):  
Nina Karasmaa ◽  
Matti Pursula

The temporal transferability of mode choice and trip distribution models was studied by using the data based on traffic surveys in the Helsinki, Finland, metropolitan area in 1981 and 1988. The updating procedures examined were the Bayesian updating, combined transfer estimation, transfer scaling, and joint context estimation procedures. The results of model updating indicated that finding the correct method and sample size for each case is not an unambiguous task. The best method depends on the difference in model coefficients between the initial and the final stages as well as the quality of the data. According to the statistical tests, no differences could be discerned between the models at all. However, the sample enumeration test proved that the models’ ability to predict changes in behavior can vary greatly according to the method used. On the basis of this research the transfer scaling seems to be the method best suited for simple models. In particular, the method is quite useful if the transfer bias is large. The combined transfer estimation procedure performs best when there is a great number of observations and the transfer bias is small. With small sample sizes the Bayesian approach and the joint context estimation give the best results.


2012 ◽  
Author(s):  
Χρήστος Χασανίδης

ΕΙΣΑΓΩΓΗ: Το περιόστεο είναι ένα εξειδικευμένος συνδετικός ιστός ο οποίος περιβάλλει τα περισσότερα ανθρώπινα οστά. Υποστηρίζει τον οστίτη ιστό και εξασφαλίζει συνεχή παροχή νέων οστεοβλαστών για την αύξηση, επιδιόρθωση και ομοιοστασία του οστού. Η παρουσία στο περιόστεο πολυδύναμων μεσεγχυματικών κυττάρων, οστεοπρογονικών κυττάρων και αυξητικών παραγόντων, το καθιστά ένα πολύ σημαντικό ιστό για την αναγεννητική διαδικασία του οστού. Οι οστικές μορφογενετικές πρωτεΐνες (BMPs), οι οποίες εκτός των άλλων εδρεύουν και στο περιόστεο, διαδραματίζουν κεντρικό ρόλο μεταξύ των αυξητικών παραγόντων στην ανάπτυξη των οστών, τον ανασχηματισμό και την διαδικασία της πώρωσης των καταγμάτων. ΥΛΙΚΟ και ΜΕΘΟΔΟΙ: Στην παρούσα διδακτορική διατριβή αναλύθηκαν οι ανθρώπινες περιοστικές BMPs και συγκεκριμένα η έκφραση των γονιδίων BMP-2, BMP-4, BMP-6 και BMP-7, σε ένα σύνολο 314 δειγμάτων περιοστέου τα οποία λήφθηκαν από ασθενείς της Ορθοπαιδικής Χειρουργικής Κλινικής του Π.Π.Γ.Ν.Λάρισας κατά τη διάρκεια επανορθωτικών χειρουργικών επεμβάσεων και έκτακτων χειρουργικών επεμβάσεων για την αποκατάσταση καταγμάτων. Το σύνολο των δειγμάτων κατηγοριοποιήθηκε σε φυσιολογικά δείγματα (n=107) και καταγματικά (n=207) εκ των οποίων τα 193 προέρχονταν από την εστία του κατάγματος και τα 14 ήταν από απόσταση από την εστία του κατάγματος. Περαιτέρω κατηγοριοποίηση ανέδειξε τις ομάδες παιδιών και ενηλίκων, ενώ μελετήθηκαν και αναλύθηκαν παράγοντες που πιθανά επηρέαζαν την έκφραση των γονιδίων που ελέγχθηκαν, ανάλογα με τα χαρακτηριστικά των ασθενών (ηλικία, φύλο, κάπνισμα, δείκτης μάζας σώματος) και τα χαρακτηριστικά των δειγμάτων (περιοχή προέλευσης-μηχανική φόρτιση, μέγεθος οστού από όπου προήλθε το δείγμα). Απομονώθηκε γενετικό υλικό από τα δείγματα, στο οποίο μέσω των τεχνικών της μοριακής βιολογίας εφαρμόστηκε ποσοτικοποίηση της έκφρασης για τα γονίδια BMP-2, BMP-4, BMP-6 και BMP-7. Για την ανίχνευση των παραγόντων που έχουν στατιστικά σημαντική επίδραση στις μετρήσεις των BMP2, BMP4, BMP6 και BMP7, χρησιμοποιήθηκαν Γενικά Γραμμικά Μοντέλα μετά από μετασχηματισμό λογαρίθμου. Τα παρατηρούμενα επίπεδα σημαντικότητας (p-values) των διαφορών εκτιμήθηκαν με το κριτήριο Bonferroni ή το Newman – Keuls ανάλογα με την ικανοποίηση ή μη των προϋποθέσεων. Το επίπεδο σημαντικότητας σε όλες τις περιπτώσεις ορίστηκε ίσο με 0.05. Συσχετίσεις μεταξύ συνεχών μεταβλητών εκτιμήθηκαν με το συντελεστή Pearson correlation coefficient. Η ανάλυση πραγματοποιήθηκε με το στατιστικό πακέτο STATISTICA v.8.0. ΑΠΟΤΕΛΕΣΜΑΤΑ: Παρατηρήθηκε ένα ιεραρχικό μοντέλο γονιδιακής έκφρασης σε όλες τις συγκρίσεις και αναλύσεις που εκπονήθηκαν (BMP-2 > BMP-6 > BMP-4 > BMP-7). Διαπιστώθηκε γενική καταστολή της έκφρασης των γονιδίων των BMPs στα κατάγματα σε σχέση με τα φυσιολογικά δείγματα σε όλες τις κατηγορίες. Σημειώθηκε αύξηση της έκφρασης μετά την 30η ημέρα του κατάγματος για όλες τις BMPs. Η γονιδιακή έκφραση των δειγμάτων από απόσταση ήταν μεγαλύτερη από αυτή των καταγμάτων εστίας αλλά μικρότερη από αυτή των φυσιολογικών. Η γονιδιακή έκφραση ήταν μικρότερη στους καπνιστές. Οι γυναίκες παρουσίασαν υψηλότερη γονιδιακή έκφραση συγκριτικά με τους άνδρες. Τα παιδιά, ως επί των πλείστον είχαν υψηλότερη έκφραση από τους ενήλικες ενώ οι ασθενείς άνω των 50 ετών έδειξαν υψηλότερα επίπεδα γονιδιακής έκφρασης από του νεότερους ενήλικες (18-49 ετών). Δεν βρέθηκαν διαφορές μεταξύ άνω και κάτω άκρου. Το μέγεθος του οστού επηρέασε την έκφραση στα κατάγματα. Από την άλλη, καμία διαφορά δεν εντοπίστηκε ανάλογα με τον δείκτη μάζας σώματος των ασθενών στα επίπεδα mRNA των BMPs. Οι ακραίες τιμές δεν επηρέασαν τα αποτελέσματα και καμία συσχέτιση δεν προέκυψε ανάλογα με το οστό προέλευσης του δείγματος. ΣΥΜΠΕΡΑΣΜΑΤΑ: Συνοψίζοντας, από τις αναλύσεις της γονιδιακής έκφρασης των ανθρώπινων περιοστικών BMPs αναδείχθηκε ο πρωταγωνιστικός και πρώιμος ρόλος της BMP-2 στην οστεογενετική σειρά, όπως επίσης επιβεβαιώθηκε και η οστεοεπαγωγική δράση της BMP-6 αφού διατήρησε την έκφρασής της στα κατάγματα όπως αυτή που είχε στα φυσιολογικά. Επιπλέον, φάνηκε πως το γεγονός ενός οστικού τραυματισμού επηρεάζει αρνητικά την γονιδιακή έκφραση ενώ παράγοντες όπως το κάπνισμα, το φύλο, η ηλικία και το μέγεθος του οστού είναι ικανοί να επηρεάσουν χαρακτηριστικά τα επίπεδα γονιδιακής έκφρασης των παραγόντων του περιοστέου. Συμπερασματικά, η κατανόηση της συμπεριφοράς του περιοστέου σε μοριακό επίπεδο μέσω της ανάλυσης των παραγόντων που συμβάλλουν στο ρόλο του (BMPs και άλλων αυξητικών παραγόντων) κατά την ομοιοστασία, αναδόμηση και επουλωτική διαδικασία, θα αναδείξουν τη δυναμική του αλλά και των κυττάρων που βρίσκονται σε αυτό, ως νέα πηγή έμπνευσης και πρώτων υλών για τη νέα αναγεννητική ιατρική.


Stats ◽  
2019 ◽  
Vol 2 (1) ◽  
pp. 70-88
Author(s):  
Stefan Bedbur ◽  
Udo Kamps

In reliability, sequential order statistics serve as a model for the component lifetimes of k-out-of-n systems, which are operating as long as k out of n components are operating. In contrast to modelling with order statistics, load-sharing effects and other impacts of failures on the performance of the remaining components may be taken into consideration. Inference for associated load-sharing parameters, as well as for the underlying baseline distribution, is then of particular interest. In a setup of multiple samples of sequential order statistics modelling the component lifetimes of possibly differently structured k-out-of-n systems, we provide exact statistical tests to check for common load-sharing or common baseline-distribution parameters. In the two-sample case, critical values for the corresponding test statistics are tabulated for small sample sizes, and the asymptotic distributions of the test statistics under the null hypotheses are derived. Based on a simulation study, power comparisons are addressed. The proposed tests may be applied to detect significant differences between systems or to decide whether a meta-analysis of the data may be conducted to increase the performance of subsequent inferential procedures.


2017 ◽  
Vol 313 (5) ◽  
pp. L873-L877 ◽  
Author(s):  
Charity J. Morgan

In this review I discuss the appropriateness of various statistical methods for use with small sample sizes. I review the assumptions and limitations of these methods and provide recommendations for figures and statistical tests.


2019 ◽  
Vol 22 (4) ◽  
pp. 271-276 ◽  
Author(s):  
Hanna Machin ◽  
Serena Pevere ◽  
Chiara Adami

Objectives The aim of this study was to evaluate the inter- and intra-observer reliability of quantitative sensory testing performed with the SMall animal ALGOmeter (SMALGO) in healthy cats and in cats with chronic gingivostomatitis (CGS), and to evaluate the SMALGO as a tool to detect and quantify pain in cats with CGS. Methods Thirty cats from a private shelter were included and assigned to one of two groups: group C (healthy cats; n = 15) or group CGS (cats with CGS; n = 15). In all cats the mechanical thresholds were measured with the SMALGO, with the sensor tip applied to the superior lip above the canine root, by two independent investigators (A, experienced; B, unexperienced), on two different occasions (day 1 and day 2) with a 24 h interval. A CGS scale was used in the diseased cats to assess the severity of the condition. For the reliability analysis, intra-class correlation coefficients (ICCs) were calculated. Other statistical tests used were Pearson correlation coefficient and a paired t-test. Results The inter- and intra-observer levels of agreement were fair (ICC = 0.50) and good, respectively (ICC = 0.73 for investigator A; ICC = 0.60 for investigator B). However, the thresholds measured in healthy cats (169 ± 59 g) did not differ from those obtained from diseased cats (156 ± 82 g; P = 0.35). There was no correlation between the scores of the CGS scale and the thresholds measured in diseased cats (Pearson correlation coefficient = 0.047; P = 0.87). Conclusions and relevance Quantitative sensory testing performed with the SMALGO in cats is repeatable and reliable, regardless of the expertise of the investigator. However, the findings of this study suggest that the mechanical thresholds measured with the SMALGO may not be a valuable indicator of pain in cats with CGS.


2015 ◽  
Vol 13 (04) ◽  
pp. 1550018 ◽  
Author(s):  
Kevin Lim ◽  
Zhenhua Li ◽  
Kwok Pui Choi ◽  
Limsoon Wong

Transcript-level quantification is often measured across two groups of patients to aid the discovery of biomarkers and detection of biological mechanisms involving these biomarkers. Statistical tests lack power and false discovery rate is high when sample size is small. Yet, many experiments have very few samples (≤ 5). This creates the impetus for a method to discover biomarkers and mechanisms under very small sample sizes. We present a powerful method, ESSNet, that is able to identify subnetworks consistently across independent datasets of the same disease phenotypes even under very small sample sizes. The key idea of ESSNet is to fragment large pathways into smaller subnetworks and compute a statistic that discriminates the subnetworks in two phenotypes. We do not greedily select genes to be included based on differential expression but rely on gene-expression-level ranking within a phenotype, which is shown to be stable even under extremely small sample sizes. We test our subnetworks on null distributions obtained by array rotation; this preserves the gene–gene correlation structure and is suitable for datasets with small sample size allowing us to consistently predict relevant subnetworks even when sample size is small. For most other methods, this consistency drops to less than 10% when we test them on datasets with only two samples from each phenotype, whereas ESSNet is able to achieve an average consistency of 58% (72% when we consider genes within the subnetworks) and continues to be superior when sample size is large. We further show that the subnetworks identified by ESSNet are highly correlated to many references in the biological literature. ESSNet and supplementary material are available at: http://compbio.ddns.comp.nus.edu.sg:8080/essnet .


Sign in / Sign up

Export Citation Format

Share Document