classification and regression trees
Recently Published Documents


TOTAL DOCUMENTS

234
(FIVE YEARS 54)

H-INDEX

28
(FIVE YEARS 2)

2021 ◽  
Vol 6 (2) ◽  
pp. 127-136
Author(s):  
Pungkas Subarkah ◽  
Ali Nur Ikhsan

With the increase in internet users and the development of technology, the threats to its security are increasingly diverse. One of them is phishing which is the most important issue in cyberspace. Phishing is a threatening and trapping activity someone by luring the target to indirectly provide information to the trapper. The number of phishing crimes, this has the potential to cause several losses, one of which is namely about the loss of privacy of a person or company. This study aims to identify phishing websites. The Classification And Regression Trees (CART) algorithm is one of the classification algorithms, and the dataset in this research taken from the UCI Repository Learning obtained from the University of Huddersfield. The method used in this research is problem identification, data collection, pre-processing stage, use of the CART algorithm, validation and evaluation and withdrawal conclusion. Based on the test results obtained the value of accuracy of 95.28%. Thus the value of the accuracy obtained using the CART algorithm of 95.28% categorized very good classification.


2021 ◽  
Vol 20 ◽  
pp. 650-656
Author(s):  
Eva Fadilah Ramadhani ◽  
Adji Achmad Rinaldo Fernandes ◽  
Ni Wayan Surya Wardhani

This study aims to determine the best classification results among discriminant analysis, CART, and Adaboost CART on Bank X's Home Ownership Credit (KPR) customers. This study uses secondary data which contains notes on the 5C assessment (Collateral, Character, Capacity, Condition, Capital) and collectibility of current and non-current loans. The sample used in this study was from 2000 debtors. Comparison of classifications based on model accuracy, sensitivity, and overall specificity shows that Adaboost CART is the best method for classifying credit collectibility at Bank X. This is due to the class imbalance in the data. This study compares the classification results between parametric statistics, namely discriminant analysis and non-parametric statistics, namely CART and Adaboost CART. The results of the research can be used as material for consideration and evaluation for banks in determining the policy for providing credit to prospective borrowers from the classification results of KPR Bank X consumers.


2021 ◽  
Vol 12 ◽  
Author(s):  
Marina Romeo ◽  
Montserrat Yepes-Baldó ◽  
Miguel Ángel Soria ◽  
Maria Jayme

Our aim is to analyze the extent to which the psychosocial aspects can characterize the affective states of the teachers, administrative staff, and undergraduate and postgraduate students during the quarantine. A questionnaire was answered by 1,328 people from the community of the Universitat de Barcelona (UB), Spain. The survey was partially designed ad hoc, collecting indicators related to sociodemographic variables, the impact of COVID on the subjects or in their personal context, the psychosocial context of coexistence and perceived social support, characteristics related to the physical context during the quarantine, and labor conditions. Additionally, it included two validated instruments: the Survey Work-Home Interaction–Nijmegen for Spanish Speaking Countries (SWING-SSC) validated in Spanish and PANAS, the Positive and Negative Affect Schedule. Classification and Regression Trees (CART) were performed to identify which variables better characterize the participants' level of positive and negative affective states. Results according to groups showed that students are the ones who have suffered the most as a result of this situation (temporary employment regulation, higher scores in negative work-home and home-work interaction, lower scores in positive home-work interaction, and negative effects of teleworking). Additionally, they reported a higher mean score in interpersonal conflict and worse scores with regard to negative affective states. Based on sex, women were the ones whose environment was shown to be more frequently affected by the pandemic and who exhibited more negative effects of teleworking. In general terms, participants with the highest scores in negative affective states were those who perceived an increase in conflict and a high negative effect from work spilling over into their personal lives. On the contrary, participants with the highest levels of positive affective states were those with medium to low levels of negative home-work interaction, over 42.5 years old, and with medium to high levels of positive work-home interaction. Our results aim to help higher education to reflect on the need to adapt to this new reality, since the institutions that keep pace with evolving trends will be able to better attract, retain, and engage all the members of the university community in the years ahead.


PLoS ONE ◽  
2021 ◽  
Vol 16 (8) ◽  
pp. e0255119
Author(s):  
Jacob Egelberg ◽  
Nina Pena ◽  
Rachel Rivera ◽  
Christina Andruk

Soil pH effects a wide range of critical biogeochemical processes that dictate plant growth and diversity. Previous literature has established the capacity of classification and regression trees (CARTs) to predict soil pH, but limitations of CARTs in this context have not been fully explored. The current study collected soil pH, climatic, and topographic data from 100 locations across New York’s Temperate Deciduous Forests (in the United States of America) to investigate the extrapolative capacity of a previously developed CART model as compared to novel CART and random forest (RF) models. Results showed that the previously developed CART underperformed in terms of predictive accuracy (RRMSE = 14.52%) when compared to a novel tree (RRMSE = 9.33%), and that a novel random forest outperformed both models (RRMSE = 8.88%), though its predictions did not differ significantly from the novel tree (p = 0.26). The most important predictors for model construction were climatic factors. These findings confirm existing reports that CART models are constrained by the spatial autocorrelation of geographic data and encourage the restricted application of relevant machine learning models to regions from which training data was collected. They also contradict previous literature implying that random forests should meaningfully boost the predictive accuracy of CARTs in the context of soil pH.


2021 ◽  
pp. 096228022110327
Author(s):  
Hannah Johns ◽  
Julie Bernhardt ◽  
Leonid Churilov

Predicting patient outcomes based on patient characteristics and care processes is a common task in medical research. Such predictive features are often multifaceted and complex, and are usually simplified into one or more scalar variables to facilitate statistical analysis. This process, while necessary, results in a loss of important clinical detail. While this loss may be prevented by using distance-based predictive methods which better represent complex healthcare features, the statistical literature on such methods is limited, and the range of tools facilitating distance-based analysis is substantially smaller than those of other methods. Consequently, medical researchers must choose to either reduce complex predictive features to scalar variables to facilitate analysis, or instead use a limited number of distance-based predictive methods which may not fulfil the needs of the analysis problem at hand. We address this limitation by developing a Distance-Based extension of Classification and Regression Trees (DB-CART) capable of making distance-based predictions of categorical, ordinal and numeric patient outcomes. We also demonstrate how this extension is compatible with other extensions to CART, including a recently published method for predicting care trajectories in chronic disease. We demonstrate DB-CART by using it to expand upon previously published dose–response analysis of stroke rehabilitation data. Our method identified additional detail not captured by the previously published analysis, reinforcing previous conclusions. We also demonstrate how by combining DB-CART with other extensions to CART, the method is capable of making predictions about complex, multifaceted outcome data based on complex, multifaceted predictive features.


2021 ◽  
Author(s):  
Ευτυχία Παπαχατζοπούλου

Σκοπός: Η παρούσα μελέτη στοχεύει στη διερεύνηση του κατά πόσο οι κυήσεις που επιπλέκονται από σακχαρώδη διαβήτη κύησης (ΣΔΚ) παρουσιάζουν διαφορές στα περιγεννητικά αποτελέσματα ανάλογα με τα ευρήματα στην καμπύλη γλυκόζης, αν είναι παθολογική η τιμή της γλυκόζης νηστείας ή των μεταγευματικών τιμών ή ο συνδυασμός των δύο προηγούμενων. Μέθοδοι: Είναι μία προοπτική μελέτη κοορτής που περιλαμβάνει 831 μονήρεις κυήσεις, διαγνωσμένες με ΣΔΚ όπως ορίζεται από τα κριτήρια IADPSG. Σύμφωνα με την τιμή γλυκόζης νηστείας οι γυναίκες κατηγοριοποιήθηκαν σε τρεις ομάδες. (i) γυναίκες με ΣΔΚ με τιμές γλυκόζης νηστείας > 92 mg/dl και φυσιολογικές μεταγευματικές τιμές (Τ0 παθολογική ομάδα) ii) ασθενείς με παθολογικές τιμές γλυκόζης στα 60΄ και 120΄ και φυσιολογική τιμή γλυκόζης νηστείας (T-post ομάδα) και iii) ασθενείς με συνδυασμένες παθολογικές τιμές γλυκόζης νηστείας και μεταγευματικές (T-comb ομάδα). Εφαρμόστηκε ανάλυση παλινδρόμησης προκειμένου να μελετηθεί η ανεξάρτητη συνεισφορά των τριών ομάδων, μαζί με τα χαρακτηριστικά της μητέρας και του εμβρύου, στην πρόγνωση για (i) μεγάλα για την ηλικία κύησης έμβρυα (LGA) (ii) ανάγκη χρήσης ινσουλίνης για θεραπεία και (iii) για το εκατοστημόριο βάρους γέννησης. Αποτελέσματα: Ο ΣΔΚ με παθολογική τιμή γλυκόζης νηστείας αποτελεί ανεξάρτητο παράγοντα κινδύνου για LGA έμβρυα (OR 2.91, 95% CI 1.33–6.36) και συσχετίζεται με μεγαλύτερο εκατοστημόριο βάρους γέννησης (10.25, 95% CI 0.27–20.25). Ο ΣΔΚ με συνδυασμένες παθολογικές τιμές γλυκόζης νηστείας και μεταγευματικές αποτελεί ανεξάρτητο παράγοντα κινδύνου για ανάγκη θεραπείας με ινσουλίνη (OR 2.94, 95% CI 1.93–4.47).Συμπεράσματα: Οι γυναίκες με ΣΔΚ και παθολογική τιμή γλυκόζης νηστείας έχουν μεγαλύτερο κίνδυνο για την γέννηση μεγάλων για την ηλικία κύησης εμβρύων ενώ οι γυναίκες με ΣΔΚ και συνδυασμένα παθολογικές τιμές γλυκόζης νηστείας και μεταγευματικές έχουν αυξημένο κίνδυνο για θεραπεία με ινσουλίνη.Εισαγωγή: Η έγκυρη εντόπιση των εγκύων γυναικών με σακχαρώδη διαβήτη της κύησης (ΣΔΚ) που εν τέλη θα χρειαστούν θεραπεία με ινσουλίνη, μπορεί να τροποποιήσει την διαχείριση τους με πρώιμες παρεμβάσεις και πιο εντατική παρακολούθηση. Ο σκοπός αυτής της μελέτης ήταν να αναπτυχθεί ένα προγνωστικό μοντέλο για την αναγκαιότητα της αντιμετώπισης των ΣΔΚ εγκύων με χρήση ινσουλίνης. Μέθοδοι: Είναι μία προοπτική μελέτη κοορτής. Συνολικά συλέχθησαν δεδομένα από 775 γυναίκες με ΣΔΚ και τα οποία αναλύθηκαν με τη μέθοδο λογιστικής παλινδρόμησης και με έναν αλγόριθμο μηχανικής εκμάθησης τον Classification and Regression trees (CART). Η διάγνωση του ΣΔΚ βασίστηκε πάνω στα κριτήρια IADPSG. Πιθανοί προβλεπτικοί παράγοντες που καταχωρήθηκαν στις επισκέψεις follow-up, μελετήθηκαν και χρησιμοποιήθηκαν για την ανάπτυξη του μοντέλου. Το μοντέλο που προέκυψε επικυρώθηκε εξωτερικά χρησιμοποιώντας τα δεδομένα από δύο κλινικές. Αποτελέσματα: Το BMI της μητέρας πριν την σύλληψη, η τιμή της γλυκόζης νηστείας και η τιμή γλυκόζης μία ώρα μεταγευματικά κατά την δοκιμασία ανοχής στη γλυκόζη (OGTT) ήταν ανεξάρτητοι σημαντικοί προβλεπτικοί παράγοντες για το είδος θεραπείας των ΣΔΚ κυήσεων. Γλυκόζη νηστείας πλάσματος πάνω από 98 mg/dl και μητρικό BMI πριν την σύλληψη μεταξύ 26-31 Kg/heigth2 αυξάνουν σημαντικά τη πιθανότητα για θεραπεία με ινσουλίνη (odds ratio [OR] 4.04, 95% διάστημα εμπιστοσύνης [CI] CI 2.65-6.17 και 2.21, 95%CI 1.42-3.43, αντίστοιχα). Η περιοχή κάτω από τη καμπύλη (AUC) για την εσωτερική και εξωτερική validation του μοντέλου ήταν 0,74 και 0,77 αντίστοιχα.Συμπεράσματα: Ένα απλό μοντέλο που βασίζεται στα χαρακτηριστικά της μητέρας και στις τιμές γλυκόζης που προκύπτουν από την OGTTμπορεί να προβλέψει με ακρίβεια την ανάγκη για θεραπεία με ινσουλίνη. Υπέρβαρες γυναίκες με παθολογικές τιμές γλυκόζης νηστείας κατά την OGTT έχουν αυξημένες πιθανότητες θεραπείας με ινσουλίνη.


Sign in / Sign up

Export Citation Format

Share Document