Comparison of receiver operating characteristic and forced choice observer performance measurement methods

1995 ◽  
Vol 22 (5) ◽  
pp. 643-655 ◽  
Author(s):  
Arthur E. Burgess
Author(s):  
Kathrin Dolle ◽  
Gerd Schulte-Körne ◽  
Nikolaus von Hofacker ◽  
Yonca Izat ◽  
Antje-Kathrin Allgaier

Fragestellung: Die vorliegende Studie untersucht die Übereinstimmung von strukturierten Kind- und Elterninterviews sowie dem klinischen Urteil bei der Diagnostik depressiver Episoden im Kindes- und Jugendalter. Zudem prüft sie, ob sich die Treffsicherheit und die optimalen Cut-off-Werte von Selbstbeurteilungsfragebögen in Referenz zu diesen verschiedenen Beurteilerperspektiven unterscheiden. Methodik: Mit 81 Kindern (9–12 Jahre) und 88 Jugendlichen (13–16 Jahre), die sich in kinder- und jugendpsychiatrischen Kliniken oder Praxen vorstellten, und ihren Eltern wurden strukturierte Kinder-DIPS-Interviews durchgeführt. Die Kinder füllten das Depressions-Inventar für Kinder und Jugendliche (DIKJ) aus, die Jugendlichen die Allgemeine Depressions-Skala in der Kurzform (ADS-K). Übereinstimmungen wurden mittels Kappa-Koeffizienten ermittelt. Optimale Cut-off-Werte, Sensitivität, Spezifität sowie positive und negative prädiktive Werte wurden anhand von Receiver operating characteristic (ROC) Kurven bestimmt. Ergebnisse: Die Interviews stimmten untereinander sowie mit dem klinischen Urteil niedrig bis mäßig überein. Depressive Episoden wurden häufiger nach klinischem Urteil als in den Interviews festgestellt. Cut-off-Werte und Validitätsmaße der Selbstbeurteilungsfragebögen variierten je nach Referenzstandard mit den schlechtesten Ergebnissen für das klinische Urteil. Schlussfolgerungen: Klinische Beurteiler könnten durch den Einsatz von strukturierten Interviews profitieren. Strategien für den Umgang mit diskrepanten Kind- und Elternangaben sollten empirisch geprüft und detailliert beschrieben werden.


1978 ◽  
Vol 17 (03) ◽  
pp. 157-161 ◽  
Author(s):  
F. T. De Dombal ◽  
Jane C. Horrocks

This paper uses simple receiver operating characteristic (ROC) curves (i) to study the effect of varying computer confidence of threshold levels and (ii) to evaluate clinical performance in the diagnosis of acute appendicitis. Over 1300 patients presenting to five centres with abdominal pain of short duration were studied in varying detail. Clinical and computer-aided diagnostic predictions were compared with the »final« diagnosis. From these studies it is concluded the simplistic setting of a 50/50 confidence threshold for the computer program is as »good« as any other. The proximity of a computer-aided system changed clinical behaviour patterns; a higher overall performance level was achieved and clinicians performance levels became associated with the »mildly conservative« end of the computers ROC curve. Prior forecasts of over-confidence or ultra-caution amongst clinicians using the computer-aided system have not been fulfilled.


Sign in / Sign up

Export Citation Format

Share Document