Zusammenfassung. Leistungsbeurteilungen unterliegen einer Reihe von Urteilsfehlern, die ihre Genauigkeit und Validität erheblich mindern können. Ein besonders kritischer Urteilsfehler ist die Tendenz zur Strenge bzw. Milde. In der vorliegenden Arbeit wird mit der Multifacetten-Rasch-Analyse (“many-facet Rasch measurement“; Linacre, 1989 ; Linacre & Wright, 2002 ) ein Item-Response-Modell vorgestellt, das Messungen der Strenge bzw. Milde eines jeden Beurteilers erlaubt und die ermittelten Strengemaße zusammen mit den Fähigkeitsmaßen der beurteilten Personen und den Schwierigkeitsmaßen der Aufgaben oder Beurteilungskriterien in einen gemeinsamen Bezugsrahmen stellt. Das Modell ermöglicht ferner eine um die Strenge der Beurteiler korrigierte Leistungsmessung. Mittels dieses Ansatzes werden im Rahmen des “Test Deutsch als Fremdsprache“ (TestDaF) Beurteilungen analysiert, die je 2 von insgesamt 29 Beurteilern zu Leistungen von 1359 Pbn im schriftlichen Ausdruck nach 3 Kriterien abgegeben haben. Die Gruppe der Beurteiler erweist sich als sehr heterogen, so dass eine Strengekorrektur der Urteile geboten ist. Abschließend werden verschiedene Implikationen des Multifacetten-Rasch-Modells für die Evaluation von Leistungsbeurteilungen diskutiert.