Bruegelmann 2014 Sind Noten Nuetzlich
Bruegelmann 2014 Sind Noten Nuetzlich
Quellenangabe/ Reference:
Brügelmann, Hans: Sind Noten nützlich - und nötig? Ziffernzensuren und ihre Alternativen im
empirischen Vergleich. Eine wissenschaftliche Expertise des Grundschulverbandes. Frankfurt am Main :
Grundschulverband e.V. 2014, 72 S. - URN: urn:nbn:de:0111-pedocs-188289 - DOI: 10.25656/01:18828
https://nbn-resolving.org/urn:nbn:de:0111-pedocs-188289
https://doi.org/10.25656/01:18828
www.grundschulverband.de
Kontakt / Contact:
peDOCS
DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation
Informationszentrum (IZ) Bildung
E-Mail: [email protected]
Internet: www.pedocs.de
Eine wissenschaftliche Expertise
des Grundschulverbandes
I
zweiter Klasse Ziffernnoten verpflichtend, in der anschließen- dort ermöglichen, wo LehrerInnen sich andere Formen der
den Gemeinschaftsschule aber für die ersten Jahrgänge Leistungsbeurteilung zutrauen und die Elternschaft für diesen
nicht mehr vorgesehen sind … Weg gewinnen können.
Bis 2007 waren in sieben Bundesländern Kopfnoten neu
eingeführt worden (vgl. Bartnitzky 2008), schon 2008 hat Dass Schulen dazu in der Lage und gewillt sind, zeigen nicht
Bayern die Ziffern (bzw. Buchstaben) wieder abgeschafft nur Schulen in Schulversuchen, sondern auch die Bens-
(SPIEGELonline 2008), allerdings nur, um sie durch noten- berger Erklärung des Schulverbunds »Blick über den Zaun«.
gleiche Satzbausteine zu ersetzen. Eine interne Erhebung Die Schulen des Verbunds fordern darin »einen veränderten
des Grundschulverbands 2011 bei den Schulverwaltungen Umgang mit Schülerleistungen. Wir brauchen differenziertere
der 16 Bundesländer ergab einen bunten Fleckenteppich Instrumente als Zensuren. Verbesserte und unterstützende
von Varianten für die Bewertung des Arbeits- und Sozial- Formen der staatlichen Evaluation von Unterricht. Wir brau-
verhaltens - von Ziffernnoten über verbale Beurteilungen bis chen differenziertere Instrumente als standardisierte Tests
hin zu gar keinen Aussagen und Prüfungen.«
Sie fordern aber nicht nur, sondern bieten gleichzeitig aus
In der Unterrichtspraxis haben sich vielerorts neue Formen ihrer Praxis gelungene »Beispiele für eine veränderte Schul-
der Lernbeobachtung und Leistungsbeurteilung durchgesetzt, und Lernkultur, mit einer konsequenten Individualisierung
wie sie der Grundschulverband in seinen Bänden »Pädago- und Freiräumen, in denen Kinder und Jugendliche, eingebun-
gische Leistungskultur« (Bartnitzky u.a. 2005, 2006, 2007) den in eine verlässliche Gemeinschaft, Verantwortung für ihr
vorgeschlagen hat. Je nach Bundesland sind die Freiräume Lernen und ihre persönliche Entwicklung übernehmen.
dafür unterschiedlich groß, die von manchen KollegInnen Beispiele von Schulen, die zeigen, wie Kinder ohne Noten
kaum, von anderen dagegen voll ausgenutzt werden (vgl. und ohne Selektion gemeinsam lernen und dadurch indivi-
etwa die Berichte von Czerny 2010; Leppert 2011). duell bestmögliche Leistungen erreichen können.
So müssen beispielsweise in Baden-Württemberg zwar Beispiele für einen veränderten Umgang mit Leistungen,
Noten in den Zeugnissen, aber nicht für einzelne Leistun- für eine prozessorientierte und transparente Leistungsrück-
gen, z.B. Klassenarbeiten, vergeben werden. Entsprechend meldung.«
heißt es in § 7 der Noten-Verordnung: »Die Bildung der Note
in einem Unterrichtsfach ist eine pädagogisch-fachliche Da wie schon 2006 gilt, dass Zensuren weder nötig, noch
Gesamtwertung der vom Schüler im Beurteilungszeitraum nützlich, informationsreich oder lernförderlich sind, sollte die
erbrachten Leistungen.« Bildungspolitik den Erfahrungen und Forderungen dieser
Andererseits bewahrt selbst die Einhaltung der schon Schulen Raum geben.
1968 von der KMK festgelegten Kriterien-Orientierung nicht
vor repressiven Maßnahmen. Dies musste etwa eine Kollegin Hans Brügelmann und Axel Backhaus
in Bayern feststellen, als sie wegen guter Lernerfolge aller
Kinder in ihrer Klasse entsprechend gute Noten vergeben
hatte. Selbst die Bestätigung dieser Beurteilungen durch
überdurchschnittliche Ergebnisse in einem Vergleichstest
Bartnitzky, H. (2008): Zur Renaissance der »Kopfnoten« - Anmerkungen
bewahrten sie nicht vor einer Versetzung wegen »Störung zur Umfrage bei den Schulministerien. In: Grundschule aktuell, Nr. 101,
des Schulfriedens« (Bleher 2008). 24-25.
Um die negativen Nebenwirkungen vergleichender Noten Bartnitzky, H., u.a. (Hrsg.): Pädagogische Leistungskultur. Beiträge zur
abzumildern, verbinden inzwischen viele Schulen die Über- Reform der Grundschule. Bde. 119, 121, 124. Grundschulverband:
Frankfurt.
gabe der Zeugnisse mit dem Elternsprechtag und beziehen
Bd. 119 (2005): Materialien für Klasse 1/2 (Deutsch, Mathematik,
möglichst auch die Kinder in den Rückblick und in Abspra- Sachunterricht)
chen über die weitere Arbeit ein. Bd. 121 (2006): Materialien für Klasse 3/4 (Deutsch, Mathematik,
Sachunterricht)
Angesichts der klaren politischen Vorgabe, dass die Schulen Bd. 124 (2007): Ästhetik, Sport, Englisch - Arbeits-/Sozialverhalten.
Baumert, J. u.a. (2010): Der Übergang von der Grundschule in die weiter-
inklusiv werden müssen, werden sich Ziffernzensuren als
führende Schule - Leistungsgerechtigkeit und regionale, soziale und
vergleichende Leistungsbeurteilung auf Dauer nicht halten
ethnisch-kulturelle Disparitäten: Zusammenfassung der zentralen
lassen. Andererseits ist dieses Feld immer noch konfliktträch- Befunde. In: Maaz u.a. (2010, 5-21).
tig und deshalb selbst für einsichtige BildungspolitikerInnen Bergin, C.A./Bergin, D.A. (2009). Attachment in the classroom. In:
ein (zu) »heißes Eisen«. Ein pragmatischer Weg könnte eine Educational Psychology Review, Vol. 21, 141-170.
übergangsweise Öffnungsklausel sein, die Schulen erlaubt, Birkel, P. (2009): Rechtschreibleistung im Diktat - eine objektiv beurteil-
bare Leistung? In: Didaktik Deutsch, 15. Jg., H. 27, 5-32.
auf Ziffernnoten zu verzichten, wenn sie ein Alternativkonzept
Bleher, C. (2008): Bloß nicht zu viele Einser, bitte! Lehrer, deren Schüler
entwickeln, das von der Schulkonferenz verabschiedet wird. zu gute Noten schreiben, werden systematisch ausgebremst. In: Süd-
Diese Ernstnahme der allerorten propagierten »selbststän- deutsche Zeitung v. 28.7.2008. Download: http://www.christianbleher.
digen Schule« würde einen schrittweisen Übergang überall de/texte/bildung-schule/noten/
II
Bos, W., u.a. (2010): LUZI. Leistungsbeurteilung ohne Ziffernzeugnisse.
Abschlussbericht der wissenschaftlichen Begleitforschung. Institut für
Schulentwicklung der Universität: Dortmund.
Czerny, S. (2010): Was wir unseren Kindern in der Schule antun: ... und
wie wir das ändern können. Südwest Verlag: München.
Deimel (2007): Über die Unmöglichkeit, objektiv zu urteilen - Zur Klärung
eines Paradoxons. Download: http://www.aba-fachverband.org/
index.php?id=1257 [Abruf: 28.11.2013].
Faber, G./Billmann-Mahecha, E. (2010): Notengebung im Spiegel wissen-
schaftlicher Untersuchungen. Probleme, Erfordernisse und Möglich-
keiten aus pädagogisch-psychologischer Sicht. In: Lernchancen, 13. Jg.,
H. 74, 30-33.
Herrmann, U./Bohn, H. (2009): Leistungsbeurteilung, Selbsteinschätzung
und Bildungsstandards - nicht nur in der Berufsausbildung. In: Lehren
und Lernen, 35. Jg., H. 2, 30-37.
LBS-Initiative Junge Familie (Hrsg.) (2007): LBS-Kinderbarometer
Deutschland 2007. Stimmungen, Meinungen, Trends von Kindern in
sieben Bundesländern. Ergebnisse des Erhebungsjahres 2006/07.
PROSOZ ProKids-Institut: Herten.
LBS-Initiative Junge Familie (Hrsg.) (2011): LBS-Kinderbarometer
Deutschland 2011. Stimmungen, Trends und Meinungen von Kindern
aus Deutschland. PROSOZ Institut für Sozialforschung: Herten.
Lin-Klitzing, S., u.a. (Hrsg.) (2010): Übergänge im Schulwesen. Chancen
und Probleme aus sozialwissenschaftlicher Sicht. Julius Klinkhardt:
Bad Heilbrunn.
Maaz, K., u.a. (Hrsg.) (2010): Der Übergang von der Grundschule in die
weiterführende Schule. Bundesministerium für Bildung und Forschung:
Berlin. Download: http://www.bmbf.de/pub/bildungsforschung_band_
vierunddreissig.pdf [Abruf: 25.11.2013].
Maaz, K., u.a. (2011): Herkunft zensiert? Leistungsdiagnostik und
soziale Ungleichheiten in der Schule. Vodafone Stiftung Deutschland:
Düsseldorf.
Perleth, C./Sen M.A. (2010): Zuverlässigkeit von Schulnoten, kognitiven
Fähigkeitstests und Begabungseinschätzung von Eltern für die weitere
Schullaufbahn. In: Lin-Klitzing u.a. (2010, 105-126).
Rost, D.H. (Hrsg.) (2006): Handwörterbuch Pädagogische Psychologie.
Weinheim: Beltz (3. Aufl.).
Schlemmer, E./Gerstberger, H. (Hrsg.): Ausbildungsfähigkeit im Span-
nungsfeld zwischen Wissenschaft, Politik und Praxis. Wiesbaden:
Verlag für Sozialwissenschaften.
Schulverbund ›Blick über den Zaun‹: Bensberger Erklärung. Download:
www.blickueberdenzaun.de/publikationen/112-bensbergererklaerung.
html [Abruf: 27.11.2013].
SPIEGELonline (2008): Benimm-Zeugnisse. Bayern schafft die Kopf-
noten ab. Download: http://www.spiegel.de/schulspiegel/wissen/
0,1518,530847,00.html [Abruf: 26.11.2013].
Tent, L. (2006). Zensuren. In: Rost (2006, 873-880).
Tiedemann, J./Billmann-Mahecha, E. (2007): Zum Einfluss von Migration
und Schulklassenzugehörigkeit auf die Übergangsempfehlung für die
Sekundarstufe I. Zeitschrift für Erziehungswissenschaft, 10. Jg., H. 1,
108-120.
Trautwein, U., u.a. (2008): Die Sekundarstufe I im Spiegel der empiri-
schen Bildungsforschung: Schulleistungsentwicklung, Kompetenz-
niveaus und die Aussagekraft von Schulnoten. In: Schlemmer/Gerst-
berger (2008, 91-107).
Urabe, M. (2009): Funktion und Geschichte des deutschen Schulzeug-
nisses. Klinkhardt: Bad Heilbrunn.
World Vision (Hrsg.) (2010): Kinder in Deutschland 2010. 2. World
Vision Kinderstudie. Download: http://www.worldvision-institut.de/
_downloads/allgemein/Kinderstudie2010_Zusammenfassung. pdf
[Abruf: 28.11.2013].
World Vision (Hrsg.) (2013): Kinder in Deutschland 2013. 3. World Vision
Kinderstudie. Download:http://www.stern.de/panorama/infografiken-zur-
world-vision-kinderstudie-was-kindern-wirklich-wichtig-ist-2071288-
341bf8048e0ad9c4.html
III
Kurzfassung
für eilige LeserInnen
Sind Noten nützlich - und nötig?
Ein erstes Problem in der Diskussion ist die unklare Leistungsbeurteilungen haben in unserem Schulsystem
Begrifflichkeit. In diesem Gutachten verstehen wir - sofern nicht nur unterschiedliche, sondern oft widersprüchliche
nicht ausdrücklich etwas anderes gesagt wird - unter Funktionen zu erfüllen: als Beschreibungen orientieren sie
»Noten« bzw. »Zensuren« Ziffernnoten, die zur formellen über den individuellen Leistungsstand und über Möglich-
Beurteilung verwendet werden, z.B. bei Klassenarbeiten keiten zu dessen gezielter Verbesserung; sie sind damit ein
oder in Zeugnissen. pädagogisches Medium zur Förderung des Lernens. Als
»Leistungsbeurteilung« verwenden wir als Obergriff für Bewertungen dienen sie der Disziplinierung und Selektion.
die Beschreibung und die Bewertung von Leistungen - Spätestens seit der UN-Kinderrechtskonvention erweist
zwei unterschiedliche Formen ihrer Rückmeldung, die sich ein hierarchisches Verständnis von Leistungsbeurtei-
auch in der Umsetzung sorgfältig zu trennen sind. lung als nicht mehr zeitgemäß. Nicht Anpassung und
Gehorsam, sondern Mitbestimmung und Selbstverantwortung
sind vorrangige Erziehungsziele einer demokratischen
Schule. Schärfere Selektion führt im Übrigen nicht zu besse-
ren Leistungen wie die internationalen Leistungsstudien
gezeigt haben.
Empfehlung:
Eine demokratische Schule hat die Persönlichkeit der Schü-
lerInnen durch Formen der Dokumentation und der Bewer-
tung von Leistung zu achten, die ihre Selbstständigkeit
fördern statt Abhängigkeiten zu verstärken. Einem solchen
Verständnis von Schule sind Noten als Belohnungs-/-
Bestrafungssystem nicht mehr angemessen. Vielmehr ist die
Fähigkeit zur Selbsteinschätzung und zum konstruktiven
Umgang mit Kritik zu fördern. Hierfür ist eine sachliche
Information der SchülerInnen über den individuellen Stand
ihrer Lern- und Leistungsentwicklung unerlässlich.
Empfehlung:
Ziffernoten sind zu ersetzen durch differenziertere Formen
der Dokumentation und der Bewertung von Leistungen.
Rückmeldung und Bewertung sind klar zu trennen. Beschrei-
bungen sollen den Leistungsstand bezogen auf konkrete
Lernziele und die individuelle Entwicklung darstellen. Das
1 Der folgende Text ist eine Zusammenfassung der ausführlichen lernförderliche Potenzial differenzierter Rückmeldungen wird
Expertise, in dem die einschlägigen Publikationen, insbesondere die in der Praxis aber nur dann zur Geltung gebracht werden
empirischen Studien, differenziert ausgewertet und belegt sind. Verweise
können, wenn die entsprechenden Rahmenbedingungen
im Text beziehen sich auf die entsprechenden Kapitel der Langfassung.
Unsere Analysen legen grundlegende Probleme einer pädagogischen
geschaffen werden: vor allem durch eine Verringerung des
Leistungsbeurteilung offen, die konkreten Folgerungen beziehen sich Selektionsdrucks im Bildungssystem und durch eine fach-
aber vor allem auf die Grundschule. liche Qualifizierung der LehrerInnen.
VIII
Die Ergebnisse Deren Fehleranfälligkeit verliert erst an Bedeutung, wenn sie
unserer Analysen im Einzelnen nicht zu Selektionszwecken eingesetzt werden. Für lern-
förderliche Rückmeldungen sind Empathie und eine persön-
liche Beziehung sogar von Vorteil. Im Übrigen kann die
Noten sind informationsarm. Dieselbe Punktzahl in einer Nutzung von standardisierten Tests zwar die Datengrundlage
Probe kann Ausdruck ganz unterschiedlicher Leistungen von Beurteilungen erweitern; ersetzen können die - ebenfalls
sein. Entsprechend werden unterschiedliche Leistungsprofile fehleranfälligen - Tests das Lehrerurteil aber nicht.
mit derselben Ziffer belegt.
Empfehlung:
Empfehlung: Leistungen sind möglichst zu mehreren Zeitpunkten und
Leistungen sollten nicht nur bewertet, sondern zunächst in unterschiedlichen Aufgaben/Situationen zu erfassen.
differenziert beschrieben werden. Die individuellen Stärken Vorstrukturierte Portfolios bieten eine gute Möglichkeit,
und Entwicklungsmöglichkeiten verdienen eine besondere Leistungen differenzierter, aus verschiedenen Perspektiven
Beachtung. Wo Noten vorgeschrieben bleiben, sind sie und in ihrer Entwicklung über die Zeit hinweg zu dokumen-
schriftlich oder im Gespräch inhaltlich zu kommentieren. tieren. Bewertet werden sollten Leistungen möglichst von
mehreren Personen, die den Kontext der Leistung und ihrer
Entwicklung kennen.
Noten sind nicht vergleichbar, da die Bewertung in der
Regel auf den Durchschnitt einer Klasse bezogen wird.
Je nach Leistungsniveau der einzelnen Klasse wechseln die Als Alternative zu Noten werden Verbalbeurteilungen
Noten für dieselbe Leistung. Zudem sind die Maßstäbe je vorgeschlagen. Da sie in der Regel wie Noten auf den
nach Fach und Altersstufe unterschiedlich. Beobachtungen und Bewertungen von LehrerInnen basieren,
unterliegen sie aber denselben Einschränkungen, was ihre
Empfehlung: Validität, Objektivität und Reliabilität angeht. Ihr Vorzug
Soweit Leistungen überhaupt vergleichend beurteilt werden, gegenüber Noten: Zumindest vom Anspruch her erfassen sie
sollten Bewertungen auf klassenübergreifende Stichproben Leistungen differenzierter, ihre Aussagen lassen individuelle
bezogen werden (z.B. in Form von Prozentrangplätzen in Besonderheiten besser erkennen und sie orientieren sich
normierten Tests). Allerdings muss bedacht werden, dass stärker am Lernfortschritt; darüber hinaus machen sie
Tests nur bestimmte Arten von Leistungen erfassen können. die Maßstäbe der Lehrperson und die Lernbedingungen
Sie dürfen deshalb nicht zum heimlichen Curriculum werden deutlicher erkennbar. In der Realität werden Verbalgutachten
- zum Beispiel über zentrale Lernstandserhebungen. diesen Anforderungen in vielen Fällen aber nicht gerecht.
Empfehlung:
Vorrangig orientiert sich die Leistungsbewertung immer Um die Vorteile einer verbalen Dokumentation und entwick-
noch am Vergleich mit einer Bezugsgruppe. Die Dominanz lungsbezogenen Bewertung von Leistungen stärker zur
des sozialen Vergleichs bei der Notengebung widerspricht Geltung zu bringen, sind vier Maßnahmen erforderlich:
allerdings den rechtlichen Vorgaben. Sie hat zudem negative - Sensibilisierung von LehrerInnen für die Schwierigkeiten
Auswirkungen auf die Lernmotivation von leistungs- bzw. Fallen von Beurteilungen sowie für die Erwartungen
schwächeren SchülerInnen, und sie beschädigt die Kraft und Lesarten der Zielgruppen;
intrinsischer Motivation auch bei den leistungsstärkeren. - eine gezielte Aus-/Fortbildung ihrer Kompetenzen zur
Erfassung, Interpretation, Bewertung und differenzierten
Empfehlung: Darstellung von Leistungen sowie von deren Entwicklung;
Die Bewertung von Leistungen muss sich deshalb stärker an - Entwicklung von fachdidaktisch begründeten Kriterien
Lernzielen und in der Grundschule vor allem am individuellen für die Beurteilung von Leistungen - und zwar immer wieder
Lernfortschritt (Entwicklungsnorm) orientieren. neu in Zusammenarbeit mit den LehrerInnen vor Ort;
- Organisation eines kontinuierlichen kollegialen Aus-
tausches über die Maßstäbe und über ihre Anwendung
Zensuren sind Urteile von Lehrpersonen. Sie basieren in kritischen Fällen.
in der Regel auf informellen Leistungsproben und Be-
obachtungen. Diese Daten und ihre Bewertung in Form
von Noten haben sich als nicht zureichend gültig (»valide«), Gegen eine ausschließlich verbale Begutachtung unter
personunabhängig (»objektiv«) und verlässlich (»reliabel«) völligem Verzicht auf Noten haben viele Eltern, LehrerInnen
erwiesen. Soziale und ethnische Herkunft, Geschlecht, aber und SchülerInnen immer noch Vorbehalte. Diese Skepsis hat
auch Verhaltensauffälligkeiten und persönliche Sympathie aber in der Grundschule und dort besonders bei Personen,
führen zu systematischen Verzerrungen der Beurteilung. die eigene Erfahrungen mit dieser Praxis haben, deutlich
IX
abgenommen. Empirisch widerlegt sind die Befürchtungen, Fazit:
Verbalbeurteilungen hätten einen negativen Einfluss auf die Vier Resümees aus vier Perspektiven
Leistungsbereitschaft. Bei konsequenter Umsetzung einer
ziel- und entwicklungsorientierten Bewertung von Leistungen
lassen sich im Gegenteil sogar positive Effekte auf das Wie bei allen pädagogischen Fragen (und sozialen Phäno-
Lernklima in der Klasse sowie auf die Einstellungen und die menen generell) ist die Befundlage zu Noten nicht auf einen
Motivation der SchülerInnen nachweisen. einfachen Nenner zu bringen. Formen der Leistungs-
beurteilung wirken unterschiedlich, je nachdem wie und in
Empfehlung: welchem Kontext sie eingesetzt werden. Für Folgerungen
Wie auch in vielen beruflichen Bereichen sollten zunehmend aus dem Forschungsstand kommt es deshalb darauf an,
dialogische Formen einer Verbindung von Selbst- und Fremd- von welcher Basisannahme man ausgeht: Wer die Beweis-
beurteilungen erprobt werden. Die Fähigkeit zur Wahr- last für Veränderungen bei den Reformern sieht, kann
nehmung und Einschätzung der eigenen Leistung ist gezielt zu einer anderen Einschätzung kommen als jemand, der
zu entwickeln und in der alltäglichen Anwendung zu unter- normativ die Förderung des Einzelnen als zentrale Norm und
stützen. Noten »von oben« fördern weder diese Fähigkeit noch uneingelöste Aufgabe der Schule sieht. Vor diesem
noch die Bereitschaft zur Selbstkritik, sondern provozieren Hintergrund lassen sich als Ergebnis unserer Analysen vier
eher Abwehr- oder Ausweichverhalten. Eine symmetrische Folgerungen formulieren:
Beziehung schließt außerdem ein, dass die SchülerInnen
nicht nur ihre eigene Leistung, sondern auch die Bedeutung Wer an Ziffernnoten festhalten will, weil sie angeblich
von Lernbedingungen einzuschätzen lernen. objektiv und vergleichbar seien bzw. erforderlich, damit
SchülerInnen sich auf die Anstrengungen des Lernens ein-
lassen, findet in der Empirie keine stützenden Belege für
Trotz der durchgängig negativen Befunde über Nutzen seine Position.
und Nebenwirkungen von Ziffernnoten dürfte deren Abschaf-
fung schwierig werden. Dies hängt vor allem mit der frühen Auch diejenigen, die Verbalgutachten ablehnen, weil sie
und starken Selektionsorientierung des deutschen Schul- negative Auswirkungen auf die Lernbereitschaft und den
systems zusammen. Eine rein »technische« Verbesserung fachlichen Lernerfolg der SchülerInnen befürchten, können
des Beurteilungswesens wird deshalb in der Praxis nicht viel sich auf keine empirischen Daten stützen.
bewirken, wenn sich die institutionellen Bedingungen nicht
ändern: Verlängerung der gemeinsamen Schulzeit; Abschaf- Wer andererseits hofft, ohne zusätzliche Maßnahmen,
fung von Zurückstellungen am Schulanfang, der Wieder- d.h. allein durch die Verordnung von Verbalgutachten Lern-
holung von Klassen und der Aussonderung in Sonderschulen. bereitschaft und Lernerfolg von SchülerInnen verbessern zu
können, wird durch die Befunde zur bisherigen Beurteilungs-
Empfehlung: praxis und ihre Wirkungen ernüchtert. Ohne eine päda-
Der Förderauftrag der Schule muss bildungspolitisch, in gogische und didaktische Öffnung des Unterrichts und ohne
den Schulprogrammen und in der täglichen Arbeit vor Ort die Sicherung bestimmter Rahmenbedingungen bleibt eine
Vorrang vor der Selektion gewinnen. PISA-Spitzenreiter wie Veränderung der Bewertung meist erfolglos.
Schweden - oder im deutschsprachigen Raum: Südtirol -
kommen seit vielen Jahren ohne vergleichende Noten aus. Diejenigen aber, die mit dem Verzicht auf Ziffernnoten
Werden dagegen Sanktionen an die Bewertung von Leis- pädagogische Ziele verfolgen, können mit einer Verbes-
tungen geknüpft, ist mit einem Rückschlag in dem Bemühen serung der Unterrichtssituation und der Motivation der
um Verbesserungen zu rechnen. Ranking sowie Selektion SchülerInnen sowie ihres Lernerfolgs rechnen, sofern sie
in und von Schulen haben sich vor allem in den angelsächsi- bereit sind,
schen Ländern als pädagogisch kontraproduktiv erwiesen. - als LehrerInnen sich auf den höheren, aber lohnenden
Aufwand einzulassen,
- als Schulverwaltung die für Evaluation verfügbaren
Ressourcen gezielter in die Fortbildung und Unterstützung
der LehrerInnen zu investieren und
- als BildungspolitikerInnen den Selektionsdruck im
System zu verringern und Rahmenbedingungen wie die
Schüler-Lehrer-Relation zu verbessern.
X
Langfassung
Sind Noten nützlich - und nötig?
1 Mit welchen Verfahren werden Leistungen 3 Wie werden verschiedenen Formen der
erfasst? 15 Leistungsbeurteilung umgesetzt, und welche
1.1 Wie gut erfassen Leistungsbeurteilungen, Wirkungen haben sie? 32
was sie erfassen sollen? (Validität) 15 3.1 Wie weit werden Ziffernnoten und Verbalgutachten
1.1.1 Wie gut sind die Kriterien für Leistungs- ihren eigenen Ansprüchen gerecht? 32
beurteilungen inhaltlich abgesichert? 16 3.2 Welche (Neben-)Wirkungen haben verschiedene
1.1.2 Wie gut stimmen Beurteilungen aus Beurteilungsformen? 34
verschiedenen Quellen überein? 17 3.2.1 Gibt es einen Zusammenhang zwischen
1.1.3 Wie genau lässt sich aus der Beurteilung Unterrichtskonzept und Beurteilungsform? 34
von Leistungen deren zukünftige Entwicklung 3.2.2 Beeinflusst die gewählte Beurteilungsform das
vorhersagen (prognostische Validität) 18 Unterrichtsklima? 34
1.1.3.1 Kindergarten > Schulerfolg 18 3.2.3 Beeinflusst die gewählte Beurteilungsform zentrale
1.1.3.2 Schule > Fachleistungen über die Schuljahre Merkmale der Persönlichkeitsentwicklung? 35
hinweg 19 3.2.3.1 Beeinträchtigen oder stützen Ziffernnoten
1.1.3.3 Schule > Studien-/Ausbildungserfolg 20 bzw. Verbalgutachten die Lernmotivation? 35
1.1.3.4 Studium/Ausbildung > Berufserfolg 21 3.2.3.2 Verringern oder vergrößern Ziffernnoten bzw.
1.1.4 Zwischenbilanz zu »Validität« 22 Verbalgutachten die Schul- und Prüfungsangst? 37
1.2 Wie unabhängig sind Beurteilungen 3.2.3.3 Schädigen oder stärken Ziffernnoten bzw. Verbal-
von persönlichen Einflüssen? (Objektivität) 22 gutachten das Selbstkonzept? 38
1.2.1 Objektivität des Lehrerurteils 22 3.2.4 Belasten oder fördern Ziffernnoten bzw. Verbal-
1.2.2 Kann der Einsatz standardisierter Tests das gutachten die Leistungsentwicklung? 39
Objektivitätsproblem lösen? 24 3.2.5 Zwischenbilanz zu »Wirkungen« 40
1.2.3 Wie weit lässt sich das Lehrerurteil
objektivieren? 25 4 Wie gut erfüllen Ziffernnoten und Verbal-
1.2.4 Zwischenbilanz zu »Objektivität« 26 gutachten wichtige Funktionen aus der Sicht
1.3 Wie verlässlich sind verschiedene Beurteilungs- der Betroffenen? 40
verfahren? (Reliabilität) 26 4.1 Einschätzungen von LehrerInnen 40
1.3.1 Die Zuverlässigkeit des Lehrerurteils 26 4.2 Einschätzungen von SchülerInnen 42
1.3.2 Die Zuverlässigkeit von Tests 27 4.3 Einschätzungen von Eltern 44
1.3.3 Zwischenbilanz zu »Reliabilität« 27 4.4 Einschätzungen von Arbeitgebern 47
1.4 Fazit 27 4.5 Einschätzungen in der Öffentlichkeit 47
4.6 Zwischenbilanz zu »Einschätzungen« 49
2
Vorweg:
Resümees aus vier
Perspektiven1
6 Zwischenbilanz und pädagogische
Folgerungen 52
6.1 Grundlegende Einwände 52 Wie bei allen pädagogischen Fragen (und sozialen Phäno-
6.1.1 Genereller Verzicht auf eine Rückmeldung mene generell) ist die Befundlage zu Noten nicht auf einen
zu Leistungen? 52 einfachen Nenner zu bringen. Formen der Leistungsbeurtei-
6.1.2 Verzicht auf eine Zertifizierung nach außen? 53 lung wirken unterschiedlich, je nachdem wie und in welchem
6.1.3 Verzicht auf Ziffernnoten als Form der Kontext sie eingesetzt werden. Für Folgerungen aus dem
Beurteilung? 53 Forschungsstand kommt es deshalb darauf an, von welcher
6.2 Keine Beurteilungsform erfüllt alle Anforderungen - Basisannahme man ausgeht: Wer die Beweislast für Ver-
einfache Auswege aus dem Bewertungsdilemma änderungen bei den Reformern sieht, kann zu einer anderen
gibt es nicht 53 Einschätzung kommen als jemand, der normativ die Förde-
6.3 Daten aus verschiedenen Erhebungsverfahren rung des Einzelnen als zentrale Norm und noch uneingelöste
sind miteinander zu verbinden 54 Aufgabe der Schule sieht. Vor diesem Hintergrund lässt sich
6.4 Bewertungen müssen auf unterschiedliche als Ergebnis unserer Analysen festhalten:
Bezugsnormen bezogen werden 55
6.5 In dialogischer Form sollten Fremd- durch Wer an Ziffernnoten festhalten will, weil sie angeblich
Selbsteinschätzungen ergänzt werden 55 objektiv und vergleichbar seien bzw. erforderlich, damit
SchülerInnen sich auf die Anstrengungen des Lernens ein-
7 Fazit und bildungspolitische Bewertung 58 lassen, findet in der Empirie keine stützenden Belege für
seine Position.
8 Literaturnachweise, weiterführende Literatur
und Abbildungsverzeichnis 60 Auch diejenigen, die Verbalgutachten ablehnen, weil
sie angeblich negative Auswirkungen auf die Lernbereitschaft
und den fachlichen Lernerfolg der SchülerInnen haben, kön-
nen sich auf keine empirischen Daten stützen.
3
0 aspekten treffen zu können. Und selbst innerhalb solch eng
gefasster Bereiche ist das Datenmaterial sehr heterogen8.
Auftrag und Kontext Eine bloß statistische Verdichtung der Daten wäre kaum
der Expertise möglich gewesen. Ohne theoriebezogene Interpretationen
wäre sie sehr oberflächlich und damit missverständlich
»Rund 400 Millionen Zensuren werden jährlich in der Bun- geblieben.
desrepublik Deutschland von den etwa 500.000 Lehrern in Zudem täuscht der Anschein, als handele es sich bei
über 300.000 Schulklassen an die knapp zehn Millionen Metaanalysen um rein technische Verrechnungen, generell.
Schüler vergeben; jeder Schüler wird hierzulande also pro Zwar ist dieses Instrument methodisch inzwischen gut etab-
Jahr etwa 40-mal offiziell zensiert. In jeder Unterrichtsstunde liert9. Aber es gibt eine Reihe von Einschränkungen, die
ergehen an deutschen Schulen fast 300.000 und in jeder bei seiner Nutzung zu bedenken sind: »In Metaanalysen
Minute an die 5.000 Noten.«2 werden die statistischen Daten verschiedener Studien nach
Diese schon 20 Jahre alte Schätzung signalisiert un- explizit definierten Kriterien miteinander verrechnet. Damit
missverständlich die hohe Bedeutung des Themas. Noten wird der Anspruch erhoben, den Einfluss der jeweils be-
sind sowohl unter den Betroffenen als auch in Fachkreisen sonderen Kontextbedingungen in den Einzelstudien sowie
ein viel diskutiertes Thema. Ihr Nutzen war und ist heftig den persönlichen Einfluss der AuswerterInnen zu reduzieren.
umstritten3. Angesichts der ungebrochen harten Ausein- Ausschalten lässt sich das subjektive Moment aber auch
andersetzungen ein erstes frappierendes Ergebnis unserer hier nicht. Es kommt bereits zum Tragen bei der Entschei-
Literaturrecherche: Zentrale empirische Befunde zur Prob- dung über die anzulegenden Kriterien, wenn die Frage
lematik von Noten liegen seit 50 Jahren, zum Teil noch ansteht, welche Studien überhaupt als forschungsmethodisch
länger vor. Seit den 1970er Jahren sind diese Studien im adäquat in die geplante Metaanalyse einbezogen werden
deutschen Sprachraum vor allem von Ingenkamp (1971, sollen. Denn für die ›methodische Qualität‹ von Studien
1975, 1981, 1989, 1991) in systematisierenden Überblicken gibt es unterschiedliche Maßstäbe. Auch für die Alter-
publiziert worden. Ihre Befunde sind in der Zwischenzeit nativen, ob man die berücksichtigten Studien einzeln zählt,
durch weitere Studien bestätigt und erneut mehrfach zusam- also ihre Ergebnisse gleichgewichtig verrechnet, oder ob
mengefasst worden4. Trotz dieser empirisch fundierten Kritik man die Kennwerte nach der Zahl der jeweils in der Studie
hat sich in der Wahrnehmung durch die Betroffenen (durch untersuchten Fälle gewichtet, gibt es jeweils gute Gründe.
SchülerInnen, Eltern und LehrerInnen, aber auch durch die Am stärksten kommt die persönliche Position der Wissen-
Öffentlichkeit) und erst recht im Schulalltag nur wenig verän- schaftlerInnen, die die Metaanalyse durchführen, in der
dert. Soweit es in den letzten Jahren Veränderungen gab verbalen Zusammenfassung der Rechenergebnisse zum
(vor allem im Grundschulbereich5) sind eher Tendenzen zu Ausdruck. An dieser Stelle wird notwendigerweise fokussiert,
beobachten, das Rad der Entwicklung zurückzudrehen, ja, gewichtet, geglättet, gedeutet - denn Zahlen sprechen
die Noten über den Leistungsbereich hinaus auszuweiten6. nicht für sich.«10
Vor diesem Hintergrund hat der Grundschulverband die Angesichts dieser Einschränkungen und der begrenzten
vorliegende Expertise in Auftrag gegeben. Es soll die For- zeitlichen und finanziellen Ressourcen haben wir uns dafür
schungsergebnisse zu Ziffernnoten und alternativen Formen entschieden, die vorliegenden Studien in Form einer Sekun-
der Leistungsbeurteilung sichten und bewerten. Im Fokus däranalyse interpretativ zusammenzufassen. Für dieses
des Gutachtens steht die Grundschule. Viele der ausgewer-
teten Studien und auch viele unserer Überlegungen beziehen
sich aber auf grundsätzliche Fragen der Leistungsbeurteilung 2 Mreschar (1985, 41).
3 Vgl. u.a. die Pro & Contra-Diskussionen von Ramseger (1993a+b)
und reichen deshalb über diese Schulstufe hinaus.
vs. Schröter (1993); Einsiedler vs. Schöll (1995); Herrmann (2003)
vs. Brügelmann (2003); Brügelmann (2005) vs. CDU-Bremen (2005),
0.1 vgl. dazu auch Wolschner (2005).
4 Vgl. u.a. Zielinski (1974a+b); Becker/Hentig (1983); Bartnitzky/Port-
Ansatz und Aufbau des Gutachtens mann (1992); Oelkers (2001) und die deutliche Kritik von PädagogInnen
aus der Grundschulpraxis, etwa bei Bolscho u.a. (1979); Bartnitzky/
Christiani (1987); Schmitt (1999, 137 ff.).
Es gab für uns zwei Optionen, diese Expertise zu erstellen7:
5 Da aber auch schon viel früher, vgl. Petersen (1974) zum »Jenaplan«
entweder über eine statistische Meta- oder durch eine von 1927, die Abschaffung der Noten in den Waldorfschulen - sogar bis
interpretative Sekundäranalyse der vorliegenden empiri- Klasse 12 - und bei den Freineit-PädagogInnen ebenfalls in den 1920er
schen Studien. Jahren.
Bei einer Metaanalyse werden die Daten verschiede- 6 S. zur Debatte über Kopfnoten die Hinweise > Kap. 0.4.
7 Vgl. zum Folgenden ausführlicher: Brügelmann/Heymann (2006).
ner Studien zu übergreifenden Kennwerten verrechnet. Die
8 S. die Aufschlüsselung in > Kap.1 bis 4.
Komplexität der Notenproblematik hätte in unserem Fall 9 Vgl. Glass (1976; 1977); Hunter u.a. (1982/2004); für den deutschen
mehrere getrennte Metaanalysen erforderlich gemacht, Sprachraum: Fricke/Treinies (1985).
um differenziertere Aussagen zu den verschiedenen Teil- 10 Brügelmann/Heymann (2006, 2-3).
4
Vorgehen spricht auch der unterschiedliche Status der einbe- In welcher Funktion werden Leistungen beschrieben
zogenen Untersuchungen. Sie reichen von Laborversuchen und bewertet
über Feldexperimente bis hin zu Beobachtungen und Befra- (> Kap. 0.3 und 7)
gungen unter nicht kontrollierten Bedingungen. Leistungen können im Blick auf einen festzustellenden För-
Das Problem einer solchen research synthesis ist, dass derbedarf beurteilt werden oder auch, um den Unterricht zu
die Auswahl, Ordnung und Deutung der Forschungsergeb- verbessern. Im deutschen Schulsystem dominieren dagegen
nisse in noch höherem Maße von den Personen abhängt, die die Selektions- und Disziplinierungsfunktion. Dieser institutio-
die Sichtung vornehmen, als bei einer Metaanalyse. Wir nelle Kontext prägt die Wirkung von Noten - und schränkt die
haben uns bemüht, den Prozess der Verdichtung durchsich- Möglichkeiten alternativer Beurteilungsformen ein.
tig und nachvollziehbar zu halten11 - weshalb neben der
Kurzform mit den zentralen Ergebnissen des Gutachtens Über welche Verfahren werden Leistungen erfasst?
zusätzlich diese sehr ausführliche Darstellung der Befunde (> Kap. 1)
und ihrer Würdigung publiziert wird. Außerdem haben wir Noten wird vorgeworfen, sie seien nicht objektiv, nicht valide
versucht, innerhalb des Gutachtens Analyse (> Kap. 1 bis 5) und nicht zuverlässig. Diese Probleme haben aber auch
und Folgerungen (> Kap. 6 und 7) möglichst deutlich zu tren- Verbalzeugnisse. Beider Datengrundlage ist an die Person
nen. Im analytischen Teil sind deshalb auch widersprüchliche der Beurteilenden und ihre Auswahl der Instrumente zur
Befunde repräsentiert. Durch die Beteiligung von neun Erhebung von Leistungen gebunden. Insofern sind als Alter-
Personen an ihrer Sichtung und Bewertung und durch die native zu Klassenarbeiten und informellen Beobachtungen
intensiven team-internen Diskussionen wurde schon ein standardisierte Tests und strukturierte Beobachtungen zu
hohes Maß an sozialer Kontrolle persönlicher Sichtweisen diskutieren.
erreicht. Zusätzlich haben wir eine Vorfassung dieses
Gutachtens auswärtigen ExpertInnen zur Kritik vorgelegt. In Anhand welcher Maßstäbe werden Leistungen bewertet?
beiden Fällen sind substanzielle Differenzen im Gutachten (> Kap. 2)
selbst dokumentiert. Als Validierung unseres Vorgehens wer- Noten wird eine einseitige Orientierung an der sozialen
ten wir den hohen Deckungsgrad unseres Resümees der Bezugsnorm - mit der jeweiligen Schulklasse als dominieren-
deutschsprachigen Literatur mit den Ergebnissen und dem Maßstab - vorgeworfen. Diese Verbindung ist aber nicht
Folgerungen neuerer reviews aus dem angelsächsischen zwingend. Noten können sich auch am Lernfortschritt oder
Bereich12. an den Anforderungen orientieren (und sollen dies sogar, vgl.
Menschliche Erkenntnis- und Urteilskraft ist immer be- bereits KMK 1968). Umgekehrt orientieren sich auch Verbal-
grenzt. Insofern ist es einfach, die Schwächen einer jeden zeugnisse nicht zwangsläufig an der individuellen Entwick-
Form von Leistungsbeurteilung nachzuweisen, wenn man sie lung. Die Bedeutung und die Wirkungen unterschiedlicher
nur für sich betrachtet. In unserem Gutachten haben wir des- Maßstäbe für die Bewertung von Leistungen sind also über-
halb Potenzial und Grenzen von Ziffernnoten im Vergleich greifend zu klären.
untersucht.
Noten sind seit langem umstritten. Als Alternative wurden In welchen Formen werden Leistungsbeurteilungen
und werden Verbalzeugnisse empfohlen. In der Gegen- dargestellt?
überstellung dieser beiden Formate werden allerdings ver- (> Kap. 3)
schiedene Argumentationsebenen vermischt. Damit wird Erst auf dieser Stufe geht es um Ziffernnoten vs. sprachliche
die Klärung der Titelfrage erschwert. So werfen Ziffernnoten Formulierungen. Dabei interessieren vom Gutachtenauftrag
sehr unterschiedliche Probleme auf. Drei Entscheidungs- her zwei Fragen:
fragen mit je besonderen Problemen sind zu unterscheiden:
Werden die Ansprüche der beiden Zeugnisformen in der
die Wahl der Verfahren zur Feststellung des Lernerfolgs praktischen Umsetzung tatsächlich eingelöst? (> Kap. 3.1)
(informelle vs. standardisierte Aufgaben, offene vs. struktu- Welche Wirkungen haben verschiedene Rückmelde-
rierte Beobachtung) formate auf den Unterricht bzw. auf die Entwicklung
die Wahl der Bezugsnorm zur Bewertung des Lern- der SchülerInnen (Erfüllung verschiedener Erwartungen/
erfolgs (nach Annäherung an das Lernziel und/oder individu- Funktionen und etwaige negative Nebenwirkungen)?
ellem Lernforschritt und/oder relativer Leistungsposition in (> Kap. 3.2)
einer Gruppe)
die Wahl der Darstellungsform in der Rückmeldung 11 Allerdings war es uns angesichts des zeitlich und finanziell knappen
(Beschreibung vs. Bewertung, freie Formulierung vs. Ziffern). Rahmens auch nicht möglich, die einzelnen Studien ähnlich systematisch
zu bewerten, wie das etwa nach den Guidelines des »Evidence for Policy
Diese drei Aspekte werden im Schul- und Berufsalltag in
and Practice Information and Coordinating Centre (EPPI- Centre)« ge-
unterschiedlichen Kombinationen realisiert. Dabei sind die fordert wird, vgl. u.a. Harlen/Deckin Crick (2002, 19-29); Harlen (2004,
gängigen Muster nicht sachlich zwingend. Insofern sind im 22-32); Newman u.a. (2004).
Folgenden mehrere Teilfragen sorgfältig zu trennen: 12 Vgl. Harlen/Deakin Crick (2002); Harlen (2004a+b).
5
Wie werden verschiedene Zeugnisformen wahrgenommen? späten Selektionsanforderungen). Aber auch die Häufigkeit
(> Kap. 4) von Zurückstellungen am Schulanfang, von Überweisungen
Wer Beurteilungsformen ändern will, muss deren Akzeptanz in Sonderschulen und von Klassenwiederholungen variiert
und etwaige politische Vorbehalte bzw. persönliche Beden- erheblich zwischen verschiedenen Ländern (> Kap. 0.4).
ken und Ängste kennen. Unabhängig von den empirisch fest- Abgesehen von einigen grundlegenden Untersuchungen
gestellten Stärken und Schwächen verschiedener Formate aus Großbritannien und den USA und den bereits erwähnten
geht es darum, wie die Beteiligten selbst die Leistungsfähig- Metaanalysen und reviews konzentrieren wir uns in diesem
keit unterschiedlicher Darstellungsformen einschätzen. Im Gutachten deshalb auf Studien aus den deutschsprachigen
Vordergrund steht die Frage, wie gut die Formate die unter- Ländern mit ihren noch vergleichsweise ähnlichen Schul-
stellten Funktionen - nach Einschätzung verschiedener systemen. Erfreulicherweise gibt es aus den letzten fünf bis
Gruppen - erfüllen (insbesondere Informationsgehalt und zehn Jahren eine Reihe relevanter und methodisch fundierter
Verständlichkeit der Rückmeldung). Vergleichsuntersuchungen zu Ziffernnoten und Berichts-
zeugnissen.
In welchem Verhältnis stehen Aufwand und Ertrag Wegen ihrer breiten Anlage innerhalb des Bereichs
verschiedener Darstellungsformen? Leistungsbeurteilung sind die folgenden Studien besonders
(> Kap. 5) bedeutsam:
Die Chancen von Reformen hängen schließlich auch davon
ab, dass sie von den Beteiligten nicht nur als inhaltlich wich- Das Projekt NOVARA19 (s. zum Projektdesign Valtin
tig, sondern auch als praktikabel, zumindest aber nicht als 1999; 2002d) untersuchte in der Umbruchphase nach der
unergiebige zusätzliche Belastung wahrgenommen werden. Wende im Vergleich von 41 Ost- und West-Berliner Klassen
- die Akzeptanz der Verbalbeurteilung bei LehrerInnen,
0.2 Kindern und Eltern;
- die Realisierung der Ansprüche in den Beurteilungen und
Datengrundlage des Gutachtens - die Auswirkungen auf zentrale Persönlichkeitsmerkmale
und ausgewählte Fachleistungen der SchülerInnen.
Unsere Literatursuche in internationalen Datenbanken zu Der Längsschnitt wurde im Projekt SABA20 fortgeführt bis zur
Stichworten wie »assessment«, »marking« und »grading« sechsten Klasse, in Berlin Abschluss der Grundschulzeit. In
war wenig ergiebig13. Auf den ersten Blick überrascht dies, einer Teilstichprobe (NOVUS21) wurde darüber hinaus der
werden doch in den angelsächsischen Ländern alle denk- Zusammenhang zwischen den Beurteilungsformen und dem
baren Aspekte von Unterricht immer wieder empirisch unter- Unterricht selbst untersucht.
sucht. Zu bedenken ist aber, dass die Notendiskussion nicht
überall den gleichen Stellenwert (mehr) hat14. In vielen west-
lichen Industrieländern besteht eine langjährige Tradition, für 13 So liefert das europäische Datenbanksystem eurydice zwar einen
die Leistungsbeurteilung standardisierte Tests einzusetzen. vergleichenden Bericht zur Evaluation von Schulen, aber nicht zur
Leistungsbeurteilung von SchülerInnen > http://www.eurydice.org/
Zum Teil ist dies bereits eine Folge der empirisch begründe-
Doc_intermediaires/analysis/de/frameset_analysis.html [Abruf: 19.2.2006];
ten Kritik an Noten vor und nach dem zweiten Weltkrieg15.
auch die Datenbank des Deutschen Instituts für Internationale Pädago-
Die Probleme sind mit dem Einsatz von standardisierten gische Forschung erbrachte kaum verwertbares Material,vgl.http://
Verfahren allerdings nicht weniger geworden, wie die vehe- www.dipf.de/datenbanken/ines/IZB_bildungweltweit_ines.htm
mente Testkritik der letzten Jahre, vor allem in den USA16 [Abruf: 23.2.2006].
zeigt. Inzwischen gibt es sogar wieder die Tendenz, den 14 Die letzte Metaanalyse stammt von Fraser u.a. (1987).
15 Vgl.etwa die Übersetzungen klassischer Studien in Ingenkamp (1971).
Beobachtungen und Einschätzungen von LehrerInnen ein
16 Vgl. vor allem Kohn (1999; 2000), der sowohl die Wirkung von Noten
stärkeres Gewicht bei der Leistungsbeurteilung einzuräu- als auch von extern verordneten Tests kritisiert; s.a. Nichols u.a. (2006).
men17. Eine gezielte Suche über SchlüsselautorInnen in die- 17 S. zur Diskussion in den USA etwa Hiebert/Davinroy (1993, 1-4)
ser kritischen Diskussion über assessment hat dann auch und in Großbritannien Black/Wiliam (1998); Freitag (2001); Harlen
einige interessante Überblicke, die sich auf die Beurteilung (2004b, 4-7, 33-71).
18 Sehr hilfreich waren die reviews in: Fuchs/Fuchs (1986); Crooks
durch LehrerInnen einerseits und durch standardisierte Tests
(1988); Weston (1991); Black/Wiliam (1998); Kohn (1999; 2000); Deci
andererseits beziehen, zu Tage gefördert18.
u.a. (1999); Stiggins (1999); Linn (2000); Harlen/Deakin Crick (2002);
Vor allem angesichts der Unterschiede zwischen den Harlen (2004a+b).
Schulsystemen (> Kap. 0.5) und zwischen den kulturellen 19 NOVARA = »Noten- oder Verbalbeurteilung? Akzeptanz, Realisie-
Normen verschiedener Länder bedürfen die Ergebnisse rung und Auswirkungen«; vgl. zu einzelnen Aspekten der Studie die
ausländischer Studien sowieso einer sorgfältigen Interpre- Beiträge zu Valtin (2002a) und die Einzelarbeiten von Schmude (2001);
Wagener (2003); Thiel (2005).
tation und lassen sich nur mit Einschränkungen von einem
20 SABA = »Schulische Adaptation und Bildungsaspiration«.
nationalen Kontext auf einen anderen übertragen. Eine 21 NOVUS = »Noten oder Verbalbeurteilung: Unterrichtsorgansiation
zentrale Differenz ist etwa die unterschiedliche Dauer der und Sanktionsverhalten von Lehrkräften in Ost- und Westberliner
gemeinsamen Schulzeit (mit entsprechend frühen oder Grundschulen«.
6
Eine Projektgruppe22 um Lütgert und Tillmann hat das 0.3
Hamburger Projekt »LeiHS«23, zum Teil im Vergleich mit
Untersuchungen in Thüringen (»KomThü«)24, durchgeführt Historischer Rückblick und gesellschaftlicher Kontext28
und ausgewertet. Beiden Projekten ging es darum, »diagnos-
tisch anspruchsvolle Formen der Rückmeldung schulischer Die Verwendung von Ziffernoten ist eng verknüpft mit der
Leistungen an die Lernenden und ihre Eltern entwickeln Einführung von Zeugnissen, die sich zunächst an den weiter-
oder ausdifferenzieren zu wollen«25. In Hamburg wurde die führenden Schulen und erst später an den Volksschulen
Anwendung bestehender Instrumente (z.B. von Notenzeug- etabliert haben, und zwar teilweise mit unterschiedlichen
nissen mit Kommentarbogen und Notenzeugnissen mit Intentionen29:
Bemerkungen zum Arbeits und Sozialverhalten) durch Befra- »Als Entstehungszeit des Schulzeugnisses ergibt sich
gungen von 1.476 SchülerInnen der Sekundarstufe, 61 Kin- das 16. Jahrhundert, als schulischer Ursprungsort die höhere
dern der Grundschule sowie 1.328 Eltern und 637 Lehre- Schule. In der Elementarschule findet das Schulzeugnis erst
rInnen beider Schulstufen evaluiert. In die Thüringer Studie Aufnahme nach Einführung der allgemeinen Schulpflicht.
gingen Fragebögen von 925 Schülerinnen und Schülern, Die Urfunktion des Schulzeugnisses der höheren Schule ist
1019 Eltern, 295 LehrerInnen und eine qualitative Befragung die Auslesefunktion, diejenige des Zeugnisses der Elemen-
von 235 Grundschulkindern sowie eine Dokumentenanalyse tarschule die Kontrollfunktion, und zwar im Hinblick auf den
ausgewählter Zeugnisse ein. Die beiden oben skizzierten Schulbesuch und damit die Erfüllung der Schulpflicht.«30
Studien bieten mit ihrem Datenmaterial und Einzugsgebieten Dabei steht diese Entwicklung in engem »Zusammen-
den Forschungskontext für die eigentliche Frage einer um- hang mit der Säkularisierung und Verstaatlichung des
fassenden Studie von Iris Beutel: Können Kinder Experten Schulwesens sowie der Ausdehnung von Schule auf breite
ihrer eigenen Leistung sein?26 Bevölkerungskreise. Erst im Laufe des 19. Jahrhunderts hat-
ten sich Ziffernzensuren als unhinterfragbarer Maßstab und
Im Modellversuch »Lern- und Spielschule« in Rheinland- als Ausdruck gängiger Leistungsbeurteilung etabliert.«31
Pfalz wurden u.a. Verbalzeugnisse bis Klasse 4 erprobt, am Zeugnisse sollten Fähigkeiten ausweisen, um die Ver-
Ende ergänzt um ein Ziffernzeugnis als Anlage. Aus dieser gabe von Berufspositionen an Leistung statt an Herkunft zu
Längsschnittstudie wurden SchülerInnen, Eltern und Lehre- binden. Das Leistungsprinzip stellte somit einen großen
rInnen in 15 Versuchs- und 7 Kontrollklassen (329 bzw. 157 Fortschritt dar gegenüber dem Abstammungsprinzip der feu-
Kinder) zu ihren Erfahrungen und Einschätzungen befragt; dalen Gesellschaft - zumindest galt das für das Bürgertum
ergänzend wurden 468 Zeugnisse am Ende der 3. und der gegenüber dem Adel. Denn die Bindung an Zeugnisse warf
4. Klasse, also von 234 SchülerInnen, analysiert27. zwei neue Probleme auf, die normalerweise nur von privile-
gierten Schichten zu überwinden waren:
Spezifische Untersuchungen zur Kontroverse um die Aus-
sagekraft von Ziffern- vs. Verbalbeurteilung haben - ins- Es reichte nicht mehr, etwas zu können - dieses Können
besondere in Form von Zeugnisanalysen - Schmidt (1981), musste auch durch Prüfungen nachgewiesen werden. Diese
Benner/Ramseger (1985), Scheerer u.a. (1985), Freese bedeuteten nicht nur eine zusätzliche Hürde auf dem Weg in
(1990), Ulbricht (1993), Haenisch (1996a+b), Lübke (1996), den Beruf; es stellte sich auch die Frage nach ihrer Aussage-
Jürgens (1997; 1998b) und Döpp u.a. (2002) vorgelegt. kraft für die spätere Bewährung im Beruf32.
7
Prüfungen waren zudem an das Absolvieren institutionel- »eine Frucht einer Stärkung des Lernenden zugewandten
ler Bildungswege gebunden. Diese Hürde verursachte mehr- Pädagogik« in den 1920er Jahren39.
fache Kosten: früher (und teilweise heute noch) ein Schul- In den 1970er Jahren wurde die Einführung des Berichts-
geld, darüber hinaus den Unterhalt für den Schüler und seine zeugnisses40 auch von kultusadministrativer Seite vehement
Lernmittel, vor allem aber den Verzicht auf seinen Beitrag vorangetrieben41, ja zum Teil sogar »von oben« verordnet.
zum Familieneinkommen. In dieser Zeit ging es in der pädagogischen Diskussion um
Das Prüfungs- und Zeugniswesen konnte vom Bürgertum diese Beurteilungsform »vorrangig um die Technik des
auch als Mittel zur Ausgrenzung durch Selektion genutzt Berichtsschreibens«42. Diese Entwicklung ist, wie eine Ana-
werden - jetzt gegen die Arbeiterschicht. Gleichzeitig legiti- lyse der Forschungslage zeigt (> Kap. 1 ff.) in vielerlei
mierte (und legitimiert) das Leistungsprinzip gesellschaftliche Hinsicht kritisch zu betrachten. »Das erklärte Ziel der
Ungleichheit, kann sie doch als Folge unterschiedlicher Reformer der Ziffernzensur, an die Stelle der nüchternen
Fähigkeiten gerechtfertigt werden. Diese Deutung aber ist Zahl das erklärende Wort zu setzen, erwies sich in jeder
Ideologie33. Aktuell belegen dies Studien zur Elitenbildung in Hinsicht als voraussetzungsreich.«43
der Bundesrepublik Deutschland34. Sie zeigen, dass Absol- Denn Leistungsbeurteilungen haben verschiedene
ventInnen aus höheren sozialen Schichten deutlich bessere Funktionen zu erfüllen, differierend vor allem in (extern-)-
Chancen haben, in Führungspositionen zu gelangen als gesellschaftlicher und (intern-)pädagogischer Perspektive44.
BewerberInnen aus Mittel- oder Unterschicht - bei gleichen Daraus ergeben sich unterschiedliche Anforderungen - und
Abschlussnoten. jeweils spezifische Probleme45:
Mit ihrem Anspruch, als »standesunabhängige Beurtei- a) Motivationsfunktion: Durch Beurteilungen sollen Schü-
lungsgröße schulischen Lernens« zu dienen, haben sich lerInnen angehalten werden, sich den schulischen Anforde-
Zensuren erst Mitte des 19. Jahrhunderts etabliert. Ihre rungen zu stellen (»Erhöhung der Lernbereitschaft«) und
Durchsetzung in den Schulen ist eng verbunden mit der Rea- dadurch bessere Leistungen zu erbringen (»Steigerung des
lisierung des Jahrgangsklassenprinzips:35 »Das Jahrgangs- Lernerfolgs«). Vor allem den Noten wird vorgeworfen, dass
klassensystem, das um 1840 mit seinen wichtigsten Merk- die unterstellte Normalverteilung die Hälfte der Kinder von
malen, der jahrgangsweisen Einschulung, der jährlichen vornherein zum Verlieren verurteilt und damit zumindest
Versetzung nach dem Leistungsstand in allen Fächern, dem diese Gruppe demotiviert. Aber auch leistungsstarke Schüle-
verbindlichen Fächerkanon, der Festlegung von Wochen- rInnen könnten beim Kampf um Notenzehntel unter einen
stundenzahlen und Stoffverteilungen, für die höheren Schu- leistungsmindernden Stress geraten - z.B. bei Übergangs-
len in Preußen gegen viele Widerstände ministeriell verord- prüfungen für die weiterführenden Schulen. Verbalgutachten
net wurde, muß sogar als unentbehrliche Voraussetzung für stehen dagegen im Verdacht, sie beschönigten Leistungs-
den Ausbau des Berechtigungswesen angesehen werden.«36
Leistungsbeurteilungen in dieser Form wurden durch die
bürokratischen Abläufe nachvollziehbarer und durchschauba- 33 Vgl. Herrlitz u.a. (1998, 36), die auf die schon im Zuge der preußi-
rer. Schon kurz nach der Einführung des Zensurensystems schen Bildungsreform »›systematisch‹ produzierte(n) Ungleichheiten
entwickelt sich eine Kritik an diesem Beurteilungsverfahren, neuer Qualität« hinweisen und die »Durchsetzung von ›Zensuren‹ als
legitime Ordnungsschema für abgestufte Teilhabechancen und für den
die mit unterschiedlichen Nuancen bis heute währt. Verbale
sozialen Ausschluß« bezeichnen.
Beurteilungsformen, die in der historischen Entwicklung der 34 Vgl. vor allem Hartmann (2002).
Leistungsbeurteilung weitaus früher etabliert waren als 35 Vgl. Dohse (1963; 1971, 39); Ingenkamp (1995, 49); Beutel (2005,13).
Ziffernnoten, werden vielfach als alternative Beurteilungs- 36 Vgl. Ingenkamp (1995, 49).
formen vorgeschlagen und eingesetzt. »Das Instrument der 37 Vgl. Ingenkamp (1995, 50).
38 Vgl. z.B. Key (1992, 179-180) und Beutel (2005, 44-51). Beutel zieht
Zensurengebung war nicht dafür entwickelt worden, den in
hier als Beispiele Bertold Otto, Hugo Gaudig, Peter Petersen und Rudolf
der Weimarer Verfassung festgelegten Auftrag zu erfüllen,
Steiner heran.
dass für die weiterführende Schulbildung eines Kindes‚ seine 39 Vgl. Beutel (2005, 41, 26).
Anlagen und Neigungen, nicht die wirtschaftliche oder gesell- 40 In der Sekundarstufe waren es »Diagnosebögen« mit differenziert
schaftliche Stellung oder das Religionsbekenntnis seiner aufgeschlüsselten Unterkategorien, die zu einer differenzierteren Beurtei-
Eltern maßgebend’ sein sollten.«37 lung von Leistungen verhelfen sollten.
41 Vgl. Deutscher Bildungsrat (1970); Beutel (2005, 56-57); Rodehüser
In diesem Zusammenhang ist auf die kritischen Impulse
(1987, 661). Rodehüser (1987, 31) verweist in einem Schaubild auf den
und Gegenvorschläge der reformpädagogischen Bewegung Beginn einer differenzierten und individualisierenden Leistungs-
zu Beginn des 20. Jahrhunderts hinzuweisen, die sich bei beurteilung ab etwa 1968 (mit der Verselbständigung der Grundschule).
aller Unterschiedlichkeit der Ansätze einig war in der Vgl. dazu auch KMK (1970, 33) und die Kritik an Noten von Ingenkamp
»Ablehnung der Ziffernzensuren« und in der Unterstützung (1969) auf dem ersten Bundesgrundschulkongress.
42 Beutel (2005, 234).
für eine verbale Beurteilung, die den Lernprozess des
43 Beutel (2005, 234).
Individuums ins Zentrum rückt.38
44 Vgl. ausführlicher die Zusammenfassung bei Tillmann/Vollstädt
Insofern sind Lernberichte »keine Erfindung der neueren (1999).
Schulreform der 70er Jahre des 20. Jahrhunderts«, sondern 45 Vgl. für viele Zielinski (1974b, 881-882).
8
schwierigkeiten, so dass SchülerInnen der Antrieb fehle, an ren) haben sich bis heute durchgesetzt und nicht nur in
ihren Schwächen zu arbeiten. unserem Schulsystem, sondern auch in den »Köpfen der
b) Rückmelde- und Berichtsfunktion: Über die Beurteilun- Gesellschaft« fest etabliert.46
gen sollen SchülerInnen und ihren Eltern Hinweise auf den Seit einiger Zeit wird in der Diskussion um Formen der
Lernstand der Kinder bzw. Jugendlichen und evtl. Probleme Leistungsbeurteilung allerdings die wechselseitige Beziehung
erhalten. Genau dies könnten Noten nicht leisten, behaupten zwischen der Gestaltung des Unterrichts und den für sie not-
KritikerInnen, weil sie unterschiedliche Teilleistungsprofile wendigen und möglichen Beurteilungsformen thematisiert.
pauschal in einer Ziffer zusammenfassen und weil dieselbe Dabei werden auch Verbalbeurteilungen als unzureichend
Leistung ganz verschiedene Ursachen haben könne (hohe/ kritisiert. Alternativ sollten Formen der Evaluation etabliert
niedrige Ausprägung von z.B. Begabung, Vorwissen, Fleiß werden, »die einer neuen Lernkultur dienlich« sein können;
oder externer Unterstützung). Verbalgutachten dagegen das Spektrum an Erhebungs- und Bewertungsverfahren
wird vorgehalten, sie seien für SchülerInnen und Eltern oft müsse durch Elemente wie das Portfolio, das Lerntagebuch,
nicht verständlich und vor allem im Gegensatz zu Noten die Präsentation usw.47 bereichert werden.
nicht eindeutig.
c) Ausweisfunktion: Analog zur internen Rückmeldung 0.4
sollen Beurteilungen auch Außenstehenden helfen, ein zu-
verlässiges Bild von den Fähigkeiten einer Bewerberin oder Die Situation in den Bundesländern: ein Überblick48
eines Bewerbers zu gewinnen. Insofern gelten hier dieselben
Einwände wie unter (b) - verstärkt durch den Vorwurf, dass Ziffernnoten sind selbst in der Grundschule weithin Standard.
dieselbe Leistung in verschiedenen Klassen ganz unter- Verbalgutachten beschränken sich in der Regel auf Klasse 1
schiedlich bewertet werde. und 2. Die Möglichkeit, ihre Anwendung durch Beschluss der
d) Selektions- und Zuteilungsfunktion: Innerhalb des Klassen- oder Schulkonferenz auf Klasse 3 und 4 auszudeh-
Bildungssystems sollen Noten durch die Klassifikation nach nen, ist schon in der Vergangenheit nur von einer Minderheit
Leistung Auswahlentscheidungen stützen - z.B. bei Verset- der LehrerInnen und Eltern genutzt worden (s. dazu > Kap.
zungen (vs. Sitzenbleiben), bei der Feststellung eines son- 3.1 und 4). Gegenwärtig werden diese Ausnahmen auch
derpädagogischen Förderbedarfs oder bei der Zuweisung zu rechtlich weiter eingeschränkt. Außerdem wird der Beginn
den Schulformen der Sekundarstufe I. Vorbehalte beziehen der Notengebung in mehreren Bundesländern auf Klasse 2
sich auf die diagnostische Aussagekraft und auf die prognos- vorverlagert; Ausnahmeregelungen werden zunehmend re-
tische Sicherheit von Leistungsbeurteilungen. striktiv gehandhabt, wie aktuell das Beispiel Bremen zeigt49.
e) Sozialisierungs- und Disziplinierungsfunktion: In der Auch am Beispiel Frühenglisch lässt sich studieren, wie
Schule begegnen die Kinder anderen Anforderungen an ihr die anfänglich geplante Notenfreiheit mehr und mehr abge-
Leistungs- und Sozialverhalten als in der Familie und in den schafft wurde und teilweise - in Nordrhein-Westfalen 2007 -
informellen Interaktionen des Alltags. Zumindest von ihrem sogar die Versetzungsrelevanz eingeführt wird50. Und dies,
Anspruch her sehen Leistungsbeurteilungen von persönli- obwohl Kinder, Eltern und LehrerInnen in Bundesländern, die
chen Besonderheiten ab und suggerieren eine sachbezoge- an Verbalgutachten festgehalten haben, Noten zu jeweils
ne, neutrale Bewertung von Wissen und Können. Dies sei zwei Dritteln bis drei Vierteln ablehnen, wie eine aktuelle
wichtig, um Kinder und Jugendliche auf entsprechende Studie von Gompf/Henrich (2005) zeigt.
Anforderungen im stärker formalisierten öffentlichen Raum Die aktuellste Übersicht über die Situation in den Bundes-
einzustellen. Andererseits würden Leistungsbeurteilungen ländern stammt von Müller (2005, 94-97)51. Sie zeigt für alle
missbraucht, um schulische Anforderungen durchzusetzen Bundesländer, wie sich die verschiedenen Zeugnisformate
und abweichendes Verhalten zu sanktionieren. auf die Jahrgangsstufen verteilen:
9
Jahrgangsstufe 1 · Erstes Halbjahr Jahrgangsstufe 1 · Zweites Halbjahr
Baden-Württemberg Schulbericht
Bayern2 Berichtszeugnis Berichtszeugnis
Berlin Berichtszeugnis
Brandenburg Elterngespräch Lernentwicklungsbericht
Bremen Lernentwicklungsbericht
oder mündliche Information
(Beschluss durch Mehrheit der Schulkonferenz)
Hamburg Information der Eltern in »geeigneter« Weise Lernentwicklungsbericht
Hessen Berichtszeugnis und Elterngespräch
Mecklenburg-Vorpommern Lernentwicklungsbericht Lernentwicklungsbericht
Niedersachsen Berichtszeugnis Berichtszeugnis
Nordhein-Westfalen Berichtszeugnis
Rheinland-Pfalz Berichtszeugnis
Saarland Elterngespräch Berichtszeugnis
Sachsen Berichtszeugnis Berichtszeugnis
Sachsen-Anhalt Berichtszeugnis (kann aber ab Jg. 1 Berichtszeugnis
auch bereits durch Notenzeugnis
ersetzt werden durch Beschluss
der Gesamtkonferenz)
Schleswig-Holstein Elterngespräch Berichtszeugnis
Thüringen Wortgutachten Wortgutachten
Baden-Württemberg Elterngespräch auf Beschluss der Schulbericht und Noten in Deutsch und
Schulkonferenz möglich, statt Schulbericht Mathematik
Bayern Berichtszeugnis - Benotung in den einzelnen Fächern
- ab Jg. 2: Bewertung des Arbeits- und
Sozialverhaltens in standardisierter Form
Berlin Berichtszeugnis oder Elterngespräch Berichtszeugnis
Brandenburg Elterngespräch Lernentwicklungsbericht
oder Notenzeugnis (Beschluss durch Mehrheit
der Klassenkonferenz und Elternversammlung)
Bremen Lernentwicklungsbericht
Hamburg Information der Eltern in »geeigneter« Weise Lernentwicklungsbericht
Hessen Berichtszeugnis Ziffernzeugnis
- ab Jg. 2-4: Beurteilung des Arbeits- und
Sozialverhaltens durch Noten oder in
verbalisierter Form (Beschluss durch Mehrheit
der Gesamtkonferenz)
Mecklenburg-Vorpommern Lernentwicklungsbericht Lernentwicklungsbericht und Notenzeugnis
Niedersachsen Berichtszeugnis Berichtszeugnis
Nordhein-Westfalen Berichtszeugnis
Rheinland-Pfalz Berichtszeugnis Berichtszeugnis
Saarland Berichtszeugnis und Noten in Deutsch und Notenzeugnis
Mathematik
Sachsen Berichtszeugnis - Berichtszeugnis und Noten in Deutsch und
Mathematik
- Bewertung des Arbeits- und Sozialverhaltens
ab Jg. 2 durch Noten
Sachsen-Anhalt Berichtszeugnis - Berichtszeugnis und Noten in Deutsch und
Mathematik
- Bewertung des Arbeits- und Sozialverhaltens
ab Jg. 2 durch Noten
Schleswig-Holstein Berichtszeugnis Berichtszeugnis
Thüringen Wortgutachten Wortgutachten
10
Jahrgangsstufe 3 und 4
Baden-Württemberg - Notenzeugnis
- Bewertung des Arbeits- und Sozialverhaltens in Form einer Verbalbeurteilung
Bayern Notenzeugnis
Berlin - Notenzeugnis oder Berichtszeugnis
(Beschluss durch 2/3-Mehrheit der Erziehungsberechtigten)
- Bewertung des Arbeits- und Sozialverhaltens in Form einer Verbalbeurteilung
Brandenburg - Notenzeugnis oder Lernentwicklungsbericht
(Beschluss durch Mehrheit der Klassenkonferenz und der Elternversammlung)
- Bewertung des Arbeits- und Sozialverhaltens ab Klasse 3 als schriftliche Information,
die getrennt vom Ziffernzeugnis ausgegeben wird
Bremen - ab 2. Halbjahr Jg. 3:
Lernentwicklungsbericht oder Notenzeugnis
(Beschluss durch Mehrheit der Schulkonferenz)
- Ende der Jg. 3 kann statt schriftlicher Information eine mündliche Information erfolgen
(Beschluss durch Mehrheit der Schulkonferenz)
- Bewertung des Arbeits- und Sozialverhaltens in Form einer Verbalbeurteilung
Hamburg - ab Halbjahr Jg. 3: Notenzeugnis mit ergänzenden Berichten
- Bewertung des Arbeits- und Sozialverhaltens in Form einer Verbalbeurteilung
Hessen Notenzeugnis
Mecklenburg-Vorpommern - Notenzeugnis
- Bewertung des Arbeits- und Sozialverhaltens in Form einer Verbalbeurteilung
Niedersachsen - Notenzeugnis
- Bewertung des Arbeits- und Sozialverhaltens in Form einer Verbalbeurteilung
Nordhein-Westfalen - Jg. 3 Bericht und Notenzeugnis
- Halbjahreszeugnis nur in Klasse 4
- verbale Beurteilung in Jg. 3 möglich
(Beschluss durch Schulkonferenz)
- Bewertung des Arbeits- und Sozialverhaltens in Form einer Verbalbeurteilung
Rheinland-Pfalz - Notenzeugnis
- Bewertung des Arbeits- und Sozialverhaltens ab Halbjahr Jg. 3: durch Noten
Saarland - Notenzeugnis
- Bewertung des Arbeits- und Sozialverhaltens ab Halbjahr Jg. 3: durch Noten
Sachsen Notenzeugnis
Sachsen-Anhalt Notenzeugnis
Schleswig-Holstein - für Jg. 3 kann die Schulkonferenz Noten beschließen
- für Jg. 4 Notenzeugnis
- Bewertung des Arbeits- und Sozialverhaltens in Form einer Verbalbeurteilung
Thüringen - ab Jg. 3 Wortgutachten und Noten in Deutsch, Mathematik und
Heimat- und Sachkunde
- Bewertung des Arbeits- und Sozialverhaltens in Form einer Verbalbeurteilung
Abb. 1:
Zeugnisbestimmungen in den Bundesländern
(nach: Karin Müller 20051).
11
Verwendete gesetzliche Regelungen
Baden-Württemberg Mecklenburg-Vorpommern
Verordnung des Kultusministeriums über die Schulgesetz für das Land Mecklenburg-Vorpommern
Notenbildung in der Fassung v. 05.02.2004. in der Fassung v. 07.07.2003.
Verwaltungsvorschrift in der Fassung v. 24.06.2003. Verwaltungsvorschrift des Kultusministeriums
Verordnung des Kultusministeriums über die in der Fassung v. 08.09.1998.
Schülerbeurteilung in Grundschulen und Sonderschulen
in der Fassung v. 05.02.2004. Niedersachsen
Die Arbeit in der Grundschule Erlasse des MK in der
Bayern Fassung v. 03.02.2004.
Schulordnung für die Volksschulen in Bayern Zeugnisse in den allgemein bildenden Schulen
in der Fassung v. 18.11.2002. RdErl. D. MK in der Fassung v. 24.05.2004.
Reform der Notengebung. In:
http://www.km.bayern.de/km/schule/schularten/allgemein/ Nordrhein-Westfalen
grundschule/notengebung/index.shtml (02.12.2004). Allgemeine Schulordnung in der Fassung v. 08.04.2003.
Telefonisches Gespräch mit Hr. Jörg Maier Verordnung über den Bildungsgang in der Grundschule.
(Kultusministerium) (Sept. 2004).
Rheinland-Pfalz
Berlin Schulordnung für die öffentlichen Grundschulen
Schulgesetz für das Land Berlin in der Fassung in der Fassung v. 21.07.2003.
v. 26.01.2004.
Ausführungsvorschrift über Noten und Zeugnisse Saarland
in der Fassung v. 21.07.2002. Zeugnis- und Versetzungsordnung - Schulordnung für die
Grundschulen im Saarland in der Fassung v. 04.07.2003.
Brandenburg
Gesetz über Schulen im Land Brandenburg. Sachsen
Verordnung über den Bildungsgang der Grundschule Verordnung des Sächsischen Staatsministeriums
in der Fassung v. 02.08.2001. für Kultus über Grundschulen im Freistaat Sachsen
Verwaltungsvorschriften zu Informationen über das in der Fassung v. 02.08.2004.
Arbeits- und Sozialverhalten in den Jahrgangsstufen
3 bis 10 in der Fassung v. 29.07.2004. Sachsen-Anhalt
Amtsblatt des Ministeriums für Bildung, Jugend und Sport Leistungsbewertung in der Grundschule RdErL des MK
Nr. 14 v. 23.12.2002. in der Fassung v. 30.06.2004.
Bremen Schleswig-Holstein
Verordnung für Zeugnisse und Lernentwicklungsberichte Landesverordnung über Notenstufen und andere
und über die Abschlüsse an öffentlichen Schulen Angaben in Zeugnissen in der Fassung v. 15.06.2004.
in der Fassung v. 08.07.2002. Landesverordnung über Aufnahme und Aufsteigen
nach Klassenstufen an der Grundschule in der Fassung
Hamburg v. 08.03.1999.
Hamburgisches Schulgesetz in der Fassung
v. 27.06.2003. Thüringen
Ausbildungs- und Prüfungsordnung für die Klassen Thüringer Schulgesetz in der Fassung v. 30.04.2003.
1 bis 10 der allgemeinbildenden Schulen in der Fassung Thüringer Schulordnung für die Grundschule,
v. 27.06.2003. die Regelschule, das Gymnasium und die Gesamtschule
in der Fassung v. 07.04.2004.
Hessen
Hessisches Schulgesetz in der Fassung v. 30.06.1999.
Verordnung zur Gestaltung des Schulverhältnisses
in der Fassung v. 01.09.2000.
Verordnung zur Ausgestaltung der Bildungsgänge
und Schulformen der Grundstufe (Primarstufe) und der
Mittelstufe (Sekundarstufe I) und der Abschlussprüfungen
in der Mittelstufe.
12
Angesichts der aktuellen Bewegungen in mehreren Ländern Die Situation in anderen Ländern ist sehr heterogen.
haben wir auf eine erneute Bestandsaufnahme verzichtet. Insbesondere variiert der institutionelle Kontext. Im Vergleich
Sie wäre vermutlich schon in wenigen Monaten veraltet. zu Deutschland sind allerdings in den meisten Ländern (bis
Festhalten lassen sich aber zwei Trends, die über alle auf den ehemaligen Ostblock) Selektionsentscheidungen
Bundesländer hinweg zu beobachten sind: wie Zurückstellung, Sitzenbleiben, Überweisung in Sonder-
schulen seltener, dauert der gemeinsame Unterricht länger
eine Ausdehnung des Zeugnisinhalts vom Leistungs- auf und setzt auch eine Benotung von Leistungen später ein.
den Verhaltensbereich - und damit eine Rückkehr zu den in Viele dieser Länder schneiden bei internationalen Verglei-
den 1960er Jahren (westliche Bundesländer) bzw. nach 1989 chen besser ab als Deutschland58.
(östliche Bundesländer) verbannten Kopfnoten52; Übersichtliche Muster und einfache Abhängigkeiten gibt
eine Vorverlagerung der Notengebung auf frühere es aber nicht. Dazu sind die Konstellationen zu komplex und
Jahrgangsstufen sowie eine Einschränkung von Ausnahme- vielfältig, auch innerhalb einzelner Länder, wie schon das
regelungen für Berichtszeugnisse - und damit eine Rückkehr Beispiel Schweiz59 anschaulich macht:
zu den ab etwa 1970 in den westlichen und ab 1990 in den »Die gegenwärtigen Tendenzen auf Volksschul- und Sekun-
östlichen Bundesländern auf Klasse 3/4 aufgeschobenen darschulstufe zeigen im übrigen, dass das Notenprinzip
Ziffernzeugnissen. längst nicht mehr in der Absolutheit gilt, die die Kritik unter-
stellt (Vögeli-Mantovani 1999, S. 89 ff.). Inzwischen gibt es
Gegenläufig zu diesen Entwicklungen finden alternative For- nicht nur ›Noten‹,
men der Leistungsbeurteilung auf der Sekundarstufe53 und - sondern Noten mit und ohne explizite Bezugsnormen,
im tertiären Bereich wachsende Aufmerksamkeit - bis hin zu - Lernberichte,
neuen Beurteilungsverfahren in der Berufswelt. Zielverein- - fakultative wie nicht-fakultative Beurteilungsgespräche,
barungen, inhaltliche Beurteilungen, Selbsteinschätzungen - Orientierungsarbeiten zur Standortbestimmung,
und regelmäßige Mitarbeitergespräche ermöglichen differen- - Selbstbeurteilungen der Schülerinnen und Schüler,
ziertere Bewertungen. Insofern ist das Argument, Ziffern- - Zeugnisse mit lernzielbezogenen Wortetiketten,
noten seien notwendig, um SchülerInnen auf den »Ernst des - Zeugnisse mit lernzielbezogenen Wortetiketten für
Lebens« vorzubereiten, überholt. Andererseits sind auch in Beurteilung des Lernprozesses und der Leistung.
Arbeitszeugnissen Tendenzen zu beobachten, die aus
schlechten Verbalbeurteilungen in der Schule bekannt sind54: In Basel gibt es ›prognostische Noten‹ erst ab der sechsten
die bloß verbale Umschreibung von Ziffernnoten durch Text- Klasse, reguläre Noten erst nach dem Übertritt in der achten
bausteine ohne Bezug auf Kriterien55. Klasse. In Baselland gibt es reguläre Noten ab der sechsten
Klasse, zuvor wahlweise Noten oder Lernberichte. Im Aargau
0.5 gibt es reguläre Noten ab dem zweiten Beurteilungszeitraum
der ersten Klasse, in Bern werden bis zur sechsten Klasse
Blicke über den Zaun: Beurteilungsgespräche geführt, Lernberichte erstellt und in
Die internationale Situation56 der dritten sowie sechsten Klasse lernzielorientierte Noten
erteilt. In Solothurn sind die ersten drei Jahrgänge notenfrei,
»Als empirisches Argument gegen Notenzeugnisse wird in Freiburg gibt es Verbalzeugnisse, Lernberichte und
gerne auf die skandinavischen Länder verwiesen, die in Beurteilungsgespräche von der ersten Klasse an. Diese
Schulleistungsvergleichen regelmäßig sehr gut abschneiden
und die bis zur achten Jahrgangsstufe auf Noten und
52 Vgl. zur Debatte über Kopfnoten: Pro: Matthias Rößler. Contra:
Ziffernzeugnisse verzichten. Damit ist zwar kein Kausal-
Ulrich Herrmann, in: Pädagogik H. 10/2000, 60-61; Arnold/Vollstädt
zusammenhang bewiesen, wohl aber, dass Gesamtschulen (2001); Solzbacher (2001); Thomas (2001); Landtag NRW 2003; Kirsten
ohne Noten effizient sein können. 2003; Becker/Ramseger 2003; Bayerisches Kultusministerium 2004; s.a.
Als empirische Gegenbeispiele werden jedoch einige dazu auch die Übersicht über die Bundesländer in Bohl (2003).
asiatische Länder genannt, die bei den Vergleichen vor allem 53 Vgl. etwa Grunder/Bohl (2001); Winter (2004).
54 S. unten > Kap. 3.1.
im mathematisch-naturwissenschaftlichen Bereich überdurch-
55 Vgl. etwa > www.arbeitszeugnis.de/ [Abruf: 12.3.2006] und Weuster/
schnittlich gut abschneiden. Kaum übersehbar ist aber, dass
Scheer (2005).
viele asiatische Kulturen einen erheblich höheren Wert auf 56 Dieses Kap. geht auf einen Eigenbeitrag von Axel Backhaus zurück.
die Bildung und Ausbildung ihrer Kinder legen, wodurch u.a. Nur bedingt hilfreich waren die einzelnen Länder-Übersichten in der
eine deutlich größere Leistungsbereitschaft schon in den jün- Datenbank www.eurydice.org, weitere Berichte finden sich in den
geren Schülern vorhanden ist. Einige betrachten es aller- Beiträgen zu Weston (1991) und Vergleiche bei Vögeli-Mantovani (1999,
Kap. 4); Schmitt (2001, Teil I).
dings in negativem Sinne als erhöhten Leistungsdruck.
57 > http://de.wikipedia.org/wiki/Leistungsbeurteilung_(Schule)
Fraglich ist in diesem Zusammenhang, ob Notenzeug- [Abruf: 20.1.2006].
nisse überhaupt eine wichtige Rolle bei den Ergebnissen die- 58 Vgl. OECD (1995, 89).
ser Tests spielen.«57 59 Vgl. Birkhäuser (1999).
13
Kriterium IGLU IGLU IGLU IGLU PISA 2003 PISA 2003 PISA 2003 PISA 2003
Lesen Lesen Mathematik Mathematik Lesen Lesen Mathematik Mathematik
BRD BRD BRD BRD
über
wiegend Es gibt innerhalb Europas keine Länder, die die Schüler früh auf verschiedene Schulformen schicken
Frühe Selektion
KEINE und die gleichzeitig (überwiegend) auf Noten verzichten, sofern man nicht 6 Jahre noch als kurz wertet (z.B. Irland)
Noten
1 Einsortierung der Bundesländer im Ranking der internationalen Vergleichsgruppe. Abb. 2: Backhaus 2006 (erstellt für diese Expertise)
14
Fazit: 1.1
Strukturelle Systemmerkmale garantieren keine pädagogi-
schen Erfolge64. Die Abschaffung von Noten ist kein Wie gut erfassen Leistungsbeurteilungen,
»Selbstläufer«. Dieses Ergebnis deckt sich mit dem später zu was sie erfassen sollen? (Validität)
erörternden Befund, dass auch deutschlandintern die Wir-
kungen von Noten vs. Verbalgutachten innerhalb der beiden Die Grundfrage: Misst ein Instrument wirklich das, was es zu
Ansätze stärker streuen als zwischen ihnen. Allerdings messen vorgibt? Leistungen sind beobachtbare Verhaltens-
machen die Befunde von IGLU und PISA ganz deutlich: Ein weisen. Ihre Beurteilung zielt aber nicht nur auf das be-
Verzicht auf Benotung und Selektion in den ersten Schuljah- obachtete Verhalten (»Performanz«), sondern auch auf die
ren und über die Grundschulzeit hinaus ist kein Hindernis für zugrunde liegenden Fähigkeiten (»Kompetenz«). Die Gültig-
eine erfolgreiche pädagogische Arbeit - auch im fachlichen keit solcher Schlüsse ist nur schwer zu begründen, da die
Leistungsbereich. psychologischen Modelle und die pädagogischen Maßstäbe
selbst umstritten sind. Außerdem können die Form der
Eindrucksvoll belegt wird dies durch das Beispiel Südtirol65: Aufgabe bzw. die Bedingungen, unter denen sie zu bewälti-
Die bei PISA 2003 erfolgreichste deutschsprachige Region gen ist, die zu erbringende Leistung verändern.
liegt - in Italien. Im Lesen noch einen Punkt besser als der Ein Beispiel: Werden über Diktate tatsächlich wesentliche
»Weltmeister« Finnland und satte 26 Punkte, das ist rund ein Aspekte der Rechtschreibkompetenz erfasst oder haben
halbes Schuljahr, vor dem deutschen Spitzenreiter Bayern. (auch) andere Faktoren Einfluss für die beobachtete Leis-
Seit 1977 gibt es keine Ziffernnoten mehr. »1993 wurden tung? Verschiedene Studien70 zeigen, dass die Leistung in
individuelle Bewertungsbogen eingeführt. Die Bewertungs- Diktaten im zweiten Teil des Textes schwächer ausfällt als im
stufen ›ausgezeichnet‹, ›sehr gut‹, ›gut‹, ›genügend‹, ›nicht ersten Teil der Aufgabe. Dieser Leistungsabfall ist allein
genügend‹ dienen dazu, das Kind mit sich selbst zu verglei- durch eine Fehlerzunahme in der Gruppe der schwächeren
chen und seinen eigenen Lernfortschritt und seine eigene RechtschreiberInnen bedingt. Vermutlich hängt deren abneh-
Anstrengung zu bewerten. Sie bedeuten keinen Rangplatz mende Leistung damit zusammen, dass sie im Verlauf des
des Kindes in der Klasse. So kann ein ›sehr gut‹ bei dem Diktats zunehmend unter Stress geraten. Insofern werden
einen Kind etwas völlig anderes bedeuten als ein ›sehr gut‹ die Fehlerhäufigkeit und damit die Leistung nicht nur durch
bei einem anderen Kind. Ganz offensichtlich kommt die die Rechtschreibkompetenz der SchülerInnen, sondern auch
Südtiroler (und die italienische) Gesellschaft mit einem nicht- durch ihre (objektiv) unterschiedliche Belastung und ihre
vergleichenden Bewertungssystem ohne weiteres klar, wir
haben keine Kritik daran gehört.«66
64 Dies ist ein genereller Befund der Schulforschung, belegt an so
unterschiedlichen Strukturkontrasten wie Gesamtschule vs. dreigliedriges
Schulsystem oder Koedukation vs. Jungen- und Mädchenschulen, vgl.
1 Brügelmann (2005, Kap. 30, 31).
65 Vgl. zum Abschneiden bei PISA und zu den Konzepten und
Bedingungen des Unterrichts: Höllrigl/Meraner (2005); Leitzgen (2005);
Mit welchen Verfahren
Meraner (2005); Ratzki (2005; 2006).
werden Leistungen erfasst?67
66 Ratzki (2006, 25).
67 Einen leichten Zugang zu den verschiedenen Studien bietet
Die Fundiertheit von Beurteilungen hängt von ihrer Daten- Ammann (2002). Immer noch empfehlenswert: Ingenkamp (1971a), gute
grundlage, diese von den eingesetzten Instrumenten ab. neuere Zusammenfassung bieten Jachmann (2003, Kap. 2.1) und
Deren Qualität wiederum wird üblicherweise über drei Güte- Wagener (2003, Kap. 1.1.1 und 1.1.2).
68 Fundierte und verständliche Einführungen finden sich bei: Diekmann
kriterien bestimmt68:
(1995, Kap. VI.3); Jachmann (2003, Kap. 2.1.1); Brügelmann (2005a,
Gültigkeit (»Validität« > Kap. 1.1) Kap. 56).
Personunabhängigkeit (»Objektivität« > Kap. 1.2) 69 Vgl. Winter (2004, 91-94) und ausführlicher House (1980), der
Verlässlichkeit (»Reliabilität« > Kap. 1.3) Kriterien wie Gerechtigkeit, Glaubwürdigkeit, Unparteilichkeit und
Fairness hervorhebt. Nisbet (1978) formuliert genereller für Verfahren der
Rechenschaft (Hervorhebungen durch die AutorInnen), »... that they
Bewertungen im Schulalltag stützen sich auf eine Vielfalt
- must operate in a way that is fair to all concerned;
von Informationen: Tests, Klassenarbeiten, mündliche
- should be valid and relevant to current concerns;
Beiträge, informelle Beobachtungen. Die Erhebung dieser - should provide feedback for decision-making and encourage
Daten und ihre Auswertung muss sich an den drei Güte- wider involvement in decisions;
kriterien messen lassen. Allerdings stellt ihre Auslegung in - should either be objective or make subjectivity explicit;
der Testtheorie eine Verkürzung dar, die andere Standards - should be verifiable, i.e. open to checking;
- should not distort the processes of teaching and learning;
der Evaluation von Lernen gefährdet. Zu wenig Beachtung
- should be understandable and the results communicable;
finden bisher Kriterien aus der weiteren Evaluations- - hould be comprehensive and take account of the wide variety
diskussion wie Fairness, Glaubwürdigkeit, Stimmigkeit, of aspects of education.«
Ökonomie, Nützlichkeit.69 70 Vgl. Schneider (1985); Brügelmann (1994a, 206-207).
15
(subjektiv) unterschiedliche Stressresistenz und Konzentra- dabei die Angemessenheit der Aufgaben mit bedenkenswer-
tionsfähigkeit beeinflusst71. ten Argumenten in Frage gestellt74. Die unterschiedlichen
Man kann die Validität von Methoden und Instrumenten Einschätzungen der Lesefähigkeit deutscher SchülerInnen
auf verschiedene Weise bestimmen und überprüfen. Drei nach PISA und DESI75 machen darauf aufmerksam, wie vor-
dieser Wege sind für Verfahren der Leistungsbeurteilung sichtig die Ergebnisse von Leistungstests interpretiert werden
besonders bedeutsam: müssen. Ihre Aussagen beschränken sich auf spezifische
die Analyse von Aufgaben mit Bezug auf vorgegebene Inhalte und Aufgabenformen, die nur in Kenntnis dieser Aus-
Inhalte bzw. Kriterien, z.B. Abstimmung von Testaufgaben schnitthaftigkeit als Indikatoren für übergreifende Kompeten-
auf die Ziele und Inhalte von Lehrplänen (> Kap. 1.1.1); zen genommen werden können. Das gilt nicht nur für bil-
der Vergleich der Ergebnisse mit denen, die durch ein dungspolitische Folgerungen, sondern ebenso für individuelle
anderes etabliertes Verfahren gewonnen wurden, z.B. durch Bewertungen. Besonders deutlich geworden ist dies bei der
einen Abgleich von Noten mit Testwerten (> Kap. 1.1.2); Diagnose sog. »LegasthenikerInnen«, deren Besonderheit
die Vorhersage zukünftiger aus aktuellen Leistungen und durch die Diskrepanz zwischen IQ und Lese-/Rechtschreib-
die Überprüfung der Prognosegenauigkeit (> Kap. 1.1.3). leistung definiert wurde. Je nach eingesetztem Intelligenz-
und Lese- oder Rechtschreibtests fielen einzelne Kinder in
1.1.1 diese Rubrik - oder auch nicht76.
Aber auch für das Lehrerurteil, das die Noten bestimmt,
Wie gut sind die Kriterien für Leistungsbeurteilungen haben empirische Studien Validitätsprobleme aufgezeigt:
inhaltlich abgesichert? Bei Aufsätzen beeinflussen sowohl der Umfang77 als auch
die Zahl der orthografischen Fehler und die Qualität der
Inhalte für Unterricht und Kriterien für den Lernerfolg finden Handschrift die Note78.
sich in Richtlinien bzw. Fachlehrplänen. Auf sie bezieht sich Es geht aber nicht nur um die Übereinstimmung der
beispielsweise die Überprüfung der »curricularen Validität« Inhalte und die Form der Aufgabe. Zu bestimmen ist auch,
von Tests in den großen Leistungsstudien wie PISA und welches Niveau der Aneignung verlangt werden soll. Die
IGLU72. Die Diskussion über die Bildungsstandards zeigt Diskussion über die Bildungsstandards zeigt ein hohes Maß
aber ein hohes Maß an Uneinigkeit, was als Mindest- oder an Uneinigkeit, was als Mindest- oder Regelleistung einge-
Regelleistung eingefordert werden kann. Die Kritik an den fordert werden kann. Die Kritik an den Aufgaben der landes-
Aufgaben der landesweiten Lernstandserhebungen weiten Lernstandserhebungen und internationalen Leistungs-
und internationalen Leistungsvergleiche hat offen gelegt, vergleiche hat offen gelegt, wie umstritten die Annahmen zu
wie umstritten die Annahmen zu den angeblich erfassten den angeblich erfassten »Fähigkeiten« sind.
»Fähigkeiten« sind. Die Validität von Noten wird in den letzten Jahren oft mit
Ratzka (2003, Kap. 4.5.6) hat für den Bereich Mathematik dem Hinweis kritisiert, dass Noten nicht hinreichend mit den
gezeigt, wie wichtig die Auswahl des konkreten Tests für die
Ergebnisse und damit für die Einstufung individueller
Leistungen ist. Sie hat auch die Autorität der Befunde aus
den internationalen Leistungsstudien in Frage gestellt, die in
71 Durch Auslösung von Angst sinkt das Leistungsniveau im Vergleich
der bildungspolitischen Diskussion als zentraler zur tatsächlichen Kompetenz (Moeller 1972).
Qualitätsausweis des Schulwesens gehandelt werden. 72 Vgl. etwa zur Lehrplangültigkeit der am literacy-Konzept orientierten
Bezogen auf die TIMS-Studie sind zwei Befunde aus dem PISA-Tests: Baumert u.a. (2003, Kap.2).
Vergleich mit zwei weiteren Tests bedeutsam73: 73 Ratzka ließ in ihrer Studie dieselben Kinder verschiedene Tests
bearbeiten. Im einzelnen liegen die linearen Korrelationen zwischen den
Tests nur bei .48** (TIMSS - AMI), .37** SCHOLASTIK - TIMSS) bzw. .07
58% der SchülerInnen erreichen in anderen Tests als (AMI - SCHOLASTIK), d. h. die Leistungen erklären nur 0.4% bis maxi-
TIMSS andere Ergebnisse. Selbst zwischen zwei ver- mal 23% gemeinsamer Varianz. Vgl. zum Lesen die unterschiedlich
schiedenen Tests des gleichen Grundtyps (»Textaufgaben« hohen Korrelationen verschiedener (Teil-)Tests in den LUST-Teilstudien:
im TIMSS- und im AMI-Test) kann es erhebliche Unter- Backhaus (2005).
74 Vgl. für Mathematik u.a.: Bender (2004); Scheerer (2004); Selter
schiede geben.
(2005); für Sprache Bartnitzky (2005a+b); Benholz u.a. (2005) und zur
Unter Zeitdruck (»Speed-Test«) ergeben sich auch
Diskussion der KritikerInnen mit dem VERA-Team Heft 90/2005 von
innerhalb von TIMSS, also bei denselben Aufgaben, teilweise »Grundschule aktuell«.
andere Ergebnisse als ohne Zeitdruck (»Power-Test«). Das 75 Vgl. zu den Ergebnissen der Studie »Deutsch Englisch Schülerleis-
gilt für die deutschen SchülerInnen vor allem bei komplexe- tungen International« (DESI) Klieme u.a. (2006).
ren Aufgaben bzw. bei unbekannten Aufgabenformaten und 76 Vgl. Scheerer-Neumann (1996, Kap. 2); zur grundsätzlichen
Problematik des Legasthenie-Konstrukts: Brügelmann (2005a, Kap. 19).
generell für Mädchen im Vergleich zu Jungen.
77 Kürzere Aufsätze werden generell schlechter benotet (Baur-
mann 1977).
Andere AutorInnen haben einzelne Aufgaben in den interna- 78 Dazu zitiert Ammann (2002) eine norwegische Studie von Osnes
tionalen und landesweiten Tests genauer untersucht und (1972); s. zu Rechtschreibfehlern auch Birkel (2003).
16
Ergebnissen von Leistungstests in den entsprechenden LehrerInnen erkennen schlechter als Tests, wo Kinder
Fächern übereinstimmten. Damit ist aber ein problematischer in ihrer Entwicklung stehen, welche Schwierigkeiten sie bei
Maßstab gesetzt79, unterstellt dieses Vorgehen doch, dass der Auseinandersetzung mit dem jeweiligen Gegenstand
Tests eher die »wahre« Fähigkeit einer Person erfassen. haben, was als fehlende diagnostische Kompetenz inter-
Andererseits wird die inhaltliche Gültigkeit von Tests in der pretiert werden könnte.
Regel damit begründet, dass ihre Ergebnisse in der Normie- Oder:
rungsphase »gut« mit den Lehrerurteilen übereinstimmen. LehrerInnen verschiedener Klassen ordnen den richtig
Damit entstehen Kreisschlüsse, bei denen kein Verfahren erkannten Leistungsstand unterschiedlichen Notenstufen zu,
beanspruchen kann besser zu sein als das andere80. Das so dass sie lediglich abweichende Bewertungsmaßstäbe
einzige unabhängige Kriterium ist ihre Vorhersagekraft, bezo- anlegen.
gen auf zukünftige Leistungen. Diese aber erweist sich als Die vorliegenden Studien sprechen eindeutig für die
sehr begrenzt (s. dazu > Kap. 1.1.3). zweite Sicht. So korrelieren Noten und Testwerte innerhalb
Schließlich ist noch eine weitere Schwäche sowohl des von Klassen sehr viel höher miteinander als über verschie-
Lehrerurteils als auch von Tests festzuhalten - wenn ihre dene Klassen hinweg85. LehrerInnen differenzieren unter-
Ergebnisse in Form einer Ziffernnote oder eines Summen- schiedliche Lernstände also weitgehend zutreffend86, aber
werts verdichtet werden. Deren Validität als Pauschal- sie setzen den Bezugspunkt für die anschließende Benotung
bewertung eines Lernbereichs wird den differenzierten unterschiedlich an. Für diese Deutung spricht auch der
Leistungsprofilen (Geometrie vs. Sachrechnen vs. Arithmetik, engere Zusammenhang, wenn man nicht Noten mit dem
schriftliches vs. Kopfrechnen) nicht gerecht. Die fehlende Lernerfolg korreliert, sondern von den LehrerInnen qualitative
Differenziertheit einer einzelnen Ziffer kann Stärken und Urteile über die voraussichtliche Entwicklung ihrer Schüle-
Schwächen in den Teildimensionen eines Leistungsbereichs rInnen erfragt und diese mit Tests zur kognitiven Leistungs-
nicht zureichend darstellen. Hier liegt ein Potenzial von fähigkeit abgleicht87.
Lernberichten, auch wenn es oft nicht zureichend ausge- Und damit sind wir bei einem dritten Grund für die Ab-
schöpft wird (vgl. > Kap. 3.1). weichungen, der positive wie negative Seiten hat: In das
Urteil der LehrerInnen gehen Informationen aus einer konti-
1.1.2 nuierlichen Beobachtung der SchülerInnen in vielfältigen
Situationen ein. Die Urteile von LehrerInnen, z.B. ihre Noten,
Wie gut stimmen Beurteilungen sind breiter fundiert als die Ergebnisse punktueller Tests. Mit
aus verschiedenen Quellen überein? der Berücksichtigung von »Randbedingungen« werden sie
aber auch stärker abhängig von den persönlichen Kriterien
Nicht nur die Ergebnisse von verschiedenen Tests desselben und Wahrnehmungsfiltern der einzelnen Lehrperson.
Bereichs, auch Fachnoten und Tests stimmen nur begrenzt Soll man vor diesem Hintergrund die Aussagekraft von
überein. Problematisch an der Diskussion »nach PISA« Tests am breiter fundierten Lehrerurteil oder die des
ist, dass Tests dabei fast selbstverständlich als Maßstab für Lehrerurteils am stärker kontrollierten Test überprüfen?
die »wahre« Leistung von SchülerInnen gesetzt werden81.
Vergleiche mit weiteren Kriterien zeigen aber, dass Lehrer-
urteil und Tests unterschiedliche Aspekte fachlicher Leistun-
gen erfassen. Es macht deshalb keinen Sinn, die Qualität 79 So auch im Forschungsüberblick bei Hoge/Coladarci (1989), auch
des einen Verfahrens allein durch den Grad der Übereinstim- wenn er zu einer positiven Einschätzung der Validität und Genauigkeit
des Lehrerurteils kommt.
mung mit den Ergebnissen des anderen zu bestimmen.
80 S. > Kap. 1.1.2 .
Eine viel zitierte82 Studie von Ingenkamp (1975) zeigte,
81 Vgl. etwa Lehmann (1999).
dass die Zensuren in 37 sechsten Berliner Klassen stark von 82 U.a. bei Mreschar (1985, 51).
den »lehrplangültigen« Testergebnissen der Kinder abwi- 83 Vgl. u.a. Ingenkamp (1971c); Thiel/Valtin (2002); Brügelmann
chen: Bei gleichem Testergebnis hatten SchülerInnen unter- (2003); Pietsch (2005).
schiedliche Noten erhalten. In der IGLU-Studie stellten Bos 84 Vgl. Baumert u.a. (2003, 325).
85 Allerdings streuen die Korrelationen zwischen Testergebnis und
u.a. (2004b, 205) über verschiedene Schulen hinweg eine
Note in verschiedenen Klassen breit, z.B. in den Klassen der Siegener
breite Streuung der Testleistungen innerhalb einer Noten- LUST-Studie von .02 bis .94 (Brügelmann 2003c, Kap. 9). Während also
stufe und damit eine starke Überlappung zwischen den einige LehrerInnen den Leistungsstand ihrer SchülerInnen sehr ähnlich
Notenstufen fest - ein Phänomen, das sich auch in vielen einschätzen wie die eingesetzten Tests, gibt es bei anderen erhebliche
anderen Untersuchungen nachweisen ließ83. Bei PISA-2000 Differenzen in der Rangfolge. US-amerikanische Studien berichten mit
.28 bis .92 eine ähnlich breite Streuung der Korrelationen zwischen dem
lag die Korrelation zwischen Mathematiknote und curriculum-
Lehrerurteil und den Schülerleistungen in standardisierten Tests (vgl.
nahem Mathematiktest bei .32 über die verschiedenen Schul-
Hoge/Coladarci 1989, 303).
formen hinweg und bei .43 innerhalb der Bildungsgänge84. 86 ... unter der Prämisse, dass man die Testergebnisse als Maßstab
Für diese Abweichungen sind verschiedene Erklärungen anerkennt.
denkbar: 87 Vgl. Merkens (2004).
17
Dieses Dilemma ist zu bedenken, wenn man zum gende Fähigkeit erfassen und damit auch Aufschluss geben
Beispiel die Validität von Verbalzeugnissen einzuschätzen über zukünftig zu erwartende Leistungen. Die Vorhersage-
versucht, wie dies Maier (2001, 211 ff.) in einer differenzier- kraft von Noten ist in verschiedenen Phasen der Bildungs-
ten Studie getan hat. Seine Außenkriterien waren: laufbahn untersucht worden.
- Ziffernnoten des Abschlusszeugnisses in der 4. Klasse
- Ergebnisse des Schulleistungstests (AST 4) 1.1.3.1
- Einschätzung der Eltern und LehrerInnen bezüglich der
Schulleistungen. Kindergarten > Schulerfolg
Seine Ergebnisse88: »Die zur Analyse der Übereinstim-
mungsvalidität zwischen Verbalzeugnis und Schulleistungs- Vor Schulbeginn gibt es keine Noten. Über viele Jahre stand
variablen durchgeführten Korrelationsanalysen belegen ins- aber die Frage der Zurückstellung vom altersgemäßen
gesamt einen schwachen Zusammenhang, d.h. eine geringe Schulbeginn zur Diskussion. Als Grundlage für diese Ent-
Übereinstimmungsvalidität. Mit der Regressionsanalyse scheidung wurden vielfach standardisierte Tests herangezo-
wird ein gemeinsamer Varianzanteil zwischen Verbalzeugnis gen - bis die hohe Fehlerquote der Prognosen ihren Einsatz
und Außenkriterien von 13% ermittelt: Dabei trägt der Schul- zunehmend fragwürdig werden ließ. Eine der wichtigsten
leistungstest am meisten zur Varianzaufklärung bei, gefolgt Untersuchungen stammt von Krapp/Mandl (1977)91. Danach
von den Zensuren, der Leistungseinschätzung durch die blieben von den Kindern, die nach einschlägigen Tests als
Lehrkraft und der Leistungseinschätzung durch die Eltern. »nicht schulreif« eingestuft und die deshalb nicht eingeschult
Lediglich der Prädiktor Schulleistungstest leistet einen signifi- wurden, bis zum 9. Schuljahr immerhin 13% sitzen. Aus der
kanten Beitrag zur Varianzaufklärung der Kriteriumsvariablen Kontrollgruppe, die trotzdem eingeschult wurde, waren es mit
Verbalzeugnis.« 28% zwar doppelt so viele. Individuell bedeutsamer aber ist
Die Befunde bestätigen die Vermutung, dass Verbalzeug- der Kehrwert: Mit 72% schaffte die große Mehrheit die
nisse und Ziffernzeugnisse verschiedene Informationen über- Pflichtschulzeit ohne Wiederholung einer Klasse, wenn sie
mitteln, u.a. weil sie sich auf unterschiedliche Bezugsnormen entgegen der Testempfehlung eingeschult wurden. Der
beziehen und »...dass eine ›Übersetzung‹ der Verbalzeug- Schulreifetest produzierte also fast drei Viertel Fehlprog-
nisse in Noten und umgekehrt keinen Sinn macht, ›da beiden nosen. Deshalb sind Schuleingangstests weitgehend abge-
Berichtsformen letztlich ein unterschiedliches Verständnis schafft worden.
von Leistungen und ihrer Beurteilung zugrunde liegt‹ (Port- Auch Klassifikationsversuche mit Hilfe fachbezogener
mann (1997, 239) [...] Ziffernnoten die Ranginformationen Verfahren haben eine zu hohe Fehlerquote. Im Bereich der
liefern, zeigen nur schwache Korrelationen mit den verbalen Schriftsprache schwankt sie zum Beispiel für die fonologi-
Bewertungen, denen in hohem Ausmaß die individuelle sche Bewusstheit - je nach Verfahren, Zeitspanne der Prog-
und kriteriale Bezugsnorm zu Grunde liegt.« (Maier 2001, nose und vor allem Art des zwischenzeitlichen Unterrichts -
228, 230). zwischen 20% und 80%92. Bei derart hohen Fehlprognosen
Dies ist ein gewichtiges Argument gegen den Vorwurf, lassen sich keine Fördermaßnahmen, erst recht aber keine
den u.a. Schröter (1981a) Verbalbeurteilungen macht89, sie Selektionsentscheidungen rechtfertigen - ein Befund, der
seien nicht aussagekräftig, denn sie ließen sich nicht in auch beim Einsatz von Sprachstandserhebungen vor der
Ziffern (rück)übersetzen. Analog sind auch Test und Beob- Schule zu beachten ist.
achtung als unterschiedliche Zugänge zur Dokumentation Demgegenüber stellte Röhr (1978, 259) fest, dass die
der Leistung zu sehen, deren Ergebnisse sich ergänzen, Einschätzung der KindergartenpädagogInnen eine hohe
aber nicht ersetzen können. Trefferquote hatte: 74% der Kinder, denen sie »(sehr) große
Schwierigkeiten« in der Schule voraussagten, hatten tatsäch-
1.1.3 lich Probleme - dagegen weniger als 10% derjenigen, für die
sie »gar keine« Schulschwierigkeiten vermuteten. Ein Grund
Wie genau lässt sich aus der Beurteilung von Leistungen für die Stärke des Urteils von PädagogInnen liegt darin, dass
deren zukünftige Entwicklung vorhersagen sie das Kind über einen längeren Zeitraum und in verschie-
(prognostische Validität) denen Situationen beobachten konnten und dass sie oft auch
die Schulsituation kennen, in die die Kinder kommen werden.
Ein Problem einer jeden Prüfung90 ist der Grad ihrer externen
Validität. Damit ist die Schwierigkeit gemeint, aus der Prü- 88 Maier (2001, 228).
fungsleistung in einer künstlich arrangierten Aufgabe auf 89 Vgl. Mreschar (1985, 65).
90 ... und generell von Schule als sozialem Raum, der bewusst
erwartbare Leistungen in Alltagssituationen zu schließen. Ein
aus dem Leben herausgelöst wurde (vgl. grundsätzlich dazu: Brügel-
echtes Außenkriterium stellt der spätere Schul-, Ausbildungs-
mann 2005, Kap. 2 und 39-41).
oder Berufserfolg dar (»prognostische Validität«). Leistungen 91 Hier zusammengefasst nach Brügelmann (2005a, 167).
- als beobachtbare Verhaltensweisen - werden zwar rück- 92 Vgl. zusammenfassend zum Prognoserisiko von Risikoprognosen:
blickend beurteilt. Die Beurteilung soll aber die zugrunde lie- Brügelmann (2005c).
18
Damit können sie ein grundsätzliches Problem von Eine der wichtigsten Nutzungsformen von Beurteilungen
Leistungsprognosen entschärfen: Begriffe wie »Schulreife« betrifft die Übergangsentscheidung nach Klasse 499. In man-
und »Schulfähigkeit« suggerieren nämlich, dass Schwierig- chen Bundesländern (z.B. Bayern) hängt der Zugang zu
keiten in der ersten Klasse allein auf persönliche Merkmale einer höheren Schulform unmittelbar vom Notendurchschnitt
des Kindes zurückzuführen seien. Mit seinem »ökologischen ab. In anderen bestimmen Noten den Wechsel zumindest
Modell« hat Nickel93 die Erfahrung aufgenommen, dass Kin- indirekt - über die Empfehlung der Schule, an der sich viele
der mit gleichen Voraussetzungen in der einen Schulklasse Eltern bei der Wahl der weiterführenden Schule orientieren
scheitern, in der anderen aber erfolgreich sind. Je nach (z.B. in Hamburg). Insofern ist die Klassifikationsleistung der
Anspruch, aber auch Kompetenz der Lehrperson, je nach Noten zu prüfen100.
Zusammensetzung der Lerngruppe und nach den institutio- Roeder (1997, 410) wertet als Erfolg der Prognose, dass
nellen Rahmenbedingungen kommt ein Kind zurecht oder unter den Schulformwechslern etwa doppelt so viele ohne
nicht. Entwicklung ist also die Folge einer Interaktion zwi- Gymnasialempfehlung sind wie solche mit Empfehlung für
schen persönlichen Merkmalen und Kontextbedingungen. das Gymnasium101. Dieser Bezug verzerrt aber die Berech-
Entwicklungsprobleme lassen sich nicht einseitig auf Eigen- nungsbasis, wie Thiel (2005, 255) überzeugend zeigt. Aus-
schaften des Kindes zurückführen, sondern sind als Pas- gangspunkt muss die Art der Empfehlung sein. Dann stellt
sungsproblem zu verstehen94. man zunächst fest: 1.4% mit Gymnasialempfehlung wech-
seln später auf eine niedrigere Schulform, aber 5-6mal so
1.1.3.2 viele, nämlich 7.6%, von denen ohne Gymnasialempfehlung.
Ist die Prognose also doch gut? Nein, denn 92.4% derjeni-
Schule > Fachleistungen über die Schuljahre hinweg gen, die keine Gymnasialempfehlung bekommen haben,
schaffen es trotzdem - und das sind mehr als 12mal so viele
Innerhalb der Schulzeit kann man die Leistungspositionen wie die Abgänger. Der Anteil falscher Prognosen beträgt -
der SchülerInnen von Jahr zu Jahr vergleichen. In der SCHO- auf die Gesamtgruppe bezogen - immerhin 29% (Thiel 2005,
LASTIK-Studie des Münchener Max-Planck-Institut für Psy- 256) - ein schwer zumutbares Risiko für die Betroffenen.
chologische Forschung ergaben sich folgende Korrelationen, Aufgrund von Befunden aus der Hamburger Studie zur
wenn man die Ergebnisse von Fachtests miteinander ver- Lernausgangslage in 5. Klassen (LAU) kommentieren
gleicht95: Lehmann u.a. (1997, 94) die Prognosevalidität des Urteils
Von Jahr zu Jahr (wachsend von Klasse 1-5) von LehrerInnen so, dass im Vergleich zur freien Elternwahl
.60 bis .78 für Rechtschreibung
.60 bis .70 für Mathematik
93 Vgl. Nickel (1982).
Für Schulnoten ergeben sich ähnliche Werte; mittelt man sie 94 Damit verändert sich auch der Blick auf die Ursachen von Lern-
über verschiedene Fächer, kommt man sogar auf Werte von schwierigkeiten und Formen der Förderung. So zeigt das Modell des
.80 und höher96. »Teufelskreis Lernstörungen« eindrucksvoll, wie sich punktuelle Lern-
schwierigkeiten aufgrund geringfügiger Fehlpassung von Leistungsanfor-
Auf den ersten Blick sprechen diese Werte für eine hohe
derungen und Lernvoraussetzungen zunächst zu übergreifenden Lern-
Stabilität und damit Prognostizierbarkeit von Leistungen. An störungen ausweiten und später als individuelle Lernschwächen stabili-
einer Klasse aus der LUST-Studie konnten wir beispielhaft sieren können - in denen manche Diagnostiker dann die eigentliche
zeigen, dass selbst bei einer Korrelation von .66 über die Ursache aktueller Leistungsprobleme sehen (vgl. Betz/Breuninger 1987,
Gruppe hinweg auf der Einzelfallebene noch mit erheblichen zusammengefasst nach Brügelmann 2005a, 224).
95 Vgl. Weinert/Helmke (1997b, 467).
Verschiebungen zu rechnen ist97. Für Klassifikationen hat
96 Vgl. Tent (1998, 583) und zur Prognosekraft von Noten zusammen-
Ingenkamp (1993, 70f) in einer Modellrechnung deutlich
fassend: Ziegenspeck (1999, 156 ff.).
gemacht, dass selbst bei einer Korrelation von .70 mit fast 97 Brügelmann (2005c, 150).
20% Fehlentscheidungen zu rechnen ist. 98 Vgl. Tent (1998, 583) - allerdings verschlechtern sich die Werte mit
Verlängert man den Prognosezeitraum, so nehmen die dem Übergang in die Sekundarstufe auch deshalb, weil die Noten in den
Korrelationen von Noten zudem drastisch ab, z.B. auf .20 bei verschiedenen Schulformen eine unterschiedliche Wertigkeit haben, d.h.
ihre Prognosekraft wird vermutlich systematisch unterschätzt.
einer Vorhersage vom ersten bis zum achten Schuljahr98.
99 Vgl. dazu Heller (1995; 1997); Lehmann u.a. (1997); Hartinger u.a.
Zielinski (1974b, 889) resümiert: »Die Zusammenhänge zwi- (2003); Bos u.a. (2004a, Kap. IX); Faust (2005, 164-167); Thiel (2004).
schen Zensuren der verschiedenen Schulstufen, die bei auf- Vgl. zur Verzerrung der Empfehlungen durch die Zugehörigkeit der Eltern
einander folgenden Jahrgängen noch zufriedenstellend hoch zu höheren bzw. niedrigeren sozialen Schichten > Kap.1.2.1 und 7.
sind, nehmen mit zunehmender zeitlicher Distanz laufend ab, 100 Vgl. zusammenfassend zu den Studien zum Prognoseerfolg von
Empfehlungen: Ingenkamp (1967; 1993); Sauer/Gamsjäger (1996); Thiel
wobei sich ein Wechsel des Schulsystems besonders gravie-
(2005, 255 ff.).
rend bemerkbar macht. Sie liegen die Korrelationskoeffizien-
101 Auch Heller (1999) wertet die Möglichkeiten einer zutreffenden
ten für den Zusammenhang zwischen dem Grundschulzeug- Zuordnung von SchülerInnen am Ende der vierten Klasse positiv, warnt
nis und dem Erfolg auf weiterführenden Schulen nach 3 bis 6 aber an anderer Stelle selbst davor, »... die Erwartungen an die Gültigkeit
Jahren im Durchschnitt nur etwa bei .30 ...« von Schulerfolgsprognosen nicht zu hoch ...« anzusetzen (1997, 986).
19
Entscheidungen durch die Schulen die Zusammensetzung Ähnlich resümiert Hopf (1994, 340) für gesonderte Prü-
von Klassen in der Sekundarstufe I nicht stärker homogeni- fungen beim Übergang von der Grundschule in die Sekun-
sieren würden. Anhand der PISA-Daten bestätigt Block darstufe I: »... die genannten Nachteile ließen sich allenfalls
(2006, 2): »Jugendliche, die in ihrer Schullaufbahn von einer in Kauf nehmen, wenn die Ausleseverfahren für die weiter-
höheren auf eine niedrigere Schulform wechseln mussten, führenden Schulen - zentral gestellte Normarbeiten, Prüfun-
weisen zum überwiegenden Teil Grundschulempfehlungen gen, Beurteilungen durch die Lehrer usw. - den gewünschten
für die Schulformen auf, an denen sie letztlich gescheitert Erfolg hätten. Gerade dies ist aber fraglich, wie mehrere
sind. [...] 73% aller 15-jährigen Realschüler, die von einem empirische Untersuchungen über die Zuverlässigkeit und
Gymnasium gewechselt sind, haben seinerzeit eine Grund- Genauigkeit der Übergangsauslese ergeben haben. [...]
schulempfehlung für das Gymnasium erhalten. Das relative Zensurendurchschnitt und Resultate von Probearbeiten spie-
Risiko für Realschüler, einer falschen (zu hohen) Schul- geln ohnehin höchstens einen kleinen Teil der für den Erfolg
form zugewiesen zu werden, ist aufgrund einer unzutreffen- auf weiterführenden Schulen wichtigen Fähigkeiten wider.«
den Grundschulempfehlung rund 24 Mal größer als auf- Andere Studien zeigen zudem, dass auch die in einer
grund falscher (überhöhter) elterlicher Bildungsansprüche. bestimmten Schulform erfolgreichen SchülerInnen keine
Bei den Hauptschülern, die einen Schulformabstieg hin- homogene Gruppe darstellen105. In verschiedenen Schulklas-
ter sich haben, sind es bundesweit wiederum rund 69%, sen können unterschiedliche Schüler»typen« erfolgreich sein.
denen seinerzeit von der Grundschule die Fähigkeit für Wie im »ökologischen Modell« von Nickel (1982) für den
eine höhere Bildungslaufbahn prognostiziert wurde. Das Schulanfang ist also die Wechselwirkung von individuellen
Risiko eines Hauptschülers, aufgrund der Grundschul- Voraussetzungen sowie institutionellen und didaktischen
empfehlung einer falschen, nämlich zu hohen Schulform Bedingungen ([Mindest-]Passung oder nicht) für den Erfolg
zugewiesen zu werden, ist 8 bis 9 Mal größer als die entscheidend.
falsche Schulwahl aufgrund übersteigerter Bildungsaspi-
ration der Eltern.«102 1.1.3.3
Und er kommentiert: »… Alle relevanten Studien der letz-
ten Jahre - zuletzt die internationale Grundschulstudie IGLU Schule > Studien-/Ausbildungserfolg
(Bos, W. u.a. 2004) - zeigen aber, dass in die Beurteilungen
der Grundschulen nicht nur rein leistungsbezogene Aspekte Die genannten Probleme verschärfen sich, wenn die Beurtei-
Eingang finden: Denn weder Testleistungen noch die von lung schulischer Leistungen die Bewährung in außerschuli-
den Lehrkräften vergebenen Noten können die Unterschiede schen Situationen vorhersagen soll.
in den Übergangsempfehlungen von Schülern hinreichend Verschiedene ForscherInnen fanden in verschiedenen
erklären. In der Praxis orientieren sich die Grundschul- Ländern106 Korrelationen von .30 bis .50 für die Vorhersage
empfehlungen häufig auch an sozialen Kriterien wie z.B. dem des Studienerfolgs und Schuler (1998) nennt .41 als Mittel-
Bildungsniveau der Elternhäuser.«103 wert107 diverser Untersuchungen des Zusammenhangs von
Für das dreigliedrige Schulsystem stellt sich die Legitima- Schulnoten und Ausbildungserfolg. Dabei wird der theoreti-
tionsfrage, wenn die Zuordnung durch Empfehlungen auf sche Prüfungsteil der beruflichen Abschlussprüfung besser
der Basis von Noten so fehlerhaft - und kein überzeugender vorhergesagt als der praktische. »Ähnliches gilt für das
Ersatz in Sicht ist. So hat Thiel104 festgestellt, dass die Abiturzeugnis, dessen prognostische Gültigkeit für Studien-
Durchschnittsnote sogar noch eine bessere Prognose erlaubt und Berufserfolg ebenfalls als unzureichend angesehen wer-
als Schulleistungstests. Insofern warnen auch Bos u.a. den muss. So ergaben sich z.B. zwischen Abiturdurchschnitt
(2004b, 225) vor der Hoffnung, das Problem durch die
Einführung standardisierter Tests überwinden zu können:
»Wenig zielführend wäre vermutlich der Versuch, durch bes-
sere Testverfahren eine normorientierte Verteilung auf die 102 Zu Recht wird eingewandt, dass LehrerInnen in manchen Fällen
Schulformen zu versuchen. Auf Individualebene gibt es sol- mit ihren Empfehlungen dem Druck der Eltern nachgeben, so dass man
che Tests nicht und neue zu entwickeln, um eine unanfecht- ihnen die Fehlprognose nicht anlasten könne. Es bleiben aber auch dann
die oben genannten Fehlprognosen in umgekehrter Richtung: Nicht emp-
bare langfristige Prognosesicherheit zu gewinnen, dürfte nur
fohlene SchülerInnen, die trotzdem erfolgreich sind.
schwerlich gelingen. Deshalb muss die Durchlässigkeit der
103 Block (2006, 3).
Bildungsgänge weiter ausgebaut werden.« 104 Vgl. Thiel (2005, 238) und seiner Kritik an Klassifikationsversuchen
Auch die Hoffnung, die Prognosevalidität des Lehrer- über Tests a.a.O., 54-64.
urteils durch ergänzende Informationen »erheblich« verbes- 105 Vgl. die kritische Zusammenfassung der Versuche von Rosemann
sern zu können, stellen Sauer/Gamsjäger (1996, 201) in (1978) und Sauer/Gamsjäger (1996) bei Thiel (2005, 57-62).
106 Vgl. die Zusammenfassungen bei Weingardt (1971b); Schlattmann
Frage: »Das heißt, zusätzliche Intelligenz- und Motivations-
(1978); Schuler (1998, 370); Trost u.a. (1998, 67).
tests sowie Ursachenerklärungen von schulischem Erfolg 107 ... korrigiert um methodische Artefakte; eine Korrelation von .3
bzw. Misserfolg bringen über die Einschätzung des Lehrers bedeutet übrigens: Es werden genauso viele nicht geeignete Bewerber
hinaus keine zusätzlichen Informationen.« aufgenommen, wie geeignete abgewiesen (vgl. Ammann 2002).
20
und 1. Lehramtsprüfung an Pädagogischen Hochschulen 1.1.3.4
Korrelationen zwischen .29 und .49, zwischen Abiturdurch-
schnitt und Vordiplom in Physik ein Koeffizient von .37...«108 Studium/Ausbildung > Berufserfolg
Wer stattdessen auf Tests setzt, sollte aber vorsichtig
sein. Gemittelte Abiturnoten sind vorhersagekräftiger als eig- Obwohl Studium und Ausbildung stärker auf ein bestimmtes
nungsdiagnostische Verfahren109. Und in den USA hat die Berufsbild fokussiert sind, verschlechtert sich die Prognose-
University of California in Los Angeles nach langen Jahren kraft von Noten noch einmal, wenn man Vorhersagen aus
den fest etablierten SAT als Auswahlinstrument aufgege- dem Bildungserfolg auf den Berufserfolg116 versucht.
ben110: »The University of California’s own research has Die Korrelation zwischen Examensnote im Studium und
shown that the SAT I - the widely used ›reasoning‹ test of Berufserfolg liegt bei .32, wobei sie von .45 nach einem Jahr
math and verbal abilities - was the least predictive indicator auf .11 nach sechs Jahren abnimmt117. Mit zunehmender
of freshman academic success, ranking behind high school Dauer der Berufstätigkeit werden also andere Faktoren rele-
grades and scores on the so-called ›SAT II‹ achievement vant als die durch Noten ausgewiesenen Fachleistungen des
tests in various academic subjects.«111 Studiums.
Auch im deutschen System wären keine besseren Ergeb- Seel (2002, 77) verweist dazu auf Unterschiede zwischen
nisse zu erwarten, wenn man Noten durch Tests ersetzt, verschiedenen Prüfungsformen. In seiner Follow-up Studie
wie der folgende Vergleich von Korrelationen zur Vorhersage von AbsolventInnen drei bis vier Jahre nach der Diplom-
des Erfolgs im Physikum zeigt112: prüfung fand er, dass Klausurennoten kaum einen Vorher-
sagewert für den Berufserfolg haben, wohl aber mündliche
Korrelation mit Gesamt- Gym- Fach- Prüfungen, die auf Verständnis prüfen. Aber auch deren
Physikum schule nasium Gymnasium Korrelation liegt je nach Erfolgskriterium bei nur .12 bis .35 .
21
Gebert (1983) wertete 53 Personalbeurteilungen mit acht Einengung der in einer ökonomischen Erhebung verläss-
Dimensionen118 aus und korrelierte sie mit dem IHK-Abschluss lich erfassbaren Ausschnitte/ Aspekte einer Kompetenz auf
10 bzw. 20 Jahre vorher. Auch er fand unterschiedlich starke ausgewählte Teilleistungen;
Zusammenhänge, je nach dem gewählten Erfolgskriterium: Künstlichkeit der Testsituation mit begrenzter
Aussagekraft für Alltagsanforderungen.
.50+ berufl. Fachkenntnisse (sowohl Theorie als auch Praxis) Bei Tests wird häufig eine Validierung über Experten-
.40+ Arbeitsgüte, Sorgfalt/Zuverlässigkeit urteile angestrebt122, die aber nicht immer verlässlich sind,
.20+ Auffassung, Eigeninitiative wie z.B. die Ergebnisse der deutschen SchülerInnen in den
PISA-Aufgaben gezeigt haben: Die vorher befragten Exper-
Gegenüber diesen - schon an sich geringen - Korrelationen tInnen hatten für die einzelnen Aufgaben wesentlich höhere
wurde die Prognosen von Arbeitstempo und Führung nicht Lösungsquoten vermutet123.
einmal statistisch signifikant. Bei der Auswahl von Bewerbe- Zudem konnte weder für Tests noch für das Lehrerurteil
rInnen für berufliche Aufgaben haben sich qualitative lern- eine überzeugende Prognose-Validität nachgewiesen wer-
biografische Daten meist als aussagekräftiger erwiesen als den. Die Entwicklung von Personen ist nicht berechenbar
punktuelle Prüfungen119. - und variiert vor allem in Wechselwirkung mit den Lernbedin-
Schon diese wenigen Hinweise zeigen, wie schwierig es gungen. Damit wird vor allem die Selektionsfunktion von
generell ist, »Erfolg« aus »Voraussetzungen« vorherzusagen beiden Verfahren nachdrücklich in Frage gestellt.
- unabhängig davon, welche Merkmale man mit welchem
Verfahren erfasst. Neben der fachlichen Kompetenz spielen 1.2
persönliche Faktoren wie z.B. die Motivation eine wichtige
Rolle. Zum anderen sind die Anforderungen und die Leis- Wie unabhängig sind Beurteilungen von persönlichen
tungsmöglichkeiten in beruflichen Situationen so unterschied- Einflüssen? (Objektivität)
lich, dass die breite Streuung der »Erfolge« nicht verwundern
sollte - selbst wenn die aktuelle Leistung einer Person zu- Aus dem Prinzip der Chancengleichheit folgt, dass die Be-
treffend erfasst und bewertet wurde. wertung von Leistungen nicht davon abhängig sein darf,
unter welchen Bedingungen sie zustande kommen (> Kap.
1.1.4 1.3) und wer sie bewertet. Vor allem zu Noten gibt es eine
Fülle von Untersuchungen, die diesen Anspruch untersuchen.
Zwischenbilanz zu »Validität«
1.2.1
Lehrerurteile basieren in der Regel auf informellen Leistungs-
proben und beiläufigen Beobachtungen. Die auf ihnen basie- Objektivität des Lehrerurteils
renden Bewertungen haben nur eine eingeschränkte Vali-
dität. Denn verschiedene LehrerInnen bewerten nach unter- Es überrascht auch Laien wenig, wenn Ulshöfer (1949) fest-
schiedlichen Kriterien: Sie betonen unterschiedliche Aspekte stellt, dass 42 DeutschlehrerInnen denselben Aufsatz unter-
der Leistung und sie orientieren sich zudem an unterschied- schiedlich bewerten. Wohl aber erstaunt, dass die Noten
lichen Schwellenwerten (z.B. »Welche Leistung entspricht über das ganze Spektrum von 1 bis 6 streuen. Schröter
welcher Ziffernnote?«). Diese Probleme treten bei Ziffern- (1981a) hat den Versuch erweitert und besonders problema-
noten wie bei verbalen Beurteilungen auf. In letzteren wer- tische Aufsätze von 11.000 Grund und Hauptschullehre-
den sie allerdings sichtbarer als in den Ziffern der Notenskala rInnen beurteilen lassen124. In mehr als 10% der Aufsätze
und damit auch leichter kritisierbar. streuten auch hier die Noten über fünf oder gar sechs Stu-
Als Möglichkeit, die Validität von Urteilen zu verbessern, fen. Und auch bei sieben Aufsätzen, die von 72 Gymnasial-
wird immer wieder die inhaltliche Präzisierung der Anforde- lehrerInnen beurteilt werden sollten, wurden in keinem Fall
rungen und Beurteilungskriterien genannt120. In diesem Kon- nur dieselbe Note oder nur benachbarte Noten vergeben.
text ist auch die Diskussion um verbindliche »Bildungsstan- Nun gelten Aufsätze als besonders anfällig für subjektive
dards« zu sehen. So erhofft man sich von expliziten Kriterien Einschätzungen. Aber auch bei anderen Leistungen ergeben
für die Benotung von Aufsätzen eine stärkere Fokussierung sich ähnliche Bilder.
der Bewertung. Dies ist in der Tat der Fall - allerdings auch
nur begrenzt121, wie das folgende Kapitel zeigt. 118 Auf einer 5er Skala jeweils von 1 bis 5 bewertet.
Die Sicherung von Validität ist aber auch eine Schwierig- 119 Vgl. Landmesser u.a. (2003) und > Kap 4.4 .
120 Vgl. u.a. Harlen (2004a, 6-7).
keit bei der Entwicklung standardisierter Tests. Ihr Vorteil:
121 S. dazu die Studien im > Kap. 1.2.3 »Objektivität«.
Die Frage wird ausdrücklich thematisiert und damit werden
122 Baumert u.a. (2001, 43); Artelt u.a. (2001a, 97-101).
die Annahmen des Tests für Außenstehende nachprüfbar. 123 Artelt u.a. (2001a, 100 vs. 102).
Der Einsatz standardisierter Tests bringt aber auch einer 124 Vgl. die Zusammenfassung bei Mreschar (1985, 47). Vgl. zur
Reihe von Problemen mit sich: fehlenden Objektivität von Aufsatzzensuren auch Faigel (1973).
22
In einer Studie von Weiss (1965)125 sollten 92 LehrerIn- In einer Studie von Hadley (1954) wurden SchülerInnen
nen nur die Rechtschreibung in zwei kleinen Aufsätzen von getestet und parallel von den LehrerInnen nach Beliebtheit
ViertklässlerInnen benoten. Auch hier streuen die Bewer- eingeschätzt. Diese Daten wurden mit den Zensuren vergli-
tungen über fünf Notenstufen: chen, die die LehrerInnen den SchülerInnen gegeben hatten.
Sie verteilten sich wie folgt127:
Note > 1 2 3 4 5 6
Recht- Note besser Note wie Note schlechter
schreibung als Test- Test- als Test-
Aufsatz A 10% 18% 41% 24% 7% - leistung leistung leistung
Recht- Beliebteste
schreibung SchülerInnen 50 % 16 %
Aufsatz B 7% 28% 39% 22% 4% - Durch-
schnitt 31 % 34 %
Unbeliebeste
SchülerInnen 19 % 50 %
Er ließ weitere 153 LehrerInnen eine Mathematikarbeit
(ebenfalls 4. Klasse) beurteilen, und selbst hier streuten die
Noten breit126:
Systematische Verzerrungen wurden auch für die Merkmale:
Note > 1 2 3 4 5 6 Verhalten, Alter, soziale Herkunft, Geschlecht und ethnische
Mathe-
Zugehörigkeit nachgewiesen128.
matik-
So veränderte die Vorgabe von Schichtprofilen für die
arbeit 7% 41% 42% 9% 1% -
VerfasserInnen von Aufsätzen und Rechenarbeiten (!) die
Bewertung derselben Arbeit nach oben bzw. unten - im
In den vorgestellten Studien handelte es sich jeweils um Durchschnitt um immerhin eine ganze Note129. Einflussreich
ausgewählte Einzelarbeiten, die den LehrerInnen vorlagen. wird dieser Schichteffekt besonders bei den Übergangsemp-
Aber die Ergebnisse waren nicht anders bei ganzen Klassen- fehlungen von LehrerInnen. Als ein Ergebnis der LAU-
sätzen (Klink 1964): Verschiedene LehrerInnen legen an Untersuchung stellten Lehmann u.a. (1997) fest: Gemessen
dieselbe Arbeit unterschiedliche Maßstäbe an. Ein Grund an den Testleistungen benachteiligen GrundschullehrerInnen
können Differenzen in der Gewichtung fachlicher Kriterien in ihren Empfehlungen für die Sekundarstufe SchülerInnen
sein, ein anderer unterschiedliche Erfahrungen mit dem, aus unteren Bildungsschichten (Schwellenwerte bei Vätern
was man von SchülerInnen einer bestimmten Altersgruppe mit Abitur 65 Testpunkte, bei Vätern ohne Schulabschluss
erwarten kann (> Kap. 2.1). 97,5 Testpunkte).
Gründe für die berichteten Abweichungen gibt es viele. Dieser Befund ist in den internationalen Leistungsstudien
Oelkers (2001) hat die wichtigsten »subjektiven« Fehler- PISA130 und IGLU aktuell bestätigt worden: »Untersucht man
quellen übersichtlich zusammengefasst: den Einfluss der Sozialschicht (EGP-Klassen) der Kinder auf
ihre Schullaufbahnempfehlungen, so wird deutlich, dass
» Halo-Effekt: Ein globaler Allgemeineindruck bestimmt die selbst bei Kontrolle der kognitiven Grundfähigkeiten und der
Wahrnehmung einzelner Merkmale Lesekompetenz Kinder aus oberen Schichten eine 2,68-
Beharrlichkeitstendenz: Lehrkräfte rücken von einem bzw. 1,76-fache größere Chance haben, eine Gymnasial-
bereits gefällten Urteil bei späteren Beurteilungen nicht ab empfehlung zu erhalten als ein Kind aus einem Haushalt aus
Reihungseffekt: Unter dem Eindruck, ›es können doch unteren Schichten«131.
nicht alle gleich schlecht sein‹ werden bessere Noten
gegeben
Kontrasteffekt: Nach einer Serie von sehr guten Leistun-
gen wird eine mittelmässige Leistung tendenziell als schlecht 125 Zusammengefasst bei (Zielinski 1974a, 889).
bewertet 126 Für Geometrie und andere Fächer fanden schon Starch/Elliot
(1913) ähnliche Verteilungen.
Beurteilungstendenzen: Milde oder Strenge, ›zentrale
127 Zit. nach Zielinski (1974a, 887), der allerdings darauf hinweist,
Tendenz‹ (Vermeidung von Extremwerten) und ›motivie- dass die Korrelation zwischen Note und Beliebtheit mit .02 bis .92 über
rende‹ versus ›selektive‹ Notengebung die Klassen hinweg erheblich schwankt. Es gibt also LehrerInnen, bei
Wissen-um-die-Folgen-Fehler: Mildere Beurteilung bei denen eine enge Beziehung zwischen beiden Faktoren besteht, und an-
absehbar negativen Folgen für die Schüler, nicht umge- dere, bei denen die Noten unabhängig von der Leistung vergeben werden.
128 Vgl. außer den im Folgenden zitierten Studien: Baurmann (1971);
kehrt.«
Bennett u.a. (1993).
Diese Fehler wirken generell auf Beurteilungen ein - 129 Weiss (1965b; 1971, 98-101); Stallmann (1990, 253) hat diesen
schon unabhängig von der bewerteten Person. Das Problem Befund erneut bestätigt.
verschärft sich aber, wenn man den Einfluss sachfremder 130 Vgl. Baumert/Schümer (2001, 357).
Bedingungen systematischer untersucht. 131 Bos u.a., (2004, 213).
23
Auch die ethnische Zugehörigkeit beeinflusst das Lehrer- 1.2.2
urteil. So stellte Stallmann (1999, 254) fest, dass Migranten-
kinder bei gleicher Leistung in Tests schlechtere Noten Kann der Einsatz standardisierter Tests
bekommen. Ditton u.a. (2005, 298-299) haben diese Benach- das Objektivitätsproblem lösen?
teiligung auch für Empfehlungen von GrundschullehrerInnen
beim Übergang zur Sekundarstufe nachgewiesen. Mit der Standardisierung von Aufgaben, ihrer Durchführung
Schließlich spielt das Geschlecht ein bedeutsame Rolle. und Auswertung soll der Einfluss persönlicher Eigenheiten
Nach Carter (1971) bekommen Mädchen132 bessere Noten auf die Leistungsbewertung ausgeschlossen, zumindest kon-
und geben Lehrerinnen bessere Noten. Dieser Befund ist trollierbar und somit deren Ausweis vergleichbar gemacht
allerdings zu differenzieren. So fand Klauer (1992, 56) in werden.
Rechenarbeiten, dass Mädchen im Vergleich zu ihren Test- Oberflächlich wird dadurch eine Eindeutigkeit der Bewer-
leistungen eher schlechter beurteilt wurden. Im Bereich der tung erreicht - allerdings auf Kosten eines neuen Problems:
Schriftsprache erreichen Mädchen zwar bessere Noten - Menschliches Verhalten ist mehrdeutig und deshalb immer
aber sie erbringen auch in Tests bessere Leistungen133. interpretationsbedürftig. Dieses Problem stellt sich bei allen
Allerdings fanden Bos u.a. (2005, 190-191), dass die Mäd- Formen der Leistungsbeurteilung, macht sich aber verschärft
chen in Deutsch und im Sachunterricht auch dann noch bei standardisierten Tests bemerkbar. Denn das möglichst
einen Notenvorteil haben, wenn man die Unterschiede in den eindeutig bestimmte Oberflächenverhalten (z.B. beim An-
Testleistungen berücksichtigt134. Der Grund könnte darin lie- kreuzen von Auswahlantworten) kann Ausdruck ganz unter-
gen, dass LehrerInnen bei Jungen in diesen Bereichen schiedlicher Intentionen, Konzepte und Strategien sein.
genauer hingucken - oder dass sie deren Leistungen stren- Aufgrund der kontextfreien Kommunikation zwischen Test-
ger bewerten bzw. sich durch andere Auffälligkeiten beein- entwicklern, getesteten Personen und AuswerterInnen lassen
flussen lassen. sich Interpretationsdifferenzen nicht auflösen: SchülerInnen
In einer Sonderauswertung des Schreibvergleichs Bun- deuten die Fragen anders, als sie von den AutorInnen
desrepublik-DDR ging Brügelmann (1994, 31) deshalb von gemeint waren135, und sie kreuzen Antworten aus anderen
der Bewertungsebene eine Stufe zurück auf die Wahrneh- Gründen an, als die Auswertungsschemata unterstellen.
mungsebene und untersuchte in einer Schweizer Stichprobe, Sprachliche Äußerungen und damit sowohl die Aufgaben als
ob es schon beim Auszählen von Rechtschreibfehlern ge- auch die Antworten sind mehrdeutig136. Das ist offenkundig
schlechtsspezifische Verzerrungen gibt. Das Ergebnis spricht bei Übersetzungen, wie Untersuchungen zu PISA belegen.
gegen eine einseitige Bevorzugung eines Geschlechts: Zwar Die Leistungen von SchülerInnen differieren nämlich je
wurden in freien Texten Ende erster Klasse bei Mädchen nachdem, ob eine Aufgabe aus dem Testpool des betreffen-
mehr Rechtschreibfehler übersehen als bei Jungen (3.5 vs. den Landes stammt oder in deren Sprache übersetzt wor-
8.0 Prozentpunkte der Fehlerquote). Im Diktat war es aber den ist137.
genau umgekehrt: Bei den Jungen wurden 13.8 Prozent- Aber auch die oben (> Kap. 1.1.1) referierte Kritik an den
punkte der tatsächlichen Fehlerquote nicht angestrichen, bei Aufgaben von VERA macht deutlich, dass Aufgaben mehr-
Mädchen dagegen nur 10.2 Prozentpunkte. In den Texten deutig und auch »falsche« Lösungen je nach Blickwinkel
und Diktaten der zweiten bis vierten Jahrgangsklassen fan- »richtig« sein können. Wie Prüflinge eine Aufgabe gedeutet
den sich nur geringe Unterschiede - und das einmal zu- und wie sie ihre Antworten gemeint haben, ist aber durch die
gunsten der Mädchen vs. viermal zugunsten der Jungen. Ausblendung persönlicher Interaktionen nicht mehr verhan-
Nimmt man beide Untersuchungsstränge zusammen, delbar. Damit wird nicht Objektivität gesichert, sondern die
so ist die Situation also differenziert zu betrachten: Es gibt Subjektivität der TestentwicklerInnen und -auswerterInnen
zwar Wahrnehmungsunterschiede - diese sind aber nicht über die der beurteilten Personen privilegiert.
geschlechtsspezifisch. Die geschlechtsspezifische Sicht
schlägt systematisch erst auf der Bewertungsebene durch.
Insgesamt ist aber festzuhalten: Noten und andere 132 So auch Hadley (1954), der zugleich feststellte, dass Mädchen
Formen der Einschätzung von Leistungen sind in hohem auch eher als »sympathisch« eingestuft wurden (s. oben).
133 Vgl. zusammenfassend: Richter/Brügelmann (1994) und Richter
Maße personabhängig. Als bewusste Empathie hat dies
(1996).
Vorteile für förderorientierte Rückmeldungen. Subjektivität ist 134 So auch in der Berliner Studie Thiel/Valtin (2002, 72). In Mathe-
insofern die Basis einer ermutigenden Rückmeldung. Denn matik, wo die Jungen in den Tests besser abschneiden, haben auch
diese setzt die Bereitschaft und Fähigkeit voraus, sich in die sie einen Notenvorteil, aber dieser ist deutlich geringer als die Vorteile
Probleme einer Person, die weniger Kompetenz als der Be- der Mädchen, so dass er statistisch nicht signifikant wird (Bos u.a.
2005, 190).
urteilende hat, einzufühlen, und ist insofern Ausdruck päago-
135 Und dies zum Teil mit guten Gründen, vgl. etwa Bartnitzky
gischen Taktes im Umgang mit ihrer besonderen Verletzlich-
(2005a).
keit. Fatal wirken sich dagegen unterschiedliche Maßstäbe 136 Vgl. zum Problem der »Operationalisierung« ausführlicher
und persönliche Sympathie oder der Einfluss von sachfrem- Brügelmann (1977).
den Informationen bei Selektionsentscheidungen aus. 137 Vgl. Baumgarten u.a. (2005, 101-102).
24
1.2.3 reduzierte:»Die Urteile von 85 Schulleitern zu einer gemein-
sam visionierten Unterrichtseinheit streuten wie eine perfekte
Wie weit lässt sich das Lehrerurteil Gauß-Kurve über die ganze Breite der Skala. Nach einer
objektivieren? intensiven Unterrichtsbeobachtungs-Schulung derselben
Personen wechselte zwar ein Großteil der Probanden ihre
Verschiedene Formen der Objektivierung sind denkbar: Einschätzung; nur nahm die Streuung keineswegs ab!«
methodisch-technisch durch die inhaltliche Präzisierung von Die Vorgabe von Kriterien allein reicht also nicht. Angel-
Kriterien und Maßstäben bzw. sozial durch die wechsel- sächsische Studien verweisen auf die Notwendigkeit, drei
seitige Kontrolle mehrerer PrüferInnen. Beide Maßnahmen Elemente zu kombinieren142:
können die Streubreite der Urteile reduzieren. klar definierte Kriterien,
Seit der Veröffentlichung von Ingenkamp (1971a) werden die möglichst gemeinsam mit den AnwenderInnen
die in > Kap. 1.2.1 referierten Probleme in der Ausbildung erarbeitet und
immer wieder thematisiert. Birkel (2003) stellt aber fest, dass von ihnen während der Anwendung im wechselseitigen
sich die Situation bei einer Wiederholung der damaligen Austausch verfeinert werden.
Versuche nicht verändert hat. Er resümiert verschiedene Eine Metaanalyse von mehr als 40 kontrollierten Studien
Studien138, die für die Sekundarstufe zeigen, dass die zeigt, dass sich der Aufwand lohnt. Eine Verbesserung der
Verwendung von Kriterienkatalogen in einigen Fällen die Leistungsbeurteilung im Unterricht führte in der Regel dazu,
Übereinstimmung von Urteilen über Aufsätze so weit steigern dass auch die Leistungen der SchülerInnen deutlich besser
konnte, dass sie in die Nähe der für Tests geforderten Werte werden143, und zwar profitieren vor allem leistungsschwäche-
kommt. Eher skeptisch stimmen dagegen die Befunde aus re SchülerInnen von einer differenzierteren Rückmeldung144.
einer Studie, in der 30 LehrerInnen eine Stichprobe von Auf- Unter diesen Bedingungen ist eine stärkere Übereinstim-
sätzen nach 17 Kriterien beurteilt haben. Danach führt der mung der Urteile erwartbar, wie sich auch in einer deutschen
Einsatz solcher Kriteriensätze zwar zu einer Ausdifferenzie- Pilotstudie zeigte. Brinkmann (2006) hat in einem Seminar
rung des Urteils, aber weder bei einer Wiederholung der Be- zur Leistungsbewertung ein dreistufiges Verfahren erprobt. In
urteilung durch dieselben PrüferInnen noch im Vergleich ver- einem ersten Schritt haben Studierende einen Aufsatz spon-
schiedener PrüferInnen ergaben sich befriedigende Überein- tan beurteilt. Danach wurden diese Bewertungen verglichen,
stimmungen: »Die enttäuschend niedrige Korrelation um .50, die impliziten Kriterien intensiv diskutiert und in Form eines
die den amerikanischen Erfahrungen voll entspricht, besagt, Beurteilungsrasters zusammengefasst. Anschließend beur-
dass in nur 25% aller Fälle das Urteil zweier Beurteiler über- teilten die Studierenden einen zweiten Aufsatz. Wie die fol-
einstimmt. Damit muss die Hoffnung aufgegeben werden, gende Tabelle zeigt, haben sich Noten unter der Gruppen-
durch den Gebrauch von Kriterien eine Urteilsgerechtigkeit Bedingung (Abstimmung im Team) im Vergleich zur
zu erzielen, die die Form des ganz oder zumindest weitge- Ausgangserhebung stärker konzentriert. Dennoch bleibt bei
hend übereinstimmenden Urteils aller Beurteiler besitzt.«139 der Einzelbewertung eine breite Streuung über mehrere
In dieser Studie wurden allerdings Kriterien vorgegeben Notenstufen erhalten:
und die BeurteilerInnen nicht speziell in ihrer Anwendung
geschult. Für die Auswertung offener Antworten wurde bei 1,5 2,0 2,5 3,0 3,5 4,0 aM SD N
PISA ein mehrstufiges Programm entwickelt, um die auf kon- 1 14 13 10 3 2,5 5.0 41 Gruppen/
krete Aufgaben bezogenen Raster zu optimieren und die (~100 Personen)
BeurteilerInnen zu schulen. Auf diese Weise wurde erreicht, 4 30 17 5 3 5 2,4 6.5 64 Personen
dass 92% der Kodierungen übereinstimmten (Baumert u.a
2001, 42). In anderen Forschungsprojekten mit ähnlich auf- 12 1 3 1 2,3 5.0 17 Gruppen
wändigen Schulungsmaßnahmen wurde eine Übereinstim- (64 Personen)
mung der Kodierung sprachlicher Äußerungen von 75-85%
erreicht (vgl. Diekmann 1995, 493). Solche Formen der 138 U.a. Lehmann (1990; 1994); Beck/Hofen (1991).
Qualitätssicherung sind jedoch für die Anwendung von Aus- 139 Grzesik/Fischer (1984, 193; s.a. 184-185, 215).
140 So fanden Meisels u.a. (2001) beim Einsatz von Checklisten eine
wertungsschemata im jedoch Schulalltag nicht möglich, erst
hohe Übereinstimmung mit externen Kriterien. Lehmann (1990, 92) sieht
recht nicht für die Bewertung von Leistungen generell, also ebenfalls Vorteile in einer Ausdifferenzierung von Kriterien - aber auch
ohne Verständigung auf spezifische Aufgaben. Insofern sind nur in begrenztem Umfang. In den Vordergrund rückt er die Mehrfach-
selbst bei Vorgabe von Beobachtungs- oder Auswertungs- beurteilung.
rastern zwar eine bessere Übereinstimmung der Urteile140, 141 Ref. bei Strittmatter (2003, 11).
142 Hargreaves u.a. (1996); Frederiksen/White (2004).
aber immer noch deutliche Differenzen zu erwarten.
143 Vgl. Black/Wiliam (1998a+b). Statistisch ausgedrückt beträgt der
Das zeigt sich bei der Beurteilung von pädagogischen
Zuwachs 0.4 bis 0.7 Standardabweichungen, d.h. ein durchschnittlicher
Prozessen generell. Metz (1982)141 stellt sogar fest, dass die Schüler (d.h. mit ursprünglichem Prozentrang 50) steigt in Vergleichtests
Schulung von Beobachterinnen mit Hilfe vorgegebener immerhin auf einen Prozentrang zwischen etwa 65 und 75.
Kriterien die Streuung der Bewertungen eines Videos nicht 144 Vgl. Stiggins (1999, 193).
25
Wichtig ist also die Abstimmung von Urteilen. So könnten die Gewicht beimißt, welchen seine Vorliebe gilt und welche er
Doppelkorrektur von schriftlichen Arbeiten und Kollegial- statt als nachrangig betrachtet. Ich vermute, dies alles spielt bei
Einzelprüfungen im Mündlichen Einseitigkeiten entgegen- Noten-Zeugnissen ebenso eine Rolle, erkennen allerdings
wirken. Allerdings scheint diese Korrektur die Schwankungs- kann man es dort nicht, und deshalb hält sich bei vielen
breite nur begrenzt zu dämpfen. Brügelmann (2000b) berech- Menschen so hartnäckig die irrige Vorstellung, dass Noten
nete - getrennt für die Bereiche Klausuren, mündlichen Prü- objektiv seien.«
fungen und Hausarbeiten - im ersten Staatsexamen aus den 1.3
Bewertungen Durchschnittsnoten bezogen auf die jeweils
beteiligten PrüferInnen. Die Bandbreiten der Noten schwank- Wie verlässlich sind verschiedene
ten - bezogen auf die beteiligten PrüferInnen - innerhalb der Beurteilungsverfahren? (Reliabilität)
Fächer je nach Prüfungsform zwischen 0,5 und 1,2 Stufen.
Trotz der Korrektur durch ZweitgutachterInnen konnten sich Dieses Kriterium zielt auf die Verlässlichkeit von methodi-
also Milde- und Strenge-Effekte immer noch durchsetzen, schen Verfahren. Eine Beurteilung soll von äußeren Um-
d.h. die schon gemittelten Noten unterschätzen die Spreizung ständen (Tageszeit, Reihenfolge der Prüflinge und ähnlichen
der einzeln gegebenen Noten noch. Selbst in den gemein- Bedingungen) unabhängig sein. Die Reliabilität wird in der
sam durchgeführten und beratenen mündlichen Prüfungen Regel festgestellt, indem Messungen wiederholt werden und
bleibt eine Differenz von 0,5 bis 0,9 Notenstufen - je nach deren Übereinstimmung geprüft wird. Bei Tests, die eine
Zusammensetzung der Prüfungsteams. Vergleicht man die Kompetenz durch den Durchschnitt von Leistungen über
Notendurchschnitte über Fächergrenzen hinweg erweitert mehrere Aufgaben hinweg zu erfassen suchen, ist auch eine
sich die Bandbreite auf 0,9 Notenstufen bei Hausarbeiten, Halbierung des Aufgabensatzes und die Berechnung von
1,0 bei mündlichen Prüfungen und 2,3 bei Klausuren. zwei Teilsummen möglich, deren Übereinstimmung dann ein
Maß für die Verlässlichkeit des Verfahrens abgibt.
1.2.4
1.3.1
Zwischenbilanz zu »Objektivität«
Die Zuverlässigkeit des Lehrerurteils
Unterschiedliche Maßstäbe, aber auch sachfremde Gesichts-
punkte wie Sprachstil oder Sozialverhalten des Schülers Finlayson (1951/1971) ließ LehrerInnen pro SchülerIn zwei
bzw. persönliche Sympathien der Lehrperson beeinflussen Aufsätze beurteilen. Die Noten für die beiden Aufsätze korre-
das fachbezogene Urteil und schränken deshalb die Objek- lierten im Durchschnitt mit .70. Auch bei Eells (1930/1971)
tivität sowohl von Noten als auch von Verbalgutachten ergab eine Wiederholung der Beurteilung von Aufsätzen
erheblich ein. Nachgewiesen sind auch systematische Ver- durch dieselbe Lehrperson nach einem Monat bzw. vier
zerrungen durch Gruppenmerkmale wie Geschlecht, soziale Jahren die gleiche Streuung wie bei den Noten verschiede-
Herkunft und ethnische Zugehörigkeit. In Tests werden des- ner LehrerInnen zum gleichen Zeitpunkt (s. Kap. 1.2.1).
halb Aufgaben, ihre Durchführung und Auswertung standar- Ammann (2002) zitiert eine Studie Osnes (1972), wonach
disiert. Aber auch dieser Versuch hat seine Probleme. äußere Faktoren wie die Zahl der Rechtschreibfehler oder
Sprache ist nur kontextbezogen verständlich, ihre Bedeutung Handschrift die Bewertung von Aufsätzen beeinflussen. Die
muss von den Beteiligten stets neu ausgehandelt werden. Bewertung von Aufsätzen ist außerdem abhängig von der
Genau das ist aber ohne direkte Kommunikation nicht mög- Situation: in der Reihenfolge spätere erhalten eine bessere
lich. Strukturierte Beobachtungs- und Auswertungsbögen Note145. Auch der Kontext der Beurteilung spielt eine Rolle:
versprechen, verbunden mit einer Schulung der Beurteile- Nach einer guter Arbeit wird eine schlechte noch schlechter
rInnen eine verbesserte - allerdings immer noch begrenzte - beurteilt (Birkel 1978/1984)146.
Übereinstimmung der Urteile. Aber es sind nicht nur die Aufsätze, deren Beurteilung
So wichtig das Bemühen darum ist, Willkürlichkeit in der für den Einfluss von Randbedingungen anfällig ist. Dicker
Bewertung auszuschließen - die Bedeutung von Empathie (1973)147 ließ dieselben Mathematikarbeiten von 24 Haupt-
für eine lernförderliche Leistungsbeurteilung darf darüber schullehrerInnen nach drei Monaten erneut bewerten. Nur
nicht vergessen werden. Dies gilt zumindest für verbale Lern- acht, also 1/3 der LehrerInnen, gab dieselbe Note, dem ent-
berichte, wie Bambach (1994, 15) in ihrem Plädoyer für spricht eine Korrelation von .50 . Noch ungünstiger fiel das
»Ermutigungen. Nicht Zensuren« zu Recht anmahnt: »Die Ergebnis von 61 LehrerInnen aus, die zwei bzw. drei Arbeiten
Berichte sind nicht nur ›nicht objektiv‹, sondern bewußt sub- in Geschichte und Geografie zweimal zu bewerten hatten148.
jektiv; an ihnen lässt sich ablesen, was dem berichtenden
145 Baurmann (1975).
Lehrer für die ihm anvertrauten Kinder am Herzen liegt, wel-
146 Man kann solche Reihungs- und Kontrasteffekte auch als Ein-
che Entwicklungen er besonders schätzt, welche er ändern schränkung der Objektivität interpretieren, s. > Kap. 1.2.1.
und welche er verhindern möchte. An den Berichten ist auch 147 Zusammengefasst bei Zielinski (1974a, 888).
ablesbar, welchen Lerngegenständen der Lehrer besonderes 148 Eells (1930/1971).
26
Auch in mündlichen Prüfungen streut das Notenniveau 1.4
nicht zufällig. Vielmehr lässt sich ein Auf- und Absteigen des
Durchschnitts beobachten, besonders stark bei einer höhe- Fazit
ren Zahl von Prüfungen pro Tag (Hartog/Rhodes 1971b).
Festzuhalten ist, dass Schwankungen des Urteils dersel- Gemessen an den drei Gütekriterien weisen alle Erhebungs-
ben Lehrperson die Verlässlichkeit der Noten und Verbal- formen Mängel auf. Diese Einsicht relativiert den Status
gutachten gleichermaßen beeinträchtigen. von Bewertungen. Die Diskussion hat aber auch gezeigt,
dass die Gütekriterien in ihrem testtheoretischen Verständnis
1.3.2 dem Gegenstand nicht voll gerecht werden: Menschliches
Verhalten ist kontextabhängig und mehrdeutig. Ohne kogni-
Die Zuverlässigkeit von Tests tive und emotionale Empathie kann es oft weder erklärt noch
angemessen gewürdigt werden. Es kommt hinzu, dass
Aber auch bei Tests gibt es Schwierigkeiten mit der Verläss- Beschreibungen und Bewertungen für die Betroffenen nicht
lichkeit. Schon die Wiederholung desselben Tests führt nicht nur kognitiv nachvollziehbar, sondern auch sozial annehmbar
zu denselben Ergebnissen. In unserem Projekt LUST erhiel- sein müssen: Damit werden Standards wie Glaubwürdigkeit,
ten wir bei einer Reliabilitätsprüfung desselben, sehr robu- Fairness und Verständlichkeit bedeutsam, die hier noch gar
sten Lesetests nicht nur - wie erwartet - beim zweiten Mal nicht bedacht sind152 (> Kap. 6.5).
deutlich bessere Ergebnisse; die Rangfolgen der Leistungen
korrelierten nach einer Woche immerhin noch mit .90149. Bei 2
der Durchführung in einer anderen Form (PC vs. Papier-und-
Bleistift) sank die Korrelation aber schon deutlich auf .70150. An welchen Maßstäben
Bei Tests spielen auch andere Durchführungsbedingungen sollen Leistungen gemessen werden?
eine Rolle, nicht nur die Tagesform der SchülerInnen. Dies (Bezugsnormen)153
wird besonders deutlich in Einzelfallstudien, in denen einzel-
nen SchülerInnen derselbe Test zweimal oder zwei Tests mit Die Bewertung einer Leistung kann sich an verschiedenen
gleichem Schwerpunkt gegeben werden. Dabei zeigt sich, Maßstäben orientieren154:
wie riskant die Einstufung einer Person nach einmaliger Kollektive Norm/Gruppenorientierung: Vergleich mit
Testung ist151. Das Problem von Tests ist also die breite anderen Personen einer Bezugsgruppe, z.B. einer Klasse,
Schwankung einer punktuell erfassten Testleistung um den der Altersgruppe oder des Jahrgangs einer bestimmten
»wahren Wert« der eigentlich angezielten Fähigkeit (= hoher Schulform; sie ist verbunden mit dem Anspruch der Höchst-
Messfehler bei Individualdaten). In Aussagen über größere leistung wie z.B. im sportlichen Wettkampf, in dem es auf die
Gruppen, wie sie für bildungspolitische Entscheidungen relative (»Sieger«) oder absolute Bestleistung (»Rekord«)
genutzt werden, stellt sich dieses Problem in geringerem ankommt;
Umfang, weil sich individuelle Schwankungen in den Kenn- Sachnorm/Kriteriumsorientierung: Feststellung, wie weit
werten für die Stichprobe insgesamt ausgleichen. Insofern eine Leistung den in Lernzielen definierten Anforderungen
liefern Studien wie PISA, IGLU und VERA verlässliche Daten entspricht; sie ist bezogen auf eine allgemein geforderte
für eine schulübergreifende Systemevaluation. Ihre Daten Mindestleistung, wie sie für die Sicherung alltagstauglicher
haben aber nur einen begrenzten Stellenwert für die Bewer- Fähigkeiten notwendig ist (z.B. bei »Führerscheinen«, bei
tung individueller Leistungen von SchülerInnen (oder auch dem es nur um das Urteil »bestanden« geht);
LehrerInnen ...). Individualnorm/Entwicklungsorientierung: Bestimmung
des Lernzuwachses, bezogen auf die unterschiedlichen
1.3.3 Voraussetzungen einzelner Personen, zum Beispiel in der
Rehabilitation nach einem Unfall, die auf eine weitestgehen-
Zwischenbilanz zu »Reliabilität« de Förderung der individuell vorhandenen Möglichkeiten zielt
(»Fortschritt« von den jeweiligen Voraussetzungen her als
Auf der Individualebene sind sowohl Lehrerurteile als auch Maßstab des Erfolgs).
Tests sehr unzuverlässig. Punktuelle Leistungsproben bzw.
Beobachtungen reichen deshalb in keinem Fall aus, um
institutionelle Förder- oder gar Selektionsentscheidungen 149 Vgl. Brügelmann (2003c, 6).
abzusichern. Je folgenreicher die Entscheidung für die 150 Vgl. Backhaus/Moskopp (2006, 4).
151 Vgl. als ein Beispiel unter vielen Seidel (2005; 2006).
Betroffenen, um so weniger darf man sich auf eine einzige
152 Vgl. zu Kritik an einem verkürzten Verständnis von Gütekriterien:
Leistungsprobe verlassen. Außerdem sollten die Aufgaben-
House (1980) und Winter (2004, 91-95).
typen variieren, um Zufallseffekte der Situation zu mini- 153 Empfehlenswert als Einführung sind die Überblicke bei Klauer
mieren (z.B. mündliche vs. schriftliche Aufgaben; offene (1987); Rheinberg (1998; 2001, 59-68) und Persy (1990).
vs. geschlossene Fragen). 154 Vgl. zur Erläuterung dieser Bestimmungen: Brügelmann (1998).
27
Je nach Maßstab wird dieselbe Leistung anders bewertet. In von Noten einerseits und von Leistungswerten in Fachtests
der Praxis dominiert wegen der unterschiedlichen Funktionen andererseits stimmen innerhalb einzelner Klassen relativ gut
mal der eine, mal der andere Maßstab: Für die Auswahl von überein157. Allerdings dürfen solche Werte nicht überschätzt
BewerberInnen auf knappe Stellen in einem Betrieb oder in werden: Individuell kann es auch bei Korrelationen in diesem
einer Bildungseinrichtung ist der Vergleich mit anderen ange- Bereich erhebliche Rangverschiebungen geben158. Über
messen; für die Zulassung zu einer Tätigkeit, deren Folgen verschiedene Fächer hinweg sinkt die Vergleichbarkeit von
andere betreffen, zum Beispiel im »Erste-Hilfe«-Kurs, macht Noten noch mehr, da z.B. Mathematik und Rechtschreiben
die Überprüfung definierter Mindestanforderungen Sinn; zur (unter voller Ausnutzung der Notenskala) strenger bewertet
Rückmeldung über Effekte des Unterrichts oder den Erfolg werden, Sport und Kunst dagegen im Durchschnitt um eine
individueller Lerntätigkeit ist eher der Ausweis von Leistungs- halbe bis ganze Note milder159; und auch auf verschiedenen
fortschritten angemessen155. Klassenstufen160 gelten unterschiedliche Anforderungen.
Die Wahl des Maßstabs ist unabhängig von der Wahl des So halbiert sich z.B. der Anteil der »(sehr) guten« Noten in
Erhebungsverfahrens - z.B. Test vs. Beobachtung - oder der Rechtschreibung von rund 70% in Klasse 2 auf gut 30%
Entscheidung für eine bestimmte Form der Dokumentation in Klasse 6161.
und Rückmeldung (wie Ziffernnoten vs. Verbalbeurteilung). Vor allem aber sinken die Korrelationen beim Vergleich
Die unterschiedliche Nutzung von Tests für verschiedene über verschiedene Klassen hinweg noch einmal erheblich.
Funktionen kann dies verdeutlichen156: So stellte schon Schiefele (1960) fest, dass dieselbe Fehler-
Gruppenorientierte Schulleistungstests sind Tests, bei quote in demselben Diktat in verschiedenen Klassen unter-
denen das individuelle Ergebnis mit den Ergebnissen einer schiedlich benotet wird. Bekam ein Schüler in der einen
relevanten Stichprobe, z.B. Klassenstufe, verglichen werden Klasse noch mit 12 Fehlern eine »3«, gab es in einer ande-
kann. Als Vergleichswerte und Informationen werden meist ren Klasse bereits ab 6 Fehlern eine »4«162. Thiel/Valtin
Prozentrangplätze benutzt, die auch in Noten umgerechnet (2002, 76) folgern sogar: »Die Klassenzugehörigkeit ist [...]
werden können. Geeignet sind solche Tests für die Auslese entscheidender als die Testleistungen«.
und bei Wettbewerben. Auch wenn das Niveau der jeweiligen Klasse einen
Kriteriumsorientierte Schulleistungstests sind Tests, bei beachtlichen Einfluss hat, so ist diese Deutung überzogen.
denen das individuelle Ergebnis mit einem vorher gesetztem So fand Backhaus (2006) in einer Sekundärauswertung der
Kriterium (Lernziel) verglichen wird. Mit Bezug auf verschie- Lese-Studie LUST163, dass die die Zugehörigkeit zur Klasse
dene Kriterien sind unterschiedliche Vergleiche denkbar. Die zwar 6% bzw. 21% der Unterschiede in den Noten aufklärt,
Erfüllung von Grundlagenanforderungen oder Minimallern- die Testleistung in den Jahrgängen 3 und 4 aber 27% bzw.
zielen (Kriterium) kann geprüft und mitgeteilt werden. Alter- 34%, Auch die Reanalyse der Daten im Berliner NOVARA-
nativ kann das Erreichen eines bestimmten Lernzielniveaus Projekt durch Thiel164 kommt am Beispiel des Mathematik-
bzw. unterschiedlicher Anforderungen überprüft und ggf. tests im SL-HAM 6/7 zu dem Schluss, dass die Testleis-
bestätigt werden. tung mit etwa 40% den größten Teil der Notenunterschiede
Diagnostische Schulleistungstests sind kriteriums- erklärt, die Zugehörigkeit zur Schulklasse dagegen nur bis
orientierte Tests, bei denen das Ergebnis aus dem Vergleich zu 10%.
mit dem Kriterium zur Feststellung und Interpretation von Wie man die Abweichung der Noten von der Testleistung
Abweichungen und zur Planung und Durchführung von för- bewertet, hängt davon ab, wie hoch man die Aussagekraft
dernden Maßnahmen verwendet wird. punktueller Tests im Vergleich zur kontinuierlichen Beobach-
tung durch die Fachlehrerin einschätzt. Unumstritten ist aber
Die beschriebenen Ziele sind Ansprüche bzw. Erwartungen. der Sachverhalt, dass die Noten innerhalb einzelner Klassen
Zu prüfen ist aber, wie die Realität aussieht. Dabei geht wesentlich höher mit den Tests korrelieren als über verschie-
es an dieser Stelle - wie gesagt - zunächst nicht um eine dene Klassen hinweg. Insofern ist auf alle Fälle belegt, dass
Untersuchung von Ziffernnoten und Verbalgutachten, son-
dern grundsätzlicher um die Wirkungen der Bezugsnormen 155 Vgl. zur Begründung im Einzelnen die Beiträge von Bartnitzky,
unabhängig von der Darstellungsform. Flitner, Schwartz, Röbe und Knauf in Bartnitzky/Portmann (1992, 8-47).
156 Gaude (1989, 192); s.a. Ingenkamp (1992).
157 So berichten beispielsweise Thiel/Valtin (2002, 75) Korrelationen
2.1
von .50 bis .88; s. ergänzend zu ähnlichen Übereinstimmungen in den
Studien IGLU und LUST > Kap. 1.1.2.
Wo steht ein Schüler im Vergleich zu anderen? 158 Vgl. > Kap. 1.1.2 .
(kollektive Norm/Gruppenorientierung) 159 A.a.O., 69-70.
160 Vor allem in den verschiedenen Schulformen der Sekundarstufe I.
161 Thiel/Valtin (2002, 71); in Berlin Abschlussklasse der dort sechs-
Verfechter von Ziffernnoten betonen als einen ihrer Vorteile
jährigen Grundschule.
ihre angebliche Vergleichbarkeit. In der Tat zeigen verschie- 162 Zusammenfassung bei Zielinski (1974a, 884).
dene Studien, dass LehrerInnen innerhalb ihrer Klassen zu 163 Vgl. Brügelmann (2003b+c; 2005b),
ähnlichen Rangfolgen kommen wie Tests. Die Rangfolge 164 Pers. Mitteilung v. 3.2.06.
28
die unterschiedlichen Maßstäbe von LehrerInnen eine ist. Wenn diese Personen noch dazu sich in der Ausbildung
bedeutsame Rolle für die Benotung von Leistungen spielen. befinden, um bestimmte Änderungen bei ihnen zu erzeugen,
Diese Abweichungen werden in der Regel als Schwäche gibt es starke Zweifel, ob die Verteilung ihrer Fähigkeiten
des Lehrerurteils ausgelegt, was aber nicht zwingend ist ›normal‹ sein wird. Nehmen Sie, zum Beispiel, an wir würden
(s. > Kap. 1.2). Die Achillesferse des Lehrerurteils ist der eine solche gedankenlose Anwendung der ›normalen‹ Ver-
klassenbezogene Maßstab. Insofern ist der punktuelle teilung auf solche Eigenschaften machen wie die Verteilung
Einsatz von Tests, die in größeren Stichproben normiert der Lehrkompetenz unter Lehrern. ›Offensichtlich‹ müssten
wurden, wichtig, um die eigenen Maßstäbe auf mögliche dann einige Lehrer als Versager bezeichnet werden. ›Offen-
Verzerrungen hin zu überprüfen. In der Beurteilung einzelner sichtlich‹ müsste ihre Zahl genau so groß sein, wie die der
SchülerInnen können abweichende Testergebnisse zudem herausragenden Lehrer. Lehrer werden schnell Gründe fin-
auf blinde Flecke aufmerksam machen. Ersetzen können den, um eine solche Annahme bei der Evaluation ihrer Arbeit
punktuelle Tests die langfristige Beobachtung jedoch nicht: zurück zu weisen. Diese Einwände gelten gleichermaßen für
In beiden Fällen sind abweichende Testergebnisse Anlass die Evaluation der Arbeit von Schülern und Studierenden.«166
für eine Überprüfung - in keinem Fall aber eine unbefragt
hinzunehmende Autorität. 2.2
Ein spezielles Problem der gruppenorientierten Bewer-
tung verdient besondere Beachtung: Die Orientierung an der Wo steht ein Schüler auf dem Weg zum Lernziel?
Gauß’schen Normalverteilung (»Glockenkurve«) verzerrt (Sachnorm/Kriteriumsorientierung)
die inhaltliche Bedeutung von Leistungsunterschieden. An
einem Beispiel aus dem Sport lässt sich die Problematik ein- Die Kultusministerkonferenz hat bereits in ihrem Beschluss
drücklich zeigen: Während beim Rodeln in der Freizeit Ab- von 1968 gefordert, die Bewertung von Leistungen nicht
stände von mehreren Sekunden über Sieg oder Niederlage am Klassendurchschnitt, sondern an definierten Anforderun-
entscheiden können, müssen im Vereinssport schon Unter- gen zu orientieren. Wie die in > Kap. 3.1 berichteten Studien
schiede von Zehntel- und bei Olympischen Spielen von zeigen, hat sich dieser Maßstab bei Ziffernnoten bisher
Hundertstel- oder Tausendstelsekunden herangezogen wer- nicht durchgesetzt. Eine größere Rolle spielt er bei Verbal-
den, um Leistungen differenzieren zu können - auch wenn gutachten und insbesondere in den zentralen Leistungs-
sie für den Alltag irrelevant sind. vergleichen auf internationaler Ebene (PISA, IGLU) wie auch
Für das Lehrerurteil wie auch für Tests kann die Unter- in den Bundesländern (VERA)167.
stellung einer Verteilung nach der Gauß’schen Normal- Bei der Entwicklung und Auswertung von Tests versucht
verteilung Fehldeutungen nahe legen, wenn selbst kleine man - orientiert an den sog. »Bildungsstandards«168 - Kom-
Leistungsunterschiede um der Notendifferenzierung willen petenzstufen zu definieren, die eine zunehmende Annähe-
überbewertet werden. So können beispielsweise in manchen rung an das Lernziel beschreiben. Dabei stellt sich allerdings
Diktaten schon zwei Fehler mehr auf hundert Wörter eine ein Problem: Lernen wird modelliert als eindimensionaler
ganze Notenstufe - oder bei Tests einen Sprung um zehn und linearer Zuwachs von Kompetenz.
oder zwanzig Prozentränge ausmachen. Diese Vereinfachung wird der Komplexität von Lernpro-
Ein zweites Problem stellt die Wirkung auf schwächere zessen gerade in der Anfangsphase nicht gerecht: So führt
SchülerInnen dar: Obwohl sie Lernfortschritte machen, kön- zum Beispiel der Wechsel vom wortweisen Satzlesen zum
nen diese nicht honoriert werden, da sich ihr Rangplatz inhaltsorientierten Textlesen einerseits zu einem wachsen-
wegen des Lernzuwachses aller SchülerInnen in der Regel dem Tempo und besseren Inhaltsverständnis, aber gleich-
nicht verändert. Damit kann ihre Lernmotivation sinken165. zeitig - zumindest phasenweise - auch zu mehr Verlesungen
Die Annahme, dass sich gute und schwache Leistungen auf Wortebene. Lerngewinne lassen sich also nicht immer
entsprechend einer Glockenkurve verteilen, ist nicht notwen- als bloß quantitative Reduktion von Fehlerquoten messen.
digerweise richtig. Zwar kann man durch eine entsprechende Notwendig sind differenziertere Leistungsprofile, deren Er-
Gestaltung von Aufgaben und die Art ihrer Auswertung eine gebnisse vor dem Hintergrund von qualitativen Entwicklungs-
solche Normalverteilung sichern, »[l]ogische Schwierigkeiten, modellen inhaltlich gedeutet werden müssen.
diese ›Normalverteilung‹ beim Zensurengeben anzuwenden,
resultieren aber aus diesen Tatsachen:
165 S. zu empirischen Befunden > Kap. 3.2.3.1.
- Nicht alle Eigenschaften sind normal verteilt. 166 Dressel (1957, 7-8; Übersetzung: Georg Lind).
- Die Natur der Verteilung hängt teilweise vom Messinstru- 167 Allerdings wurden auch in diesen Studien die Anforderungen der
ment ab. Das gilt vor allem für Tests, da sie oft keinen defini- einzelnen Stufen nicht normativ vorweg, sondern erst im Nachhinein auf
ten Null-Punkt haben und keine absoluten Messeinheiten. der Basis der empirischen Ergebnisse formuliert. Vgl. zu den Zweifeln an
der ökologischen Validität dieser Festlegungen: Brügelmann (2005, 277)
- Auch wenn eine Eigenschaft normal verteilt sein sollte, gilt
mit Verweis auf Testergebnisse bei Erwachsenen in der LUST-Studie
dies nur für große, unselektierte Gruppen von Menschen. (ausführlicher: Brügelmann 2004).
Viele Schüler- und Studierendengruppen sind stark selektiert, 168 Vgl. grundlegend: Klieme u.a. (2003); zu den Problemen, vor allem
womit die Annahme einer Normalverteilung sehr zweifelhaft bei der Umsetzung: Brügelmann (2005, 46-48).
29
Krampen (1985, 117) stellt für inhaltliche Kommentare zu die individuelle Bezugsnorm realisiert wird - und sei es nur
Noten, die die Leistung auf Lernziele beziehen, grundsätzlich neben den anderen Maßstäben - zeigen sich positive Effekte
positive Wirkungen auf Motivation und Leistung fest169: auf Motivation und Leistung.
»An einem sachlichen (lehrstoff-bezogenen) Gütemaßstab
orientierte Kommentare wirken in der Tendenz bei allen Eine Metaanalyse von Kluger/deNisi (1996) hat Studien aus
Schülern positiv, ohne dass gesagt werden kann, dass eine ganz verschiedenen Bereichen ausgewertet. Jacobs (o.J.)
Leistungsgruppe von ihnen besonders profitiert; die Effekte resümiert die Ergebnisse: »Die Rückmeldung über eine indi-
sind jedoch eher gering.« viduelle Leistungsentwicklung, etwa der Feedbackhinweis
In anderen Studien wurden für differenzierte Rückmeldun- auf eine Verbesserung gegenüber vorheriger Leistung [...]
gen, die sich an Lernzielen als Sachkriterium orientierten, wird von mir überwiegend als motivationales Feedback
unterschiedliche Effekte gefunden: Leistungsschwächere (Leistungsbewertung im Längsschnitt) betrachtet. 50 Effekt-
SchülerInnen profitierten von ihnen, während leistungsstärke- stärken172 beziehen sich auf den Vergleich ›Feedback indivi-
re bei einer Rückmeldung nach sozialer Bezugsnorm besser duelle Leistungsveränderung‹ vs. ›kein Feedback‹ und bestä-
abschnitten170. tigen eine leistungssteigernde Wirkung dieser Rückmeldung
Die teilweise nur geringe Ausprägung der Effekte könnte in Höhe einer durchschnittlichen Effektstärke von d = .55.
damit zusammenhängen, dass die (vergleichsorientierten) Sonstige Leistungsstandards im Feedback, wie etwa der
Noten in der Wahrnehmung der SchülerInnen dominieren, ›Vergleich mit den Leistungen anderer Personen‹ bzw. Noten
der kriteriumsorientierte Kommentar seine Wirkung also nicht als Rückmeldung waren offenbar nicht so wirksam.«
voll entfalten kann. Da sich unter den ausgewerteten Studien auch Labor-
experimente, darunter viele aus ganz unterschiedlichen
2.3 Bereichen, befinden, deren Bedeutung für den Schulalltag
ungeklärt ist, sind die Ergebnisse nur als erster Hinweis zu
Welche Fortschritte hat nehmen. Einschlägiger ist eine kontrollierte Feldstudie von
ein Schüler gemacht? Krampen (1985). Er untersuchte über mehrere Mathematik-
(individuelle Norm/Entwicklungsorientierung) arbeiten hinweg vier Formen der Rückmeldung:
30
Krampen stellte positive Auswirkungen der Individualnorm weniger Furcht vor Misserfolg und mehr Hoffnung auf Erfolg -
auf die Motivation und die Leistungen aller SchülerInnen fest, wichtige Faktoren für positiv motiviertes Lernverhalten. Dies
wobei sie - ähnlich wie Lissmann/Paetzold (1987; s. Kap. resultierte dann in mehr Freude am Unterricht und letztend-
2.2) - erwartungsgemäß bei den leistungsschwachen Schüle- lich auch in besseren Lernleistungen.«
rInnen besonders ausgeprägt waren173: »Über Lehrerkommen- Wichtig ist allerdings, dass die Bewertung sich nicht allein
tare zu Leistungen ist folgendes bekannt (Krampen 1987): an quantitativen Fortschritten orientiert (Zuwachs an richtigen
Lösungen). Da Lernfortschritte sich auch in zunehmender
1. Fehlerzahl ausdrücken können (z.B. bei der Übergeneralisie-
Sozial orientierte Lehrerkommentare wirken rung neu gelernter Rechtschreibmuster), ist oft eine quali-
bei leistungsschwächeren Schülern deutlich negativ, tative Bewertung der Entwicklung erforderlich. Diese kann
bei leistungsstärkeren neutral oder leicht positiv. durch standardisierte Messungen nicht geleistet werden.
Eine Interpretation durch die fachkundige Lehrkraft ist immer
2. notwendig.
An einem sachlichen Standard orientierte Lehrer-
kommentare wirken in der Tendenz bei allen Schülern 2.4
positiv, ohne dass eine bestimmte Leistungsgruppe
deutlich von ihnen profitiert. Zwischenbilanz zu »Bezugsnormen«
3. Trotz der Vorgaben der KMK (1968) dominiert bei der Noten-
Individuell orientierte Lehrerkommentare wirken vergabe die Gruppennorm - bezogen auf die einzelne
ebenfalls bei allen Schülern tendenziell positiv, Klasse. Aber auch für Verbalgutachten spielt sie neben der
am meisten profitieren davon die leistungsschwächeren.« Kriteriumsorientierung eine wichtige Rolle: Die individuelle
Bezugsnorm kommt nur in einer Minderheit der Aussagen
Auch nach anderen Untersuchungen lassen sich positive zur Geltung. Grundsätzlich hat eine Rückmeldung von indivi-
Wirkungen der individuellen Norm auf das Selbstwertgefühl, duellen Lernfortschritten (statt einer Bewertung von Leistun-
die Motivation und Erfolgszuversicht feststellen174. Im Blick gen im Vergleich mit einer Bezugsgruppe) positivere Effekte
auf die fachliche Selbsteinschätzung stellte etwa Rheinberg auf leistungsschwächere SchülerInnen: ihre Motivation ist
(2001, 64, 65) fest, dass »... mehr als die Hälfte der Schüler höher, ihre Selbsteinschätzung ist positiver und ihre Leis-
von Lehrern, die sich ausschließlich an sozialen Bezugs- tungen sind besser. Aber je nach Funktion haben auch die
normen orientierten, am Schuljahresende sagten, sie könn- Zielorientierung und der Gruppenvergleich ihre Berechtigung
ten jetzt nur gleichviel oder sogar weniger (!) als zu Schul- - als ergänzende Information (vgl. > Kap. 6.4).
jahresbeginn [...] Bei Lehrern, die sich nicht nur an sozialen, Oft wird die individuelle Bezugsnorm allein für den Schul-
sondern auch individuellen Bezugsnormen orientierten, anfang als angemessen betrachtet. Interessant ist insofern
gaben immerhin zwei Drittel der Schüler an, sie könnten jetzt eine Befragung, die Roos (2000) in einem Modellversuch
am Schuljahresende mehr als zu Schuljahresbeginn«.175 »Erweiterte Schülerinnen- und Schülerbeurteilung« an
Damit relativiert diese Untersuchung einige ältere Unter- Schweizer Gymnasien durchgeführt hat. SchülerInnen, Eltern
suchungen, nach denen die individuelle Bezugsnorm den und LehrerInnen sollten die Bedeutung der verschiedenen
Konkurrenz- und Leistungsdruck nicht gemindert hat (vgl. Bezugsnormen für die Leistungsbeurteilung bewerten. In
Lissmann 1981). allen drei Gruppen wurde der individuellen Entwicklung und
Auch die Leistungsentwicklung wird positiv beeinflusst, dem Grad, zu dem die Lernziele erreicht sind, der Vorrang
wenn die individuellen Lernfortschritte bei der Beurteilung vor der sozialen Bezugsnorm eingeräumt. Letztere spielt
stärker berücksichtigt werden. Dies stellte Rheinberg (1998) allerdings für SchülerInnen und Eltern - im Vergleich zu
in der Auswertung verschiedener Studien fest: »Es zeigte LehrerInnen - eine etwas gewichtigere Rolle, wie das folgen-
sich, dass leistungsschwächere Schüler von der individuellen de Schaubild zeigt.
Bezugsnorm besonders profitieren, ohne dass leistungsstär-
kere benachteiligt wären. Allerdings ist hier einschränkend zu
beachten, dass in (fast) allen Untersuchungen die individuel-
le Bezugsnorm als zusätzliche Beurteilungsperspektive ein- 173 So resümiert bei Oelkers (2001, o.S.).
geführt war, d.h. in Kombination mit anderen Bezugsnormen 174 Schwarzer u.a. (1982), ref. bei Oerter/Montada (1995, 997);
auftrat ...« (Rheinberg 2001, 65). Rheinberg/Peter (1982, 156), Schwarzer u.a. (1982, 171) und Trudewind/
Kohne (1982, 182) - alle referiert bei Persy (1990,159-160).
Hartinger/Fölling-Albers (2002, 119) resümieren die Er-
175 Vgl. dazu im Einzelnen die Studie von Rheinberg (1980).
gebnisse verschiedener Studien: »Individuelle Bezugsnorm-
176 ... d.h.: (Miss-)Erfolge werden nicht auf äußere Umstände abge-
orientierung von LehrerInnen korreliert positiv mit günstigen schoben, sondern von den SchülerInnen sich selbst zugerechnet - und
Attributionen176 und einer höheren Leistungsmotivation der dabei eher der eigenen Anstrengung (die ja veränderbar ist) als einer
Schüler/innen. Daneben zeigen diese Schüler/innen auch (stabilen) Begabung (vgl. ebda.)
31
Wichtig bei der Beurteilung ist, Bezugsnormen im Vergleich ja eher ja eher nein nein
wo der Schüler/die Schülerin ...
Lehrpersonen
...
Eltern
persönliche
Fortschritte
erzielt hat Schüler/innen
Lehrpersonen
...
in Bezug
auf Lernziele Eltern
steht
Schüler/innen
...
innerhalb Lehrpersonen
der Klasse
steht
Eltern
Schüler/innen
Ziffernnoten werden vor allem zwei Vorteile unterstellt: 177 Vgl. allgemein vor allem: Haenisch (1996a+b) sowie die Beiträge
zu Valtin (2002a) und zu Beutel u.a. (2000).
Verständlichkeit und Vergleichbarkeit (vgl. > Kap. 4). Diese
178 Vgl. vor allem die Zeugnisanalysen von Benner/Ramseger (1985);
Erwartungen können bislang allerdings kaum erfüllt werden, Elbing/Buschmann (1985); Scheerer u.a. (1985); Haußer (1991); Ulbricht
wie die in Kap. 1 und 2 referierten Untersuchungen gezeigt (1993); Lübke (1996); Maier (2001, 137 ff.); Schmude (2001, 129 ff.) und
haben. Die Vergleichbarkeit wird allenfalls im Klassen- die Zusammenfassung bei Götz (2005, 82-85).
32
(wie in NRW) aussagekräftiger. Im Vergleich zu den Möglich- die beobachtende Lehrkraft die entsprechenden Daten und
keiten einer Verbalbeurteilung bleibt aber selbst diese Informationen für den Lernbericht sammelt, z.B. Tests, Lern-
Differenzierung noch zu grob, um die Komplexität der an- Tagebücher, Beobachtungsbögen, Schülerbriefe usw.194.
gestrebten Fähigkeiten angemessen zu erfassen. 179 Vgl. u.a. Schmude (2002a, 78-81). Dies ist auch eine Frage der
Andererseits schöpfen Verbalgutachten diese Möglich- Erfahrung und Qualifikation. So fand Leffelsand (2003), dass berufserfah-
keiten bisher bei weitem nicht aus179: Sie werden eher (nur) rene LehrerInnen Informationen differenzierter nutzen und dass sie wider-
produkt- statt (auch) prozess-orientiert formuliert, vermitteln sprüchliche Daten eher aufnehmen als Lehramtsstudierende.
180 Vgl. für das Berliner NOVARA-Projekt: Schmude (2002b) und
nur selten Klarheit über Erfüllung der Lehrplananforderungen
Valtin (2002c, 145).
und geben zu wenig Förderhinweise180. 181 Immerhin ein zentraler Grund für die Einführung von Berichtszeug-
Vor allem nehmen sie kaum Bezug auf die unterschied- nissen, wie Maier (2001, 157) mit Verweis auf Lübke (1996, 41) festhält:
lichen Voraussetzungen181. Inhaltsanalysen182 zeigen, dass »[…] herrscht hinsichtlich der Frage der Bezugsnormorientierung bei
weniger als 10% der ausformulierten Berichte Aussagen zur reformorientierten Grundschulpädagogen weitgehend darüber Einigung,
dass mit der verbalen Beurteilung im Kontext eines individualisierenden
Entwicklung der individuellen Leistung und sogar weniger als
Unterrichts die kriteriale und vor allem die individuelle Bezugsnorm reali-
5% konkrete Fördervorschläge machen. Auch die mangelnde
siert werden sollen, denn unter ›der individuellen Bezugsnorm können
Verständlichkeit wird moniert183. sowohl die Leistungsstarken als auch die Leistungsschwachen den
Insofern erfüllen auch Berichtszeugnisse die in sie ge- Zusammenhang von Anstrengung und Leistung erfahren: Schülerinnen
setzten Erwartungen meist nicht. Die in der Berliner Studie und Schüler aller Leistungsniveaus haben Aussicht auf Erfolg und kön-
festgestellten Schwächen werden durch verschiedene nen ihre Kompetenz vor dem Hintergrund ihres bisherigen Leistungs-
vermögens jederzeit steigern‹«.
Analysen von Verbalgutachten bestätigt184:
182 Vgl. Haußer (1991); Ulbricht (1993); Maier (2001); Schmude
- fehlender Bezug auf die individuelle Leistungs- (2001): Die Zahlen hier sind entnommen aus Schmude (2002a, 79), die
entwicklung185; in NOVARA für Berlin immerhin 86% der Aussagen der sachlichen
- Ungleichgewicht der Fächer und Leistungsdimensionen, Bezugsnorm zuordnet.
d.h. starke Dominanz der Lese-, Rechtschreib- und 183 Vgl. Schaub (1993).
184 Vgl. die übersichtliche Zusammenfassung der einschlägigen
Rechenleistungen186;
Studien bei Jachmann (2003, 64-65), an der sich die auch folgende Über-
- fehlende Fördervorschläge187;
sicht orientiert; s. auch die differenzierte Zusammenfassung der
- Beschönigung der Rückmeldungen188; Forschungslage bei Beutel (2005, 62-110).
- Standardisierung der Aussagen durch Nutzung 185 Vgl. zu diesem durchgängigen Befund: Schmidt (1980, 87);
von Textbausteinen189. Scheerer u.a. (1985); Valtin u.a. (1996, 292); Schmude (2002a, 79);
Diese Kritik wurde bereits in den ersten Evaluationen Anfang Beutel (2005, 26, 40ff). Lediglich Elbing/Buschmann (1985) fanden in
rund 1/4 und Haußer (1991) sogar in rund 3/4 der untersuchten Zeug-
und Mitte der 1980er Jahre geäußert, findet sich aber in
nisse entwicklungsbezogene Beurteilungen.
nur wenig veränderter Form unveränderter Form bis heute. 186 Vgl. Schmack (1978); Schmidt (1980, 107, 489); Benner/
Etwas differenzierter kritisiert Ulbricht (1993, 212): »Die Ramseger (1985, 154); Elbing/Buschmann (1985, 15-16); Ulbricht (1985,
Diskrepanz zwischen der Intention der Zeugnisreformer und 129 ff.); Thiel/Valtin (2002, 69-70); Valtin (2002c, 145).
den Ergebnissen meiner Zeugnisanalyse macht deutlich, 187 Unter 10% nach Schmude (2002a, 79); ähnlich schon Ulbricht
(1993, 203), die vor allem darauf hinweist, dass Gründe für
dass die Verbalbeurteilung per se keine Garantie für eine
Lernschwierigkeiten eher im Kind als in Unterrichtsbedingungen gesucht
kindgemäße (Grund)-Schule bedeutet. Während die Leis-
werden, und Schmidt (1980); Haußer (1991, 358); Valtin (1996).
tungsstandsbeschreibung in Anlehnung an die Vorgaben des 188 Vgl. Benner/Ramseger (1985); dagegen stehen aber die Befunde
Curriculums zumindest in den Fächern Deutsch und Mathe- von Jürgens (1998, 188-189) aus seiner späteren Untersuchung.
matik bereits differenziert und unter individueller Bezugsnorm 189 Vgl. zum mangelnden Bezug auf »die individuelle Besonderheit der
[…] erfolgt, erweisen sich die Angaben zum Sozialverhalten Schüler« auch Lübke (1996, 66); Scheerer u.a. (1985, 228) kommen zu
dem Schluss, dass Lehrerinnen und Lehrer dazu neigen, sich an die
und zum Lern- und Arbeitsverhalten als eher unsystematisch
Formulierungshilfen der Kultusadministration zu halten.
und hauptsächlich von der Person des Lehrers abhängig.«190 190 Zitiert nach Beutel (2005, 73).
Vor diesem Hintergrund ist zu vermuten, dass sich die 191 Vgl. die Anm. von Maier (2001, 208) zu seiner Auswertung von
grundsätzlich positiven Effekte einer entwicklungsorientierten Verbalzeugnissen: »Vorab muss darauf hingewiesen werden, dass auch
Bewertung von Leistungen (> Kap. 2.3) im Schulalltag nur im Rahmen dieser Textanalyse aufgrund der Datenbasis leider unklar
bleibt, aus welchen diagnostischen Prozessen die Zeugnistexte resultie-
eingeschränkt wiederfinden werden (vgl. > Kap. 3.2).
ren. Informationen darüber, ob die Texte zum Beispiel mit Hilfe subjekti-
Konstruktiv gewendet verweisen die Ergebnisse auf die
ver, unklarer fragmentarischer Erinnerungen entstanden sind oder ob sie
Notwendigkeit, in der Ausbildung von LehrerInnen mehr Wert auf fundierten systematischen Dokumentationen basieren, würden einen
auf die Beobachtung von Lernprozessen191 und auf Kriterien differenzierten Interpretationsspielraum zulassen. Hier ergibt sich ein
für die Darstellung von Beurteilungen zu legen192. Um die Ansatz für die weitere Forschung.«
Qualität von Verbalbeurteilungen bzw. Lernberichten zu 192 So auch Schmude (2002a, 87) und Valtin (2002c, 146), die auf-
grund der analogen Befunde in der Berliner Studie ebenfalls eine
sichern, sollten beim Verfassen bestimmte Schreibstandards
Ausbildung fordern, die diagnostische und Förderkompetenzen stärkt.
erfüllt werden, wie sie Beutel (2005)193 in differenzierter 193 Beutel (2005, 42, 110-115).
Weise fordert und entwickelt hat. Das bedeutet auch, dass 194 Beutel (2005, 113) und die Beispiele in Winter (2004) und Bart-
verschiedene Instrumente genutzt werden, mit deren Hilfe nitzky u.a. (2005).
33
3.2 3.2.2
Im Folgenden wird in mehreren Schritten untersucht, ob und Es ist ein allgemeiner Befund der Unterrichtsforschung, dass
ggf. wie veränderte Beurteilungsformen überhaupt den die Lernfreude vom Kindergarten zur Grundschule hin an-
Unterricht sowie die Motivation, die Leistung und das Selbst- steigt. Schon über die vier Grundschuljahre fällt sie dann
konzept von SchülerInnen verändern. aber kontinuierlich ab, während gleichzeitig die Versagens-
ängstlichkeit steigt200. Innerhalb dieses Rahmens stellen
3.2.1 Olechowski/Rieder (1991) positive Wirkungen einer entwick-
lungsorientierten Bewertung auf Motivation und Schulfreude
Gibt es einen Zusammenhang der SchülerInnen und Maier (2001, 117 ff.) auf das Sozial-
zwischen Unterrichtskonzept und klima generell fest201. Severinski (1990, 222) beobachtet
Beurteilungsform? einen kompensatorischen Effekt einer entwicklungsorientier-
ten Bewertung bei eher konservativ unterrichtenden Lehre-
Es besteht eine wechselseitige Abhängigkeit zwischen rInnen: Schulfreude und positives soziales Verhalten der
Unterrichtsform und Art der Leistungsbeurteilung195. Für die SchülerInnen nehmen zu.
Einführung neuer Formen der Leistungsbeurteilung stellt des- Sowohl in der qualitativ-interpretativen als auch in der
halb die weithin noch unveränderte Unterrichtskultur ein standardisiert-quantitativen Evaluation des NRW-Schul-
besonderes Problem dar. Individualisierter Unterricht, in des- versuchs »Zeugnisse ohne Noten in Klasse 3 und 4« berich-
sen Rahmen individuelle Rückmeldungen eine tragende ten LehrerInnen aus verschiedenen Schulen übereinstim-
Funktion haben, ist immer noch nicht sehr verbreitet. Und mend von einer positiven Veränderung des Klimas in den
sofern seine Prinzipien umgesetzt werden, geschieht dies Klassen202: weniger Angst vor Leistungsproben, weniger
meist nur in inhaltlich reduzierten Formen196. Rivalität, differenziertere Selbst- und Fremdeinschätzung von
So stellt Wagener (2002) für die Berliner Studie197 fest: Leistungen, mehr Arbeit aus Interesse an der Sache und ein
»Die meisten Anhängerinnen der verbalen Beurteilung waren größeres Selbstbewusstsein.
zwar offen gegenüber Reformen, hatten diese jedoch nur Gegenüber dem Einwand, dass sich ein gutes Sozial-
ansatzweise in die Praxis umgesetzt.« klima (fälschlich als »Kuschelecken-Pädagogik« apostro-
Ergebnis: Der Unterricht bleibt lehrerzentriert, allerdings wur- phiert) leistungsmindernd auswirke, ist der Befund aus der
den bei den »verbalorientierten« Lehrkräften mehr »schüler- Hamburger LAU-Studie wichtig, dass zu Beginn des fünften
orientierte Unterrichtsmerkmale« beobachtet. Schuljahrs Kinder aus Klassen, in denen sie sich überdurch-
Offener Unterricht, der über eine organisatorische Diffe- schnittlich wohl gefühlt haben, keine schlechteren Leistungen
renzierung »von oben« hinausgeht, ist also immer noch erbringen als Kinder, die sich in der Grundschule nicht so
die Ausnahme. Insofern verwundert die Häufigkeit der in wohl gefühlt haben (Lehmann u.a. 1997, 46). Eine plausible
> Kap. 3.1 berichteten Fehlformen nicht. Unter diesem Erklärung aus der SCHOLASTIK-Studie: Die Lernfreude
Vorbehalt sind auch die im Folgenden berichteten Ergeb- steigt, wenn Anforderungen als angepasst erlebt werden203.
nisse zu Wirkungen unterschiedlicher Beurteilungsformen zu LAU hat allerdings ebenso wenig Belege gefunden, dass um-
sehen: Anders als in > Kap. 2 beziehen sie sich auf die
gegenwärtige Praxis im Schulalltag.
195 Vgl. zu den Erfahrungen von Reformschulen zusammenfassend:
Das gut dokumentierte Beispiel der Laborschule Biele-
Fiegert/Solzbacher (2001, 289-312).
feld198 zeigt, wie die Veränderung der Leistungsbeurteilung in 196 Vgl. die Befunde von Brügelmann (2000); Hanke (2002); Valtin
eine Reform des Unterrichts eingebettet werden kann - und (2002, 143, 146); Wagener (2002); Winter (2004).
muss. Offenkundig wird aber auch, dass diese ein Prozess 197 Im Projekt NOVUS (»Noten- oder Verbalbeurteilung: Unterrichts-
mehrjähriger Schulentwicklung und nicht eine einmalige organisation und Sanktionsverhalten«) wurden 138 Unterrichtstunden von
7 Lehrkräften in 3. Klassen Ost- und Westberlins protokolliert und ver-
Entscheidung ist199.
gleichen - darunter 71 verbalorieniert und 67 notenorientiert.
Die Einführung pädagogisch anspruchsvollerer Formen
198 Vgl. Bambach (1994); Groeben/Lenzen (1996; 1997); Lübke
der Leistungsbeurteilung verlangt also eine umfassendere (1996); Thurn (1997); Beutel (1998); Döpp u.a. (2002).
Reform des Unterrichts. Umgekehrt kann aber auch die 199 Vgl. Thurn (1998).
Einführung oder zumindest das Zulassen differenzierterer 200 Vgl. zu den Befunden in der SCHOLASTIK-Studie: Weinert/
Beurteilungsformen Räume öffnen für eben solche Initiativen. Helmke (1997b, 463-464).
201 Schwächer ausgeprägt und weniger klar in der Berliner NOVARA-
Im Blick auf die anspruchsvoll formulierten Ziele der eigenen
Studie, vgl. Schmude (2001, 245-246) und Valtin/Wagner (2002, 116-
Richtlinien haben Kultusministerien hier eine Verantwortung, 118).
die sie nicht an zufällige Eltern-/Lehrer-Mehrheiten in den 202 Vgl. Haenisch (1996a, 14; 1996b, 23).
Schulkonferenzen abtreten dürfen. 203 Vgl. Helmke (1997b, 75).
34
gekehrt ein besseres Sozialklima automatisch zu besseren deutlich höhere Selbsteinschätzung ihrer Leistungsfähigkeit
Leistungen führe. und sehen einen Zusammenhang zwischen Begabung und
Zum letzten Punkt ist der Hinweis von Krampen (1985, Schulerfolg kaum.« Damit sind wir bei den Folgen des
118) zu bedenken, dass Veränderungen der Leistungsbeur- Unterrichtsklimas:
teilung im Kontext eines unveränderten Schulsystems nur 3.2.3
bedingt Wirkung entfalten können. Deshalb verwundern
gering ausgeprägte Unterschiede nicht. Immerhin hat die von Beeinflusst die gewählte Beurteilungsform
ihm untersuchte individuumsbezogene Kommentierung von zentrale Merkmale der Persönlichkeitsentwicklung?
Noten über den Versuch hinaus positive Wirkungen auf die
Schulfreude der SchülerInnen gehabt. Ob Kinder Leistungen erbringen, hängt von ihren kognitiven
Dass umgekehrt eine Verstärkung des Leistungsdrucks Grundfähigkeiten, aber darüber hinaus auch von ihrer Moti-
negative Auswirkungen auf die Beziehungen zwischen vation und ihren Emotionen ab. Thiel (2005, 47) verweist auf
LehrerInnen und (vor allem leistungsschwachen) Schüle- die Vielzahl nichtkognitiver Persönlichkeitsmerkmale, die in
rInnen hat, lässt sich an den Folgen des high stakes testing der Forschung als Bedingungen für Lernerfolg untersucht
in den USA beobachten204. Dort hängen nicht nur die Schul- werden, sieht jedoch in der Lernmotivation und der Zurech-
karrieren der SchülerInnen, sondern auch die Gehälter der nung von Erfolgen bzw. Schwierigkeiten (»Kausalattribu-
LehrerInnen und finanzielle Zuweisungen an Schulen von ierung«) die zentralen Faktoren.
den Ergebnissen in Vergleichstests ab. Dies führt u.a. zu Aber nicht nur wegen dieser »instrumentellen« Bedeu-
höheren drop-out-(treffender: push-out-)Quoten und generell tung, sondern auch wegen ihres Eigenwerts sind Wirkungen
zu schlechteren Ergebnissen im unteren Leistungsbereich der Leistungsbeurteilung auf die Persönlichkeit zu beachten.
und in den Gruppen der gesellschaftlichen Minderheiten. Denn die Grundschule hat nicht nur einen Unterrichts-, son-
Auf der Sekundarstufe variiert die Schulfreude zunächst dern auch einen Erziehungsauftrag.
einmal mit der Zugehörigkeit zu verschiedenen Schulformen.
Innerhalb der Schulformen spielt aber die durch Noten defi- 3.2.3.1
nierte Leistungsposition in der Klasse eine wichtige Rolle für
die Einstellung zur Schule205. Die Situation ist komplex und Beeinträchtigen oder stützen Ziffernnoten
lässt sich nicht in einfache Ursache-Wirkung-Beziehungen bzw. Verbalgutachten die Lernmotivation?
auflösen, wie auch die AutorInnen der Hamburger »LeiHS«-
Studie betonen, die darauf hinweisen206... »... dass die Als ein zentrales Argument für Noten wird immer wieder ihre
Schüler(innen) mit einem Berichtszeugnis in der 5. Klasse motivierende Funktion genannt: SchülerInnen würden nur mit
offenbar mehr Freude an und in der Schule angeben als der Aussicht auf gute Noten oder aus Angst vor schlechten
diejenigen Schüler(innen) mit einem Notenzeugnis. Wenn Noten lernen. Zumindest der zweite Grund erscheint zweifel-
zudem in die Sichtweise der Sekundarschülerinnen und - haft, wie eine Befragung208 gezeigt hat, in der Hauptschüle-
schüler Rechnung gestellt wird, dass die Lernkultur und das rInnen angeben konnten, was sie täten, wenn sie in einer
Unterrichtsklima in den Klassen mit Berichtszeugnissen (am Mathematikarbeit eine »5« bekämen. Zwar gab die Mehrheit
Ende der 5. Klasse) signifikant besser eingeschätzt werden der SchülerInnen an, sie würden »gute Vorsätze für die Vor-
als in Klassen mit Notenzeugnissen, lassen sich durchaus bereitung auf die nächste Arbeit fassen«209, aber fast genau-
Zusammenhänge zur Zeugnisform herstellen. Einfache so häufig wurden Ausweichreaktionen genannt.
Kausalbehauptungen sind dabei allerdings unzulässig. Den- Eine Erklärung findet sich in dem Hinweis von Valtin
noch lassen unsere Ergebnisse den Schluss zu, dass in den (2002a, 16) auf eine Studie von Faust-Siehl/Schweitzer
Schulen, in denen es intensive Bemühungen um die Ver- (1992), nach der Kinder der 2. und 4. Klasse Misserfolge,
besserung der Lernkultur und der Unterrichtsqualität gibt, in wie sie durch schlechte Noten signalisiert werden, nicht kon-
denen ein lernstimulierendes, freudvolles soziales Klima struktiv verarbeiten. Nach Ingmar Hosenfeld210 wirken sich
vorherrscht, zugleich günstige Bedingungen für eine Ent- Kausalitätsüberzeugungen dann positiv auf Schulleistungen
scheidung für Berichtszeugnisse bestehen. Berichtszeug- aus, wenn der Anstrengung im Gegensatz zu Fähigkeit
nisse mit ihrem reformpädagogischen Impetus benötigen oder externen Bedingungen eine hohe Bedeutung zugemes-
offenbar ein innovationsfreundliches und um Veränderung
204 Vgl. u.a. Kohn (2000); Linn (2000); Amrein/Berliner (2003) und die
bemühtes Kollegium.« Zusammenfassung bei Brügelmann (2005, Kap. 46-48).
In dieselbe Richtung weisen die Ergebnisse einer interna- 205 Fend u.a. (1976, 454) und Czerwenka u.a. (1990, 107), zit. nach
tionalen Aufsatzstudie zum Thema »Schule«. Danach ist der Jachmann (2003, 58).
Anteil von deutschen SchülerInnen, die sich in der Schule 206 Vollstädt/Jachmann (2000, 152-153).
207 Czerwenka u.a (1990, 428 und 422); s. zu den Befunden genauer
nicht so wohl fühlen, mit 38.4% drei- bis viermal so hoch wie
am Ende von > Kap. 4.2 .
in den USA mit 11.3%. Die AutorInnen konkretisieren die
208 Vgl. Krampen/Mory (1982), referiert bei Mreschar (1985, 62-64).
Richtung der Kritik207: »Diese [Schülerinnen in den USA; brü] 209 Vgl. die Zusammenfassung bei Mreschar (1985, 63).
leiden eindeutig seltener unter Notendruck, haben eine 210 Vgl. Hosenfeld (2002, 165 ff.).
35
sen wird. Gleichzeitig wurde aber herausgefunden, dass Hartinger/Fölling-Albers (2002, 113) fassen die Ergeb-
diese Kausalitätsüberzeugungen relativ instabil sind - was nisse verschiedener Studien in fünf Punkten zusammen, von
damit erklärt wurde, dass Ziffernnoten zum einen eigentlich denen die ersten drei214 für unser Thema zentral sind:
nur als Halbjahresnoten eine Rückmeldefunktion haben und
als Schuljahresendnoten eher der Selektion dienen. Zum »a) Vorhandene intrinsische Motivation kann durch zusätz-
anderen böten sie durch die Beschränkung auf sechs Aus- liche extrinsische Motivation verringert, wenn nicht gar zum
prägungen wenig Möglichkeiten, auch kleinere Lernfort- Erliegen gebracht werden.
schritte widerzuspiegeln und seien somit ungeeignet, die Ent-
wicklung angemessener und tragfähiger Kausalitätsüberzeu- b) Die Gefahr dieses kontraproduktiven Effektes extrinsi-
gungen zu stützen. Für lernförderliche Kausalitätsüber- scher Motivierung ist dann besonders groß, wenn sie den
zeugungen seien insofern Noten, die sich an individuellen Schüler/innen Kontrolle signalisiert.
Bezugsnormen orientieren, förderlicher als solche, die eher
aufgrund sozialer Bezugsnormen vergeben werden. c) Weniger Probleme durch extrinsische Motivation
Für eine entwicklungsorientierte Beurteilung stellten gibt es dann, wenn Rückmeldungen vor allem informativ
Olechowski/Rieder (1991) folgerichtig positive Wirkungen gehalten sind.«
nicht nur auf die Schulfreude der Kinder, sondern auch auf
ihre Lernmotivation fest. In dieselbe Richtung weisen die Damit haben selbst gute Noten negative Nebenwirkungen
Befunde aus dem Berliner NOVARA-Projekt211: »In Bezug auf die Entwicklung einer sachorientierten Motivation. Lempp
auf die Lernmotivation konnten wir Anzeichen für das beob- (1971, 65) hat deshalb schon vor über 30 Jahren darauf hin-
achten, was Sacher (1996, S. 74) als Notenangst und Noten- gewiesen: »Damit [daß die Leistung eines Kindes immer in
geilheit bezeichnet: eine stärkere Misserfolgsorientierung Relation zu den Leistungen der Mitschüler gestellt wird] wird
in der Leistungsmotivation der Kinder mit schlechten Noten beständig eine Leistungshierarchie in der Klassengruppe
sowie eine stärkere externale Motivation bei Kindern mit hergestellt, die für viele Kinder definitiv und aussichtslos
guten Noten.« Allerdings fielen die Unterschiede nur gering erscheinen muß. Das Erlebnis, stets zu den Kindern zu ge-
aus. Stärker waren die positiven Effekte, die Persy (1990, hören, die eine geforderte Leistung bewältigen können, oder
159-162) aus verschiedenen Studien zur Orientierung an der aber zu denen, die dies in der Regel nie können, muß prä-
individuellen Bezugsnorm berichtet. Valtin/Wagner (2002) gend sein für die Einstellung zum Leben, zum Beruf, zur
differenzieren sie nach Teilgruppen: »Allgemein kann man Umwelt überhaupt. Zu fragen wäre, ob nicht unter voller
sagen, dass die schwächeren und ängstlichen Schüler und Korrektur der geleisteten Arbeit eine Abstufung nach dem
Schülerinnen mehr von der verbalen Bewertung profitieren Notensystem besser unterbleiben sollte und könnte.«
als die leistungsstarken, weniger ängstlichen. [...] ... bei Noch frühere Stellungnahmen gegen Prüfungen und
schwachen Kindern, also Kindern mit schlechten Noten, ist Noten finden sich schon Ende des 19. Jahrhunderts, seiner-
eine stärkere Misserfolgsorientierung zu beobachten sowie zeit vorgebracht von Ärzten, die vor den schädlichen Folgen
eine größere Leistungsangst. Bei Schülern mit guten Noten von Prüfungsstress warnten215. Deshalb die Frage:
ergab sich eine höhere externale Motivation. Mit Noten beur-
teilte Kinder erleben die schulischen Anforderungen als
schwieriger.«212 Nach ihrer Metaanalyse von Studien zur
Auswirkung von externer Verstärkung auf intrinsische
Motivation kommen Deci u.a. (1999, 652, 656-657) zu einem
ähnlichen Ergebnis213: 211 Valtin (2002c, 145); vgl. ausführlicher Valtin/Wagner (2002).
212 Valtin/Wagner (2002, 128, 137); s.a. Valtin (2002b, 15).
213 Ebenso in ihrem Forschungsüberblick: Harlen/Deakin Crick (2002).
Materielle Belohnungen haben generell eine leicht nega- 214 Die beiden letzten Punkte (a.a.O., 111-114):
tive Wirkung auf die intrinsische Motivation (Effektstärken »d) Lob und Tadel können gegenteilig interpretiert werden, wenn z.B.
d = .30 bis .40). Schüler/innen Lob auf große Anstrengung bei mangelnder Begabung
Eine verbale Belohnung hat zwar generell eine leicht oder auf die geringe Erwartungshaltung der Lehrer/innen zurückführen.
e) Es ist aber immer dann wichtig, auch extrinsische Motivationsformen -
positive Wirkung (Effektstärke d = .30); das gilt aber nicht für
vor allem Lob und Anerkennung - einzusetzen, wenn bei gehäuften
eine erwartete positive Verstärkung (d = -.40) und nicht in
Misserfolgen Selbstwertprobleme entstehen können.«
einer Kontrollbeziehung. Im Vergleich zu einem rein informie- Ähnlich kritisch fasst Kohn (1999, 202-203) den Stand der US-amerikani-
renden Feedback wirkt sich eine kontrollierende Rückmel- schen Forschung zu Noten und Motivation zusammen:
dung deutlich negativer aus (d = -.44). » - Noten unterminieren die intrinsische Motivation zum Lernen; sie sind
In Schulversuchen, die nach einem veränderten pädago- starke Demotivierer unabhängig davon, wofür sie gebraucht werden.
- Das Ziel, Schüler zu sortieren, passt nicht zu dem Ziel, sie mit Noten
gischen Konzept arbeiten, fallen die Ergebnisse meist posi-
zum Lernen zu motivieren.
tiver aus als bei breiten Erhebungen in Schulen, die noch in - Andere Rückmeldungen über den Leistungsstand als Noten und Tests
traditionellen Formen oder unter herkömmlichen Rahmen- sind weniger bestrafend und mehr informativ.«
bedingungen arbeiten. 215 Vgl. die Hinweise bei Oelkers (2001, o.S.).
36
Die größten Ängste der Kinder (Angaben in Prozent) Abb. 4: pro Kids (2004, 25)
100%
90%
80% 5
7
11
70% 1
33
41
60%
10
11
14
50% 1
2 14
3
40% 0 9
10 14
12
30%
29 31
5
20%
22 22
18
10%
0%
nichts
Terroranschläge
Krieg
Tod/Krankheit Familienangehöriger
Schulversagen
3.2.3.2 2001 und 2003 die akuten Kriegsgefahren die Angst vor dem
Versagen in der Schule etwas in den Hintergrund gedrängt
Verringern oder vergrößern Ziffernnoten haben. Diese Versagensängste erhöhen sich generell von
bzw. Verbalgutachten die Schul- und Prüfungsangst? der 4. bis zur 7. Klasse auf mindestens das Doppelte. In der
NOVARA-Studie waren es vor allem die »Kinder mit schlech-
Laut einer Statistik aller Kinder- und Jugendtelefone von ten Noten«, die eine stärkere Leistungsangst entwickelten218.
2003 stehen im Bereich Schule Noten als Stressfaktor an Unter den Eltern sind es sogar 38%, die bei ihren Kindern
erster Stelle. Vor allem wenn es am Ende eines Schuljahres »Angst vor schlechten Noten« beobachten, aber nur 11%
das Abschlusszeugnis gibt, sind sie häufig Anlass zum bzw. 28% nennen unter ihren Reformwünschen explizit eine
Streit zwischen Eltern und Kindern216. »Ersetzung von Zeugnisnoten durch verbale Beurteilung«219.
Auch Befragungen zeigen: Die Angst vor Schulversagen,
insbesondere vor schlechten Noten, ist für SchülerInnen
zwischen neun und zwölf Jahren die beherrschende Sorge,
deutlich vor anderen Ängsten: »Fast ein Drittel der Kinder
äußert als größte Angst, in der Schule zu versagen (29%). In 216 Vgl. die Auswertungen der Kinder- und Jugendärzte v. 23.7.2004
im Netz unter > www.kinderaerzteimnetz.de/bvkj/aktuelles1/
diese Kategorie fallen beispielsweise Ängste vor dem Ergeb-
show.php3?id=1203&nodeid=26&nodeid=26& [Abruf: 20.1.06].
nis der Klassenarbeit oder vor schlechten Zeugnisnoten.«217 217 Pro Kids (2002, 21); vgl. auch Huber (2003).
Wenn auch die Werte über die Jahre hinweg zwischen 218 Vgl. Valtin/Wagner (2002, 121-125) und Valtin (2002c, 145).
20% und 30% schwanken, zeigt das Schaubild, dass nur 219 Rosenfeld/Valtin (2002, 33, 35).
37
Auch Selbstaussagen von SchülerInnen auf der Sekun- dass es vor allem Unterschichtkinder sind, die von angst-
darstufe lassen erkennen, dass Noten Angst auslösen, aller- besetzten Situationen aus der Schule berichten223. Ob dies
dings nicht durchgängig220: Zwar gab ein Drittel an, vor Klas- direkt durch eine größere Schulfremdheit oder indirekt durch
senarbeiten Versagensangst, Herzklopfen und Nervosität häufigere schlechte Leistungen bedingt ist, kann dahin ge-
zu spüren; und es besteht im Mittel mehr Angst vor Klassen- stellt bleiben. Prüfungsangst wirkt sich jedenfalls ungünstig
arbeiten mit Noten, aber konkret sind es nur rund 25%, die auf Leistungsfähigkeit und Lernbereitschaft aus und sollte
angaben, weniger Angst vor Klassenarbeiten ohne Zensuren deshalb gerade für Kindergruppen, die sowieso häufiger
zu haben, und sogar nur 10% fanden »Noten in der Schule Schwierigkeiten in der Schule haben, möglichst gering ge-
schlecht, weil sie mir Angst machen«. halten werden.
Andererseits scheint für die Wirkung der Beurteilungen 3.2.3.3
die Art und Weise, wie LehrerInnen sie präsentieren, eine
wichtige Rolle zu spielen - und zwar mehr als der institutio- Schädigen oder stärken Ziffernnoten
nelle Kontext221. Dies haben Hartinger u.a. (2003) bei einem bzw. Verbalgutachten das Selbstkonzept?
Vergleich von Leistungsangst und -motivation festgestellt,
als sie ViertklässlerInnen aus Bayern und Niedersachsen Das Verhältnis von Selbstwertgefühl und Leistung ist wech-
befragten. In Bayern bestimmt der Notendurchschnitt den selseitig: Wer sich etwas zutraut, erbringt bessere Leistun-
Übergang zur weiterführenden Schule direkt, in Niedersach- gen224, und positive Rückmeldungen zur eigenen Leistung
sen konnten die Eltern nach Beratung durch die LehrerInnen steigern das Selbstwertgefühl von SchülerInnen.
selbst entscheiden, in welche Schulform ihr Kind auf der Wie verschiedene Studien zeigen, ist dabei die unmittel-
Sekundarstufe I wechselte: »Zusammenfassend kann man bare Bezugsgruppe entscheidend225. Hier steckt ein zentrales
festhalten, dass die niedersächsischen Schüler/innen zwar Problem von Ziffernnoten. Die unterstellte Normalverteilung
etwas günstigere Einschätzungen abgaben, dass die Unter- der Leistungen verurteilt die Hälfte der SchülerInnen einer
schiede zwischen den beiden Bundesländern jedoch recht Klasse von Vornherein zum Versagen. Die Negativeffekte
gering sind. Erklären lässt sich dieser Befund zum einen werden allerdings in den Vergleichsstudien nicht sichtbar: In
dadurch, dass in unserem Schulsystem die Zensuren als der Hamburger LAU-Studie war das Selbstkonzept von Viert-
Indikator von Schulleistungen immer als bedeutsam angese- klässlerInnen mit Berichtzeugnissen zwar etwas günstiger,
hen werden, unabhängig davon, ob sie die weitere Schul- aber sie kamen tendenziell auch aus sozial besser gestellten
laufbahn direkt bestimmen oder nicht. [...] Einen stärkeren - Elternhäusern226. Im Berliner NOVARA-Projekt zeigten verbal
da direkteren Einfluss haben dann wieder die einzelnen beurteilte Kinder ebenfalls kein besseres Selbstkonzept als
Lehrer/innen, die die Prüfungsangst oder Motivation der diejenigen, die mit Ziffern benotet worden waren227.
Schüler positiv oder negativ beeinflussen können. So zeigte Ein Grund für dieses »Patt« könnte auch in diesem Fall
sich in unseren Untersuchungen, dass die Unterschiede darin liegen, dass Verbalzeugnisse in der Praxis die Indi-
zwischen den einzelnen Klassen innerhalb der beiden Bun- vidualnorm weitgehend vernachlässigen (vgl. > Kap. 2.3
desländer deutlich größer sind als die Unterschiede zwischen und 3.1), so dass gar kein Kontrasteffekt erwartet werden
den Bundesländern.« (Hartinger u.a. 2003, 118).
Dazu passt ein Befund aus der KILIA-Studie von Mart-
schinke u.a. (2004): Rund 20% der Kinder hatten Angst vor 220 Vgl. Vollstädt/Jachmann (2000, 145, 151).
dem Wechsel zum Notenzeugnis. Wie stark diese Angst 221 Vgl. zum Einfluss von Bedingungen, unter denen die zu beurtei-
ausgeprägt war, hing aber vom »Notenklima« in der Klasse lende Leistung zu erbringen ist, auf die Prüfungsangst: Olechowski/
ab, also von der Art und Weise, wie die Lehrperson mit der Sretenovic (1983).
222 Martschinke u.a. (2005, 90).
Bewertung im Unterrichtsalltag umgeht.
223 Vgl. Büchner/Koch (20021, 240-241).
Wie bedeutsam moderierende Variablen sind, zeigt 224 Allerdings ist der viel zitierte »Pygmalion-Effekt« nicht pauschal zu
auch ein zweiter Befund. Es sind nicht immer die leistungs- halten, sondern von einer Reihe spezifischer Bedingungen in der Person
schwachen SchülerInnen, die besondere Angst vor den und in der Situation abhängig, vgl. Heckhausen (1974). Kritisch zu ver-
Noten haben: »Sechstklässler mit schlechteren Noten zeig- einfachten Deutungen des Pygmalion-Effekts auch Baumeister u.a.
(2004.)
ten in einer Studie von Jachmann (2003) höhere Schulangst.
225 Vgl. Jachmann (2003, 57), Auf den ersten Blick wirkt das - ein-
Aber es gibt auch Hinweise, dass Kinder mit guten Noten (in
schließlich der Sonderschulen - viergliedrige Schulsystem der Sekundar-
Mathematik) sich mehr Sorgen um zukünftige Noten machen stufe hier entlastend. In der Tat lässt sich nach dem Wechsel in eine
als Kinder mit schlechteren Noten (Sirsch 2000). Hartinger, niedrigere Schulform oft ein höheres Selbstkonzept feststellen. Dieser
Graumann und Grittner (2004) finden ihre Vermutung bestä- Anstieg ist aber auf die leistungsstärkeren SchülerInnen beschränkt und
tigt, dass in Bayern besonders Kinder, deren Übertritt auf das schwindet selbst bei ihnen mit Annäherung an den Schulabschluss, der
dann zunehmend im schulartübergreifenden Vergleich wahrgenommen
Gymnasium aufgrund der Notensituation noch unsicher ist,
wird, vgl. Zielinski (1980, 104f.).
mit höherer Leistungsangst reagieren.«222 226 Vgl. Lehmann u.a. (1997, 81f.).
Auch wenn es eher Minderheiten sind, die unter Noten 227 Vgl. Valtin u.a. (2000, 12); Valtin/Wagner (2002, 118-221) und zur
und unter Schulangst leiden, sollte nicht übersehen werden, Entwicklung des Fähigkeitsselbstbilds Schmude (2001, 245 ff.).
38
kann. Denn grundsätzlich lassen sich positive Wirkungen der N = nicht-direktiv: SchülerInnen lesen und berichten
individuellen Norm auf das Selbstwertgefühl feststellen228. anschließend der Lehrerin, was sie an dem Text
Andererseits ist während der Grundschulzeit generell zu interessant fanden;
beobachten, dass das fachbezogene Selbstkonzept der A = autonomieunterstützend: die Lehrerin zeigt ein
SchülerInnen im Durchschnitt schlechter wird, wie Helmke persönliches Interesse am Leistungsfortschritt der
(1998; 1998) unter dem Stichwort »vom Optimisten zum SchülerInnen;
Realisten« anhand von Daten aus der Münchener LOGIK- K = kontrollierend: den SchülerInnen wird vorweg eine
Studie, aber auch aus anderen Untersuchungen resümiert Überprüfung und Benotung ihrer Leseleistung durch
(1999, 207, 218). Zur Erklärung verweist er auf die parallel die Lehrperson angekündigt.
zunehmende Bedeutung von Leistungsbeurteilungen, die
sich an der sozialen Bezugsnorm orientieren (a.a.O., 206, Die Effekte wurden an drei Kriterien gemessen:
218) - in deutschen Schulen verschärft durch die wach-
sende Bedeutung von Noten nach Klasse 1/2. Diese trägt a) Welche Gruppe erreicht die beste Leistung im
auch zur Entwicklung fachspezifisch differenzierter Selbst- konzeptuellen Textverständnis?
konzepte bei229. Ergebnis: A besser als N und deutlich besser als K
b) Welche Gruppe schneidet kurzfristig im auswendig
3.2.4 gelernten Wissen am besten ab?
Ergebnis: A und K besser als N
Belasten oder fördern Ziffernnoten c) Welche Gruppe schneidet langfristig im auswendig
bzw. Verbalgutachten die Leistungsentwicklung? gelernten Wissen am besten ab?
Ergebnis: A besser als K und N
Wie bereits in > Kap. 3.3.2 kurz angesprochen, führt ein
Verzicht auf Noten nicht zu einem Leistungsabfall. Lehmann
u.a. (1997, 81-82) fanden in der LAU-Studie in Hamburg,
228 Vgl. Oerter/Montada (1995, 997).
dass Kinder aus vierten Klassen mit Berichtszeugnissen
229 A.a.O., 216-217, wobei Helmke darauf aufmerksam macht, dass
keine schlechteren Leistungen erbringen als Klassen mit neben institutionellen Faktoren auch die kognitive Entwicklung der Kinder
Notenzeugnissen. Dieser Befund spricht gegen die verbreite- zu einer differenzierteren Sicht auf die eigene Leistung beitragen dürfte
te Annahme, dass Notendruck leistungssteigernd wirke. (a.a.O, 219).
Auch im Projekt NOVARA führte der Verzicht auf Noten nicht 230 Valtin/Wagner (2002, 135); s.a. Valtin u.a. (1999, 12).
231 Vgl. Theiler u.a. (1992, 13-14).
zu Negativeffekten: »Insgesamt traten [in fachlicher Hinsicht,
232 Speziell für den Sekundarbereich verweist Lind (2003) auf die groß
brü] nur zwei bedeutsame Unterscheide auf: im 2. Schuljahr angelegte Studie von Chamberlin u.a. (1942) in den USA, die schon in
waren die Notenkinder etwas besser in der Rechtschreibung, den 1930er Jahren nachgewiesen hat, dass Absolventen von so genann-
im 4. Schuljahr erzielten die verbal beurteilten Kinder im ten »Progressive Schools« (John Dewey), die keine Benotung kannten,
Rechentest einen höheren Wert.«230 im College gleich gut oder sogar besser abschnitten als Absolventen von
traditionellen High Schools.
Ein Schulversuch im Kanton Luzern in der Schweiz be-
233 Vgl. Reimers (1991) und oben > Kap. 0.4 .
stätigte schon vor Jahren, dass der Verzicht auf Noten
234 Vgl. Schmitt (1992).
nicht zu einem Leistungsabfall führte231. In den USA fanden 235 Nimmt man etwa das Zentralabitur als Beispiel für externe vs. in-
Fraser u.a. (1987) in ihrer Metaanalyse sogar eine negative terne Prüfungen, so sind die Effekte einer zentralen Prüfungsorganisation
Korrelation zwischen einer starken Betonung von Noten im Vergleich zu einer dezentralen Beurteilung durch die LehrerInnen he-
im Unterricht und den Leistungen der SchülerInnen. Diese terogen - bezogen sowohl auf positive als auch auf negative Erwartungen:
- Zentralabitur sichert nur begrenzt, d.h. nur über wenige Fächer/
fiel mit -.07 allerdings so niedrig aus, dass eher - wie in
Kursstufen hinweg ein höheres Leistungsniveau und eine geringere
Deutschland - von einem fehlenden Zusammenhang zu spre- Streuung der Leistungen.
chen ist232. - Bezogen auf die Noten ist die normierende Kraft der zentralen Prüfung
National233 wie international234 gibt es eine Vielfalt von ebenfalls begrenzt - auch die Streuung zwischen Schulen wird im Ver-
Bewertungssystemen, in denen Ziffernnoten, Testwerte und gleich zu dezentralem Abitur nicht kleiner.
- Zentrale Prüfungen beeinträchtigen andererseits nicht die Fähigkeit zur
Verbalbeurteilungen unterschiedlich kombiniert werden, ohne
Lösung anspruchsvoller Probleme.
dass sich systematische Zusammenhänge zu den Fachleis-
- Sie lösen ebenfalls nicht mehr Angst bei SchülerInnen aus (Baumert/
tungen der SchülerInnen herstellen lassen235. Das gilt auch Watermann 2000, 345-350; vgl. zu TIMSS auch Bos/Baumert 1999; zu
für den Leistungsvergleich von Systemen mit Noten vs. sol- PISA: Baumert u.a. 2000, 341-351; zum innerdeutschen Vergleich:
chen, die nur eine verbale Rückmeldung vorsehen236. Bellenberg u.a. 2004, 140).
In einem kontrollierten Vergleich stellten Grolnick/Ryan 236 Vgl. Fadisch/Steinert (2005, 178-180) zur Seltenheit schriftlicher
Rückmeldungen über den Leistungsstand der Kinder an ihre Eltern in den
(1987) allerdings positive Effekte eines Verzichts auf Noten
IGLU-Spitzenreitern England und Schweden sowie > Kap. 0.5.
fest237. Sie verglichen drei Gruppen, die sich eine Text- 237 Dieser Befund wurde in Japan repliziert durch Kage/Namiki (1990)
passage unter unterschiedlichen Bedingungen erarbeiten und Kage (1991).
sollten238: 238 Zusammengefasst nach Deci/Ryan (1993, 234).
39
Damit ist dies ein sehr robuster Befund: Die vielerorts vorge- 4
tragene Sorge, SchülerInnen würden nichts mehr lernen,
wenn die Schule auf Noten als Lock- und Drohmittel verzich- Wie gut erfüllen Ziffernnoten
tet, lässt sich empirisch nicht halten. Unter kontrollierten und Verbalgutachtenwichtige Funktionen
Bedingungen lässt sich durch eine entwicklungsorientierte aus der Sicht der Betroffenen?240
Beurteilung sogar ein höherer Lernerfolg erreichen.
40
Erfahrungen damit gemacht haben, berichten mehrheitlich Dabei fällt das Ergebnis in den verschiedenen Schulformen
von positiven Erfahrungen und sind auch mehrheitlich von ganz unterschiedlich aus248: »Etwa 60% der Grund- und Son-
der Überlegenheit gegenüber Noten überzeugt«.244 Allerdings derschullehrer halten Noten für überflüssig und bevorzugen
hatten sie - ebenso wie die LehrerInnen - dem Versuch vor- ausformulierte Bewertungen. Die befragten Realschullehrer
her zugestimmt, so dass eine eher positive Voreinstellung stimmen dieser Aussage nur zu 21% zu, Gymnasiallehrer
angenommen werden muss. zu 28%.«249
Für Klasse 1 und 2 stellte Jürgens (1998b, 188) inzwi- Diese auffällige Differenz könnte an der unterschied-
schen generell eine positive Resonanz bei den LehrerInnen lichen Nähe zum Schulabschluss liegen250, aber auch an
fest: 98% waren mit der 1979 in NRW beschlossenen Ein- den fehlenden Erfahrungen mit Verbalbeurteilungen in den
führung der Verbalgutachten zufrieden, immerhin 43% be-
fürworteten eine Ausweitung auf die dritte Klasse und 10%
auf die Sekundarstufe. Die hier erkennbare Tendenz, verbale
Beurteilungen auf die unteren Klassenstufen zu beschrän-
244 Haenisch (1996b, 51).
ken, zeigt sich auch bei Eltern (> Kap. 4.3) und dürfte mit 245 S. zu dieser zentralen Bedingung für die Möglichkeiten einer ver-
dem von Jahrgangsstufe zu Jahrgangsstufe zunehmenden änderten Leistungsbeurteilung ausführlicher > Kap. 7.
Selektionsdruck zusammenhängen245. Immerhin empfanden 246 Vgl. Haenich (1996a, 15).
Sekundarstufen-LehrerInnen die Berichtszeugnisse aus dem 247 Vgl. Pohl/Beekmann (2005a, 85).
248 Dieselbe Tendenz, wenn auch nicht ganz so deutlich ergab eine
NRW-Modellversuch in Klasse 3 und 4 im Vergleich zu
Befragung von Kanders u.a. (1998, 170): 37% der GrundschullehrerIn-
Ziffernnoten als aussagekräftiger; sie haben auch mit den
nen gegenüber 32% der LehrerInnen weiterführender Schulen hielten
Kindern eher positive Erfahrungen gemacht, zumindest aber Noten in den ersten drei Schuljahren für überflüssig.
keine Probleme beim Übergang zu Noten beobachtet246. 249 Pohl/Beekmann (2005a, 167): Interessant auch: 48% der Frauen
Nach einer aktuellen Befragung von FORSA247 stimmen halten Noten für überflüssig, aber nur 30% der Männer (a.a.O., 90).
zwar weiterhin 75% der LehrerInnen der Aussage zu »Noten LehrerInnen aus West (48%) und Ost (29%) unterscheiden sich ebenfalls
deutlich in der Bevorzugung von Verbalbeurteilungen (a.a.O., 92).
gehören zur Schule dazu«. Aber dieses Urteil bezieht sich
250 Bei Eltern jedenfalls nimmt die Bedeutung der Ausweisfunktion von
vor allem auf die unterstellten Erwartungen von SchülerInnen Noten zu; zur Abnahme der Zustimmung zu Verbalgutachten von der
und Eltern. Denn fast die Hälfte der LehrerInnen hält aus- Hälfte (2. Klasse) auf ein Viertel (4. Klasse) in Hamburg vgl. Wallraben-
formulierte Beurteilungen für aussagekräftiger. stein (1992, 120-121).
Einstellung zu Noten
Basis: Gesamt; Angaben in Prozent; stimme voll und ganz/überwiegend zu.
»Ich lese Ihnen nun einige Aussagen vor, die Noten betreffen. Bitte geben Sie an, ob sie
diesen Aussagen voll und ganz, überwiegend, weniger oder gar nicht zustimmen.«
Noten gehören
zur Schule dazu 75
Abb. 5: EFF-Schulbefragung: Ergebnisse der repräsentativen Lehrer-Befragung, September 2005, Pohl/Beekmann, S. 85.
41
weiterführenden Schulen251. Generell finden weder die 4.2
Motivationsfunktion (50% Zustimmung) noch die Disziplinie-
rungsfunktion (19%) eine Mehrheit. Im Vordergrund steht Einschätzungen von SchülerInnen
die Orientierung der SchülerInnen und Eltern. Auch in einer
Befragung zur Funktion von Zeugnissen, an der 81 Ber- Befragungen von SchülerInnen erbringen sehr unterschied-
liner LehrerInnen teilnahmen, hoben diese die Rückmelde- liche, zum Teil widersprüchliche Ergebnisse.
funktion als wesentlich hervor252. Hier zeigt sich ein Dilemma: Bei Schröter (1982) sprachen sich nur 10% der Schüle-
Ziffernnoten sind SchülerInnen und Eltern vertrauter; des- rInnen dafür aus, Noten abzuschaffen. Auch nach der Be-
halb werden sie auch von vielen LehrerInnen als notwendig fragung von Weiß (1986) hielten in den 1970er Jahren 71%
betrachtet, obwohl diese selbst ihren Informationsgehalt der SchülerInnen Zensuren für notwendig. Und in der Ham-
gering einschätzen. burger Studie »LeiHS«256 stimmten nur 12% der befragten
Durchgängig positiv beurteilen LehrerInnen aus Rhein- SchülerInnen für eine »Schule ohne Noten«.
land-Pfalz und Thüringen den Verzicht auf Noten im neuen Nach einer Umfrage der Zeitschrift ELTERN hielten da-
Fach Englisch in der Grundschule, wie Gompf/Henrich (2005, gegen 58% der 2.060 befragten SchülerInnen Noten für
10-11) herausfanden: »Von dem Gesamt der Lehrkräfte wird »... unnütz oder sogar schädlich; denn sie seien ungenau,
die ›verbale Kommentierung‹ von 76% befürwortet. [...] ungerecht, ohne Aussagekraft über die tatsächliche Leis-
Als wichtigster Grund zählt für zwei Drittel das Argument: tungsfähigkeit. Die häufigsten Kritikpunkte waren: Gute
›Die Kinder beginnen mit Englisch erst ab Klasse 3 und soll- Noten machen überheblich, schlechte mutlos und - Noten
ten daher in einer unbelasteten Atmosphäre lernen, in glei- verschärfen den Konkurrenzkampf in der Klasse.«257
cher Weise, wie ihnen dies für die Fächer ab 1. Schuljahr Das Problem solcher Umfragen sind die geforderten
ermöglicht wird‹ (73%). Nahezu ebenso wichtig ist diesen Pauschalurteile. Sie lassen den Befragten wenig Raum, ihre
Lehrkräften als zweites Argument: ›Auch langsamer lernende Einschätzungen zu differenzieren, und sie eröffnen den
beziehungsweise schüchterne Kinder werden ermutigt, sich InterpretInnen vielfältige Deutungsmöglichkeiten. Aufschluss-
immer wieder neu zu erproben und ihr Können zu verbes- reicher sind deshalb Studien, die die Erfahrungen und
sern‹ (71%). Die Hälfte der Lehrkräfte schätzt es, dass sie Meinungen detaillierter erfassen und zusätzlich Untergruppen
differenziert auf die Teilbereiche Hörverstehen, Sprechen, von SchülerInnen unterscheiden258.
Lesen und Schreiben eingehen können (50%). Rund einem Generell lässt sich ein Alterseffekt feststellen. So fanden
Drittel aller Lehrerinnen ist auch der Aspekt wichtig: ›Die in der von Valtin u.a. durchgeführten Berliner Studie fast
Eltern erhalten genauere Informationen über die Stärken alle Kinder die erste verbale Beurteilung »(sehr) gut«,
beziehungsweise Schwächen ihres Kindes‹.« dagegen sprachen sich im 5. Schuljahr schon 50% für
Leider haben zwei Bundesländer, in denen Frühenglisch Ziffernnoten aus259. Diese Tendenz korrespondiert mit ent-
benotet wird, ihre Teilnahme an der Studie widerrufen, so sprechenden Tendenzen bei LehrerInnen und Eltern
dass sich nicht einschätzen lässt, welche Rolle die Erfah- (> Kap. 4.1 und 4.3).
rungen in der eigenen Praxis für die positiven Beurteilungen Maier (2001) hat detailliert erfasst, worin die Kinder die
spielen. Andererseits bestätigt diese Studie den oben ge- Stärken der beiden Varianten sehen. Gründe der Kinder, die
nannten allgemeinen Befund, dass die Mehrheit der Grund- für ein Verbalzeugnis sprechen260:
schullehrerInnen Ziffernnoten ablehnt.
Kritik von LehrerInnen bezieht sich allerdings auf den
erheblichen Zeitaufwand, der auf rund drei Stunden pro Kind
beziffert wird253. So weit manche Lehrkräfte den zusätzlichen 251 So auch Jachmann/Tillmann (2000, 68-69). In ihrer Hamburger
Studie sprechen sich allerdings nur 34% der GrundschullehrerInnen für
Aufwand für die Beobachtung und Dokumentation der
eine »Schule ohne Zensuren« aus - damit aber immer noch deutlich
Lernprozesse betonen254, stellt dieser Befund allerdings eher mehr als die 4% BefürworterInnen im Gymnasium (a.a.O., 33).
die Validität der Ziffernbenotung in Frage. So weit anderer- 252 Valtin/Schmude (2002, 24).
seits das Schreiben aussagekräftiger Berichte gemeint ist, 253 So Valtin (2002b, 14) unter Verweis auf eine unveröffentlichte
verdient dieser Einwand Beachtung. Wir werden ihn deshalb Studie von Freese (1990).
254 Vgl. Maier (2001, 117).
noch einmal gesondert aufgreifen (> Kap. 5).
255 Vgl. Jachmann/Tillmann (2000, 69) und die differenzierten Daten
Insgesamt zeigt sich, dass LehrerInnen, die über mehr von Jachmann (2003, 122-123, 138-141).
Erfahrungen mit Berichtszeugnissen verfügen, und auch die- 256 Vgl. Vollstädt/Jachmann (2000, 148, 152).
jenigen, die als Teilzeitkräfte mehr Zeit haben, dieser Dar- 257 Bambach (1994, 9). Auch nach einer Befragung von Czerwenka
stellungsform positiver gegenüberstehen255. Überdies ist die u.a. (1988) im 10. Schuljahr erleben nahezu 50% Zensuren negativ.
Einstellung zu Noten in Grundschulen durchgängig kritischer 258 Vgl. vor allem Maier (2001), Beutel (2004) und aus dem NOVARA-
Projekt: Darge u.a. (2002) und Ostrop u.a. (2002).
als in den weiterführenden Schulen.
259 Valtin (2002c, 140), die ergänzend berichtet, dass sich mehr als
drei Viertel der SchülerInnen gerecht beurteilt fühlten (s. dazu auch
Ostrop u.a. 2002, 57).
260 Maier (2001, 123).
42
- verständliche Begründung der Leistungsbeurteilung (29,3%) Notenzeugnissen wahrgenommen. Dabei wünschen Kinder
- Ausführlichkeit (27,7%) ihrer Person angemessene Urteile. Solche Beschreibungen
- Verbesserungsmöglichkeiten werden aufgezeigt (14,9%) üben einen besonderen Reiz aus. Kinder fordern ein, dass
- keine Begründung (12,7%) auch Defizite benannt werden. Schwächen sollen ausgespro-
- nicht so großer Konkurrenzdruck (7,8%) chen und nicht sprachlich zugedeckt werden.«
- persönliche Einschätzung durch die Lehrkraft (7,6%) Zwar gilt bei den meisten Kindern der erste Blick den
Noten266, aber von 143 Kindern haben 128 ihr Zeugnis mehr-
Vorteile des Ziffernzeugnisses261: mals gelesen, 136 Kinder sagen, das sie ihr Zeugnis auch
- bessere Selbsteinschätzung möglich (43,5%) später noch lesen werden267.
- höhere Akzeptanz durch familiäre Umwelt262 (31,6%) Der angeblich verbreitete Notenwunsch von Kindern wird
- keine Begründung (11,2%) auch durch eine Befragung zum Fach Englisch in der Grund-
- Fortschritt ist besser messbar (9,2%) schule in Frage gestellt268: »Von den 1193 befragten Jungen
- bessere Vergleichsmöglichkeit mit anderen Kindern (4,5%). und Mädchen haben 796 Kinder (67%) das Item: ›Seit dem
3. Schuljahr bekommst du in allen Fächern eine Note in dei-
Wie für viele LehrerInnen ist also auch für Kinder die unter- nem Zeugnis. Im Fach Englisch nicht. Findest du das gut?‹
stellte Erwartung der Eltern ein wesentlicher Grund dafür, mit ›JA‹ angekreuzt. [...] Von den 796 Kindern rangiert bei
dass sie Ziffernnoten bevorzugen. Bei einer beachtlichen 533 an erster Stelle das Argument: ›Ich mache in Englisch
Zahl steht dabei der materielle oder emotionale Tauschwert lieber mit, wenn ich dafür keine Note bekomme‹ (45%). [...]
im Vordergrund263. Den insgesamt 796 Kindern, die Englischnoten ablehnen,
Im Übrigen ist eine deutliche Polarisierung wahrnehmbar: stehen 386 gegenüber, die gerne eine Zeugnisnote hätten.
Während gut 40% angeben, sich selbst mit Hilfe von Ziffern- Von diesen Kindern sagen nahezu alle, dass sie sich dann
zeugnissen besser einschätzen zu können, betonen fast ›mehr anstrengen‹ würden (357; 32%). 122 Kinder begrün-
30% die verständlichere Begründung der Verbalgutachten. den ihren Wunsch, in Englisch eine Note zu wollen, ferner
Die Konsequenz: »Während annähernd ein Viertel der Kinder mit der Aussage: ›Weil ich bei einer guten Englischnote mehr
das Verbalzeugnis bevorzugen, wünscht sich ein Drittel eine Taschengeld bekomme‹ (10%).«
Kombination aus Verbalzeugnis und Ziffernzeugnis. Das Die unterschiedlichen Ergebnisse in den referierten
Ziffernzeugnis wird den anderen Rückmeldeformen mit deut- Untersuchungen machen deutlich, dass die Einschätzungen
lichem Abstand vorgezogen. [...] Weiterhin zeigt sich ein der SchülerInnen von verschiedenen Faktoren abhängen:
zwar statistisch nicht signifikanter, aber deutlicher Zusam- von ihren eigenen Erfahrungen, vom Kontext der Befragung
menhang zwischen der Leistungseinschätzung der Kinder und wohl auch von der Art, wie die Frage selbst formuliert
und der Präferenz der Form der Leistungsrückmeldung: wird. So lehnten in der Hamburger »LeiHS«-Studie einer-
Leistungsstärkere Kinder ziehen das Ziffernzeugnis vor und seits rund 70% der SchülerInnen einen Ersatz der Noten
leistungsschwächere Kinder tendieren eher dazu, sich ein durch Verbalbeurteilungen ab269. Nach ihren Erwartungen an
Verbalzeugnis zu wünschen.«264
Der letzte Befund passt zu den Ergebnissen, die die
Studien zu den Auswirkungen der sozialen und der individu-
261 Maier (2001, 124).
ellen Bezugsnorm, insbesondere auf die Lernmotivation, 262 Das Ziffernzeugnis bietet aus Sicht der Kinder den Vorteil, dass es
erbracht haben (vgl. > Kap. 2 und 3.2.3). von den Eltern, Großeltern und Verwandten in höherem Maße akzeptiert
Wie Maier stellen auch Vollstädt/Jachmann (1999) und wird als ein Verbalzeugnis. Auf dieses verbreitete Missverständnis schu-
Valtin (2002c) fest, dass die Mehrheit der Kinder Ziffern- lischen Lernens weist auch die Denkschrift der Bildungskommission
Nordrheinwestfalen (1995, S.87) hin: »Schülerinnen und Schüler machen
zeugnisse bevorzugt, dass sie sich aber schriftliche Kom-
zum Teil früh die Erfahrungen, dass ihre Umgebung, vor allem die eigene
mentare, vor allem als Förderhilfe, wünscht. Dieses inhalt- Familie, sich weniger für das Lernen selbst, für seine Schwierigkeiten und
liche Interesse an einer gehaltvollen Rückmeldung hebt auch Inhalte interessiert, als für seine Ergebnisse in Form quantifizierend
Beutel (2004) hervor. Sie stellt in ihren Interviews zu Verbal- bewerteter Leistungen«. (Maier 2001, 126).
zeugnissen und kommentierten Ziffernnoten fest, dass 263 Vgl. die Rangfolge der Gründe für »Zeugnisse« bei Kirschner
(1992, 83). Inzwischen gibt es sogar Schulen, die ihre SchülerInnen für
Kinder sich sehr differenziert zur Qualität der Aussagen
gute Noten bezahlen, vgl. zu einem Beispiel aus Bristol in England
äußern können und resümiert265: »Berichte geben Kindern
Stepanek (2005).
eine wichtige Auskunft über fachliches Lernen. Man kann 264 Maier (2001, 121, 125).
nach Auswertung der Gespräche mit Grundschulkindern die 265 Beutel (2004, 167-168; s.a. 2000, 177).
Lehrerinnen und Lehrer nur auffordern, weniger Mühe in das 266 In der Berliner Studie steht schon für Zweitklässler bei Zeugnissen
sprachliche Verkleiden von Lerndefiziten und -mängeln zu die Auslesefunktion im Vordergrund (vgl. Valtin 2002c, 140, und ergän-
zend Valtin/Schmude 2002, 18-21).
investieren. Vielmehr scheint man Kindern mehr an Klarheit
267 Vgl. Beutel (2004, 197, 199).
und Wahrheit zutrauen zu dürfen, als dies im pädagogischen 268 Gompf/Henrich (2005, 6).
Geschäft bisweilen der Fall ist […] Berichtszeugnisse werden 269 Gerundete Werte aus Tabelle 4/17 in Vollstädt/Jachmann
von Kindern als diagnostisch gehaltvoller im Vergleich zu (1999, 131).
43
Zeugnisse befragt, stimmte aber die Mehrheit der Schüle- dennoch zu dem Schluss277: »Die Hoffnungen aber, die sich
rInnen den folgenden Items »ganz/überwiegend« zu270: mit Verbalzeugnissen verbanden, haben sich nach unseren
Untersuchungen nicht erfüllt«.
»Zeugnisse sollen mir sagen, Positiver fielen die Ergebnisse einer Elterbefragung durch
was ich in einzelnen Fächern kann.« (85%) Schlottke/Speidel (1981) in Baden-Württemberg aus. Da-
nach haben Eltern qualifizierte Erwartungen an ziffernfreie
»In einem Zeugnis erwarte ich Hinweise, Zeugnisse: 67% möchten über Entwicklungsfortschritte der
wie ich mich verbessern kann.« (73%) Kinder, 42% über Förderungsmöglichkeiten informiert wer-
den und 41% erwarten Ermutigungen des Kindes. Anhand
»Durch ein Zeugnis möchte ich erfahren, der konkreten Verbalbeurteilungen sahen sich 59% der
was ich in dem Schuljahr dazugelernt habe.« (66%). Eltern besser informiert. Nur 12% der Eltern fehlt die Mög-
lichkeit der sozialen Einordnung des Kindes in die Lern-
Dagegen unterstützten nur 44% die Aussage gruppe, 9% befürchten den später auftretenden Notendruck,
nur 5% attestieren den Verbalbeurteilungen eine geringe
»Durch ein Zeugnis möchte ich erfahren, Aussagequalität.
ob ich besser oder schlechter Inzwischen sind Verbalbeurteilungen fester Bestandteil
als andere Schüler(innen) bin.« der Grundschularbeit, also über die unvermeidlichen Schwä-
chen der Anfangsphase hinaus und auch den Eltern vertrau-
Es wäre interessant zu wissen, wie die Ergebnisse ausfallen ter278. Andererseits sind es unter den LehrerInnen nicht mehr
würden, wenn man Kinder fragte: »In vielen anderen Län- die Pioniere, die dieses Instrument einsetzen, und in der
dern bekommen die SchülerInnen keine Noten auf den Breite ist bei jeder pädagogischen Reform mit einer Verwäs-
Zeugnissen, sondern Hinweise zu ihren Fortschritten und zu serung der Intentionen zu rechnen. Wie also gewichten
ihren Schwierigkeiten. Findest du das besser oder schlechter Eltern heute die Vorteile und Schwächen von Ziffernnoten
als bei uns?«. Einen Hinweis auf die zu erwartenden Er- bzw. Verbalbeurteilungen?
gebnisse liefert die Analyse von 1.212 Aufsätzen aus 4. bis Die aktuellste Befragung stammt von FORSA für die Zeit-
13. Klassen zum Thema »Schule«, die mit analogen Befra- schrift »Eltern for Family« - analog aufgebaut zu den bereits
gungen in anderen Ländern verglichen wurden271. Sowohl die berichteten Befragung von LehrerInnen (s. > Kap. 4.1). Im
quantitative als auch die qualitative Analyse ergaben, dass folgenden Schaubild sind sie nach Jahrgangsstufe der Kinder
Leistungsbeurteilung für deutsche SchülerInnen häufiger ein aufgeschlüsselt. Mit um die 90% wird noch stärker als bei
Thema war als für SchülerInnen in anderen Ländern272. den LehrerInnen die Orientierungsfunktion betont. Nur
Zudem war der Tenor der Aussagen innerhalb der deutschen ein Viertel bis ein Drittel der Eltern hält Noten für überflüssig
Gruppe wesentlich häufiger negativ273. Die AutorInnen resü- und ausformulierte Beurteilungen für wesentlich aussage-
mieren: »Wir sehen, dass die deutschen SchülerInnen am kräftiger. Das sind deutlich weniger als unter den Lehre-
meisten unter Noten leiden. Amerikanische Schüler betonen rInnen - vor allem im Grundschulbereich: Auf dieser Schul-
sogar häufiger - wenn sie sich überhaupt zu Noten äußern - stufe sind es nur 24% der Eltern gegenüber etwa 60% der
den positiven Rückmeldeffekt von Zensuren als die belas- LehrerInnen. Insofern gibt es unter den Eltern einen umge-
tende Kontrollfunktion. Das hängt sicher mit dem wesentlich kehrten Jahrgangseffekt, was die Kritik an Noten betrifft:
geringeren Selektionsdruck zusammen.«274 Während nur 17% der Grundschuleltern meinen, dass Noten
den Kindern die Lust am lernen nehmen, sind es in der
4.3 Oberstufe schon 30%.
Wie unter den LehrerInnen und SchülerInnen so hielten auch 270 Die Werte sind gerundet übernommen aus Tabelle 4/19 in
unter den Eltern vor 30 Jahren rund drei Viertel Zensuren Vollstädt/Jachmann (1999, 132).
271 Czerwenka u.a.(1990); vgl. die Zusammenfassung (420-421).
für notwendig275. Schon damals führten differenziertere Be-
272 Über 50% in Deutschland gegenüber knapp 40% in Frankreich und
fragungen auch zu differenzierteren Einschätzungen, wie die weniger als 20% in den USA.
drei folgenden Untersuchungen zeigen276: 273 Über die Hälfte in Deutschland gegenüber einem guten Drittel in
Schmack (1978) wertete in einer eher informellen Studie Frankreich und weniger als einem Fünftel in den USA.
Notizen aus Elterngesprächen während der Zeugnisausgabe 274 Czerwenka u.a. (1990, 422).
275 Vgl. Weiß (1986).
aus und fand mit über 60% eine hohe Zustimmung und
276 Referiert bei Beutel (2005, 65-68).
Zufriedenheit der Eltern, obwohl eine Analyse der Berichte
277 Schmidt (1981, 488).
zeigte, dass sie noch wenig differenziert formuliert waren. 278 So stellte Wallrabenstein (1992, 120) schon über die 1980er Jahre
Schmidt (1981) stellte zwar fest, dass die Eltern die Vor- hinweg einen Anstieg der Elternzustimmung zu Berichtszeugnissen in
behalte der LehrerInnen nicht teilten, kommt andererseits Klasse 3 auf fast 50% fest.
44
Einstellung zu Noten - nach Klasse des Kindes
Basis: Gesamt; Angaben in Prozent; stimme voll und ganz/überwiegend zu.
93
Noten sind für Eltern und Schüler 93
eine wichtige Orientierungshilfe 87
87
92
Noten gehören 89
zur Schule dazu 87
85
75
Noten sind notwendig, 70
um Schüler zum Lernen anzuspornen 69
72
41
Noten sind ein wichtiges Mittel 44
zur Disziplinierung von Schülern 40
34
24
Noten sind überflüssig, ausformulierte Beurteilungen 24 1 - 4 Klasse
sind wesentlich aussagekräftiger 34 5 - 7 Klasse
25
8 -10 Klasse
11-13 Klasse
17
Noten nehmen Kindern 20
26
die Lust am Lernen 30
Abb. 6: EFF-Schulbefragung: Ergebnisse der repräsentativen Eltern-Befragung, September 2005, Pohl/Beekmann, S.109.
Aber auch hier lohnt ein genauerer Blick auf die Motive und - Eltern sind Informationen zum Lernstand, aber auch
Begründungen, wie ihn einige detailliertere Befragungen konkrete Hinweise für die Förderung besonders wichtig.
erlauben279. - Sie erwarten auch eine detaillierte Rückmeldung zum
In den 20 Schulen des Schulversuchs in NRW, in dem Arbeits- und Sozialverhalten.
die Notenfreiheit auf Antrag bis zur 4. Klasse ausgedehnt - Den Informationsgehalt und die Verständlichkeit der
werden konnte, äußerten sich nicht nur die LehrerInnen, son- Verbalbeurteilungen schätzen sie eher »verhalten« ein -
dern auch die Eltern sehr positiv. In einer Befragung stimm- zusätzlich mit abnehmender positiver Bewertung über die
ten 80-90% den folgenden Aussagen zu280: Grundschulzeit hinweg: »Selbst 80% der Anhänger der
schriftliche Hinweise unter den Arbeiten und im Zeugnis Verbalbeurteilung unterstützen die Aussage: ›Bei einem
sind unverzichtbar; Notenzeugnis weiß man genau, wo das Kind steht.‹«
Berichte und Kommentare sind viel aussagekräftiger - Andererseits sehen Eltern Vorteile der Verbalbeurteilun-
als Noten: gen in den konkreten Hinweisen auf Stärken und Schwächen
sie helfen, die richtige Wahl für die weiterführende und Förderhinweisen zu deren Überwindung - auch die-
Schule zu treffen. jenigen, die für Noten sind.
Auch die LehrerInnen stellen bei den Eltern nach Ausweitung - Insgesamt bevorzugen Eltern also eine Verbindung
der Entwicklungsberichte auf Klasse 3/4 ein erhöhtes Inte- beider Darstellungsformen.
resse an der Lernentwicklung ihrer Kinder fest und berichten,
dass die Gespräche zwischen Eltern und LehrerInnen inten- Die Hamburger Grundschuleltern urteilen positiver als die
siviert wurden. Berliner, aber sie bevorzugen ebenfalls eine Kombination
Da die Eltern dem Versuch schon vorher zugestimmt hat-
ten, dürfte es sich allerdings um eine positive Stichprobe
handeln. In der Breite ist mit mehr Vorbehalten zu rechnen,
279 Vgl. Haenisch (1996b); Lütgert/Jachmann (2000); Maier (2001);
wie beispielsweise die Befunde aus der Berliner NOVARA-
Rosenfeld/Valtin (2002); Valtin/Rosenfeld (2002); Gompf/Henrich (2005).
Studie zeigen. Valtin fasst die Erfahrungen und Erwartungen 280 Vgl. Haenisch (1996b, 16, 34).
der Eltern bezogen auf die Rückmeldung zu den Leistungen 281 Valtin (2002c, 142-143); vgl. ausführlicher Valtin/Schmude
ihrer Kinder wie folgt zusammen281: (2002, 21-24).
45
von Ziffern und Kommentar282. Insgesamt stimmen Eltern - Nicht alle Lernbereiche werden erwähnt (5,4%)
eher der Zeugnisform zu, die an der Schule ihrer Kinder - Euphemistische Formulierungen (5,3%)
praktiziert wird283 - darum sind vermutlich die Hamburger - Gespräch mit Lehrkraft ist notwendig (3,6%)
Bewertungen positiver ausgefallen als in Berlin, wo die - Negative Eigenschaften des Kindes werden beschrieben
notenfreien Zeugnisse weniger verbreitet waren. (3,6%)
Auch im Modellversuch »Lern- und Spielschule« in
Rheinland-Pfalz decken sich die Wünsche der Eltern mit den Vorteile des Ziffernzeugnisses:
Voten aus Berlin und Hamburg284: »Hinsichtlich der Präfe-
renz der Form der Leistungsrückmeldung wird deutlich, dass - Vergleich mit anderen Kindern (24,1%)
die Kombination von Verbalzeugnis und Ziffernzeugnis von - klare Leistungseinordnung, exakte Rückmeldung an
allen Gruppen mit deutlichem Abstand (71,3%) gegenüber Eltern (19,0%)
den anderen Beurteilungsformen (Verbalzeugnis 11,7%, - bessere Einschätzung der Leistung durch Kind (12,7%)
Ziffernzeugnis 17,0 %) vorgezogen wird. [...] Insgesamt kann - kein Interpretationsspielraum (10,1%)
nicht davon ausgegangen werden, dass bei den befragten - weiterführende Schulen wollen Noten (8,9%)
Eltern die Akzeptanz von Zeugnissen ohne Noten sehr hoch - jeder Lernbereich wird erwähnt (7,6%)
ist. Sie streben vielmehr mehrheitlich eine pragmatische - Motivation der Kinder (6,3%)
Lösung nämlich die Ergänzung beider Formen der Leistungs- - Kinder gewöhnen sich an späteren Beurteilungsmodus
rückmeldung an, wodurch ihrer ambivalenten Einschätzung (5,1%)
Rechnung getragen wird. [...] Für diejenigen Eltern, die das - Kinder wollen Noten und freuen sich darauf (3,8%)
Beurteilungssystem ohne Noten weniger akzeptieren können, - keine Vorteile gegenüber Verbalzeugnis (2,4%)
scheint durch die verbale Beurteilung keine ›Klarheit‹ bei der
Einschätzung der Leistung ihrer Kinder zu bestehen. Noten,
die ihnen aus ihrer eigenen schulischen Sozialisation be- Nachteile des Ziffernzeugnisses (Maier (2001) Seite 132):
kannt sind und deshalb ein System bilden, das ihnen vertraut
ist, scheinen für sie die einzige Chance zu sein, die Lernent- - Verunsicherung und Stigmatisierung leistungsschwacher
wicklung und Lernsituation richtig einschätzen zu können.« Kinder (28,7%)
In der Befragung wurden die Einschätzungen der Eltern - keine Rückmeldung über Leistungsentwicklung (25,0%)
sehr differenziert erfasst285: - Förderung konkurrenzorientierten Verhaltens (21,2%)
- keine konkreten Informationen über das Kind (11,5%)
- keine Informationen über das Sozialverhalten (7,7%)
Vorteile des Verbalzeugnisses: - keine Nachteile (5,9%)
46
Diese detaillierten und zum Teil widersprüchlichen Aussagen (verbale) Ausbildungszeugnis des Betriebs höher einge-
lassen sich auf einen knappen Nenner bringen286: »Aus der schätzt.
Vielzahl der gewonnenen Befunde ist besonders die Ambi- Auch in Prognosestudien findet sich nur eine geringe
valenz der Befragten zu nennen. So wünschen sich bei- Korrelation von Schulnoten mit Kennwerten für berufsprak-
spielsweise die Eltern einerseits klare Rückmeldungen dar- tische Bewährung290. Ein wesentlich engerer Bezug be-
über, wo ihr Kind im Bezugssystem der Schulklasse steht; steht zwischen Umfang und Niveau einschlägiger außer-
andererseits sind sie an individuellen Informationen über die schulischer Aktivitäten und dem Erfolg in der Berufspraxis291.
Entwicklung ihres Kindes interessiert und beklagen die Folgerichtig haben neben persönlichen Einstellungs-
Konkurrenzorientierung der Noten ...«. gesprächen biografische Fragebögen für die Auswahl von
Deutlich positiver fallen die Reaktionen in der Elternbefra- BewerberInnen an Bedeutung gewonnen und sich auch
gung zu Englisch in der Grundschule aus287: 66% begrüßen bei schwierigen Entscheidungen bewährt292.
in der betreffenden Untersuchung die Notenfreiheit ausdrück- Hier deuten sich interessante Parallelen zwischen den
lich. Als zentrales Argument nennen 54 % (wie schon die Argumenten für Verbalgutachten in der Schule und dem
LehrerInnen und Kinder): »Mein Kind lernt erst seit Klasse 3 betrieblichen Beurteilungswesen an, in dem individuelle
Englisch. Es sollte dieses Fach daher in einer unbelasteten Zielvereinbarungen, Selbsteinschätzungen und regelmäßige
Atmosphäre lernen, in gleicher Weise, wie es dies in den Mitarbeitergespräche in den letzten Jahren zunehmend an
Fächern machen darf, die ab erstem Schuljahr beginnen«. Bedeutung gewonnen haben.
Gefordert wird von den Eltern allerdings eine aussage-
kräftige Rückmeldung zum Lernstand des Kindes288. Dies ist
über die verschiedenen Befragungen hinweg das vorrangige 4.5
Bedürfnis der Eltern. Bisher findet die Mehrheit, dass die-
ses Bedürfnis am besten durch eine Kombination von Note Einschätzungen in der Öffentlichkeit
und Bericht befriedigt wird.
Aktuelle Repräsentativbefragungen zum Thema »Noten«
liegen vom Institut für Schulentwicklung an der Universität
4.4 Dortmund (IfS)293 und im »Bildungsbarometer« des Zentrums
für empirische pädagogische Forschung an der Universität
Einschätzungen von Arbeitgebern Koblenz-Landau vor294.
Das ZEPF (2005) resümiert die Antworten in seinem
Ob Unternehmen,Verwaltung oder auch Schule, die selbst289 Bildungsbarometer in dem klaren Fazit: »Mit deutlichem
Personal einstellen: Neben den Noten spielen Verbalbeur- Abstand werden dagegen alle Vorschläge, die im weitesten
teilungen und Aufnahmegespräche oder eigene Eingangs- Sinne auf eine Abschaffung gängiger Druckmittel (Sitzen-
tests eine große Rolle für die Auswahl von BewerberInnen. bleiben, Noten) hinauslaufen, nur von einem geringen Anteil
Dass Arbeitgeber eigene Eingangsprüfungen durchführen, der Bevölkerung befürwortet.«
zeigt, wie wenig sie den Noten von Schulen und anderen
Ausbildungseinrichtungen trauen.
Diese Skepsis wird auch deutlich in Befragungen zur
Bedeutung verschiedener Informationsquellen bei Einstel-
lungen. 286 Petillon (2001, II).
Das Bundesinstitut für Berufsbildung (1998) hat 1575 287 Vgl. Gompf/Henrich (2005, 3). Ein Grund für die Abweichung
vom allgemeinen Trend könnte sein, dass dieses Fach nicht versetzungs-
Fragebögen aus 805 Betrieben zu der Frage ausgewertet,
relevant ist.
wie verschiedene Informationsquellen bei der Einstellung von 288 ... wie sie in Thüringen üblich ist, während in Rheinland-Pfalz nur
MitarbeiterInnen gewichtet werden. Danach halten nur 20% die Teilnahme bescheinigt wurde (Gompf/Henrich 2005, 13-14).
die Berufsschulnoten für »sehr wichtig«, während über 289 ... bei der Besetzung »schulscharf« ausgeschriebener Stellen.
90% die Eindrücke aus dem Vorstellungsgespräch hoch ein- 290 Vgl. Landmesser u.a. (2003, 11-12); die Korrelationen liegen
bei .09-.26 (Samson u.a. 1984); .22 (Baron-Boldt u.a. 1988); .27 (Hübner
schätzen. Weniger als 25% finden in dem IHK Zeugnis
2003) - gegenüber .45 (Baron-Boldt u.a. 1988) bis .54 (Hübner 2003) für
»wertvolle Hinweise auf die berufliche Handlungsfähigkeit«.
den Zusammenhang von Schulnoten und Zensuren im Studium oder an
Das Berufsschulzeugnis schätzen 90% mit Blick auf grund- Berufsakademien.
legende Schulkenntnisse als aussagekräftig ein und 70% 291 Mit einer Korrelation von .54; a.a.O., 12 und 17, mit Bezug auf
vertrauen den Aussagen über fachliches Wissen. Aber Hübner (2003) sowie auf Ghiselli (1966); Reilly/Chao (1982); Hunter/
nur eine Minderheit zieht aus diesen Quellen Informationen Hunter (1984), die je nach Einsatzbereich Korrelationen von .30 bis .50
berichten.
für Pünktlichkeit/Zuverlässigkeit, Sorgfalt/Genauigkeit,
292 Z.B. bei der Auswahl für Einsatzbereiche mit besonderen Anforde-
Planungs-/Organisationsfähigkeit, Kommunikationsfähigkeit, rungen, vgl. Landmesser u.a. (2003, 17).
praktische Fertigkeiten, Schnelligkeit, Einfallsreichtum, 293 Vgl. Kanders/Rolff (2002; 2004); Kanders u.a. (2004).
Kontakt/Teamfähigkeit. In allen diesen Punkten wird das 294 Vgl. ZEPF (2005).
47
Heilige Kühe des deutschen Schulsystems
Immerhin: Bei einer Befragung durch Schröter (1982) waren »Alle Schulzeugnisse sollten Beurteilungen für Team-
es vor 25 Jahren nur etwa 10%, die sich für eine generelle fähigkeit, Toleranz und Verantwortungsbewusstsein
Abschaffung aussprachen, während es heute um die 30% enthalten« (S. 47).
sind. Ein differenzierteres Bild vermitteln die Befragungen Zustimmung 2004 2002
des IfS in Dortmund, die spezifischer die Leistungsbewertung West 75% 72%
in der Grundschule thematisieren und außerdem die Antwor- Ost 78% 78%
ten nach Teilgruppen aufschlüsseln.
Der Verzicht auf Zensuren spaltet das Land, denn insge- Zentrale Prüfungen finden sowohl in der Gesamtbevölkerung
samt jeweils etwa 40% sind dafür und dagegen, dabei ist im als auch speziell unter Eltern eine überwältigende
Westen eine knappe Mehrheit dafür, im Osten dagegen295: Zustimmung - nicht nur für das Abitur, sondern auch beim
Abschluss der Hauptschule297:
»Zumindest in den ersten drei Jahren der Grundschule kann
auf Zensuren verzichtet werden« (S. 41). »Alle SchülerInnen und Schüler sollten landesweit einheit-
Zustimmung 2004 2002 1997 1993 liche Prüfungen ablegen« (Hauptschule/Abitur) (S.48).
West 51% 43% 45% 50% Zustimmung 2004 2002
Ost 26% 21% 25% 29% West: Eltern 87/91% 87/91%
West: Alle 84/89% 84/89%
Kopfnoten finden generell eine breite Zustimmung - ob in Ost: Alle 95/97% 96/97%
traditioneller oder in einer den heutigen Erziehungsvorstel- Ost: Eltern 96/98% 95/98%
lungen angepassten Form296:
48
In der Öffentlichkeit, vor allem aber in den neuen Bundes- Widerspruch zu den empirischen Befunden, sind also sach-
ländern, herrscht demnach generell eine konservative lich nicht gerechtfertigt: »Noten werden positiver bewertet als
Haltung vor. Wie beim Sitzenbleiben und bei den Hausauf- Verbalgutachten, weil mit ihnen besondere Erwartungen ver-
gaben sprechen sich auch bei den »Schulnoten im üblichen bunden werden (Eindeutigkeit, Vergleichbarkeit) - die sie
Sinn« nur 30-40% der Befragten für deren Abschaffung aus. aber nicht erfüllen können, was den meisten nicht bewusst
Dieser Befund passt zu deutschen und US-amerikanischen zu sein scheint. Wegen ihrer Relativität können sie weder
Daten, wonach Personen der Schule und vor allem (unge- Ausleseentscheidungen rechtfertigen, wegen ihrer Reduktion
wohnten) Praktiken oft um so kritischer gegenüber stehen, je der komplexen Informationen zum Leistungsstand können
weniger Kontakt sie zur Schule (über eigene Kinder oder sie didaktische Entscheidungen nicht anleiten.«300
Enkel) haben298. Nimmt man die in > Kap. 1 bis 3 referierte Vielzahl er-
drückender Sachargumente gegen Ziffernnoten und betrach-
4.6 tet man andererseits, wie langsam sie in der Breite wahr-
genommen werden, so stellt sich die Frage, ob hier nicht der
Zwischenbilanz zu »Einschätzungen« Gesetzgeber gefordert ist. So wichtig Mitbestimmungsrechte
der Betroffenen für die Gestaltung des Schulalltags sind -
Zunächst ist es wichtig, die deutlichen Differenzen zwischen grundsätzliche Entscheidungen wie die Beurteilung von Leis-
Teilgruppen wahrzunehmen, die in der Hamburger Studie tungen sind gesamtgesellschaftlich zu verantworten, solange
»LeiHS« so zusammengefasst werden299: sie so nachhaltige Konsequenzen haben wie in unserem
selektiven System (> Kap. 7).
»Der pädagogische Dissens unter den Lehrkräften über Zudem muss die generelle Zustimmung zu Noten diffe-
das Für und Wider von Zensuren findet sich in dieser renziert werden. Befragt nach einzelnen Punkten (»macht mir
Schärfe weder bei den Eltern und noch weniger bei den Angst«, »nimmt meinem Kind die Motivation«) äußern sich
Schüler(innen) wieder. Mehrheiten in den einzelnen Teilgruppen oft zensurenkri-
Die reformpädagogisch motivierte Kritik an Zensuren tisch. Für Kinder wie LehrerInnen spielt das indirekte Argu-
(Schulangst, geringes Selbstwertgefühl u.ä.) wird von den ment der höheren Akzeptanz der Noten bei Eltern, Verwand-
Befragten geteilt: von den Lehrenden am stärksten, etwas ten und »Abnehmern« eine wichtige Rolle für die eigene
weniger von den Eltern, deutlich weniger von den Schüle- Zustimmung. Arbeitgeber dagegen verlassen sich bei der
r(innen) - sogar dann, wenn sie von schlechten Noten Auswahl von BewerberInnen nicht auf Noten in Abschluss-
betroffen sind. zeugnissen. Insgesamt lassen sich zwei Trends beobachten:
Die testtheoretischen Mängel der Noten (unzureichende - Personen, die (länger) Erfahrungen mit Verbalgutachten
Objektivität, mangelnde »Gerechtigkeit«) werden in allen haben, äußern sich generell positiver zu dieser Form der
drei Gruppen nur zum Teil nachvollzogen. Am ehesten findet Beurteilung.
sich hier an den Grund- und Gesamtschulen eine kritische - Vor allem die Eltern tendieren zu einer Verbindung von
Einstellung, deutlich weniger im gegliederten Schulsystem. Ziffern und verbalen Aussagen.
Von den Schüler(innen) werden die Unzulänglichkeiten Die Vorbehalte gegenüber Verbalbeurteilungen lassen
von Zensuren am wenigsten reflektiert. Auch ein relativ sich auf einen Punkt konzentrieren: »Ein Problemkreis der
reformfreudiges Klima unter den Lehrenden der Gesamt- nahezu alle Arbeiten durchzieht, ist die Kluft zwischen Erwar-
schule hat auf die deutliche Befürwortung der Noten seitens tungen an verbale Zeugnisse und dem oftmals schwierigen
der Schüler(innen) nur wenig Einfluss. Anders formuliert: Umgang mit dieser Beurteilungsform im schulischen Alltag.
Die Schüler(innen) aller Sekundarschulformen sind die ent- Es gibt - vor allem zu Beginn der Phase, in der Grundschul-
schiedensten Verfechter der Zensuren. [...] berichte eingeführt werden, Skepsis und Ratlosigkeit bei
In der Grundschule gibt es bei Lehrer(innen) und Eltern Lehrern (Schmidt 1991 und Thomas 2001), den Ruf nach
eine hohe Zustimmung zu den Berichtszeugnissen; in der administrativen Hilfen und den Wunsch nach Qualifizierung
Haupt- und Realschule sprechen sich Schüler(innen) und (Schmidt 1981, Schlottke/Speidel 1979/1981) ...«301.
Eltern besonders entschieden für Notenzeugnisse aus. Damit stellt sich - zusätzlich zu verbreiteten Vorbehalten
Demgegenüber findet sich im Gymnasium eine etwas libera- unter den Betroffenen - die Frage nach der Umsetzbarkeit
lere Position bei den Eltern, die in einem gewissen Kontrast von Verbalbeurteilungen im Schulalltag.
zu der recht berichtskritischen Position der dortigen Lehrer-
schaft steht.
In allen Gruppen gibt es eine hohe Wertschätzung der
Notenzeugnisse mit Kommentarbogen.«
298 Vgl. etwa Micklos (1982) und einige Wertdifferenzen in den
IfS-Umfragen, zuletzt: Kanders u.a. (2004, 28-31).
Insgesamt findet die Abschaffung von Noten in Befragungen 299 Jachmann (2000, 234, 241).
nur wenig Zustimmung. Dabei stehen die gegebenen Be- 300 Valtin (2002c, 144).
gründungen (Vergleichbarkeit, Eindeutigkeit) oft in explizitem 301 Beutel (2005, 82).
49
5 Andererseits stellen Black/Wiliam (1998) in ihrem For-
schungsüberblick zur Leistungsbeurteilung im Unterricht fest,
Rechtfertigt der Ertrag aufwändigere Formen dass SchülerInnen von undifferenzierten Noten nicht für
der Erhebung und Bewertung von Leistungen?302 ihre Arbeit und ihren Lernerfolg profitieren306. Was also ist
ein zahlbarer Preis für eine verbesserte Rückmeldung?
Soweit LehrerInnen Vorbehalte gegen die Einführung von Die Arbeitsbelastung von LehrerInnen wird gemeinhin in
Verbalbeurteilungen äußern, wird immer wieder der Zeit- Zeit gemessen, analog ihre »Leistung« nach Stundendeputat
aufwand für Beobachtung und Dokumentation genannt303. bezahlt. Nimmt man dieses Kriterium als Maßstab, so ergibt
Dieses Argument ist verständlich und problematisch zu- sich für verschiedene Tätigkeiten der Leistungsbeurteilung
gleich. Ausführliche, differenzierte und sensible Berichte, wie ein unterschiedliches Gewicht, wie die Ergebnisse zweier
sie beispielsweise Bambach (1994) publiziert hat, kosten Studien von Schönwälder (1999) in Bremen und Nordrhein-
mehr Zeit als die Berechnung eines Notendurchschnitts aus Westfalen zeigen. Unter 21 Tätigkeiten gab es vier Items aus
Klassenarbeiten. Allerdings sollten auch Ziffernnoten breiter dem Bereich der Leistungsbeurteilung. Sie fanden sich - ge-
fundiert sein als nur durch die Ergebnisse in drei, vier punk- ordnet nach zeitlicher Belastung - auf folgenden Plätzen307:
tuellen Leistungsproben. Soweit also der kritisierte Aufwand
die begleitende Lernbeobachtung und ihre Dokumentation Rang Wert Tätigkeit
betrifft, wäre dies ein Argument, das für beide Darstellungs-
formen gleichermaßen gilt. Sofern die Praxis diesem An- 1 1,4 Beurteilen durch Entwicklungsberichte
spruch - aus welchen Gründen auch immer - bisher nicht 2 1,6 Unterricht
gerecht wird, würde diese Unzulänglichkeit in Verbalbeurtei- 3 1,6 Planung und Auswertung von Unterricht
lungen lediglich sichtbar gemacht, das Problem würde aber 4 1,8 Korrigieren von Schülerarbeiten
nicht erst durch sie erzeugt. (ohne Benotung)
In der Hamburger Studie »LeiHS« konnten einige kon- 5 1,8 Zeugnisse geben
krete Daten erhoben werden, die das Bild differenzieren304: 6 1,9 Schulveranstaltungen
GrundschullehrerInnen wenden mehr Zeit für Berichts- (Wandertage, Schul-/Klassenfeste ...)
zeugnisse (aber auch für Notenzeugnisse) auf als ihre ...
KollegInnen in der Sekundarstufe. 11 2,1 Kooperation mit KollegInnen
Im Durchschnitt wenden sie für ein Berichtszeugnis ins- 12 2,1 Benoten
gesamt 2,5-2,6 Stunden, für ein Notenzeugnis aber auch 13 2,1 Planung und Auswertung
schon 2,1 Stunden auf. von Schulveranstaltungen
In beiden Fällen schwanken die Belastungen zwischen ...
den Lehrkräften erheblich - nicht nur wegen der unterschied- 20 2,5 Ausschüsse
lichen Anzahl an SchülerInnen. 21 2,6 Beaufsichtigung von SchülerInnen
Es besteht wider Erwarten kein Zusammenhang zwi- (Pausen, Hausaufgaben usw.)
schen der individuell aufgewandten Zeit und der Einstellung
der Person zu Noten vs. Verbalgutachten.
302 Vgl. vor allem Schönwälder (1999) und Oelkers (2001).
Die Unterschiede sind also nicht so erheblich wie erwartet. 303 Vgl. Maier (2001, 117).
Dennoch mahnt Oelkers (2001): »Die meisten Vorschläge, 304 Vgl. Jachmann (2003, 128-137, 141-142).
305 Oelkers (2001, o.S.), der ergänzt: »Eine grosse Untersuchung zur
die die Lehrkräfte als ›Diagnostiker‹ (Jäger 2000) aufwerten
Arbeitszeit der Lehrpersonen in der deutschsprachigen Schweiz (Landert
und ihnen zusätzliche Aufgaben aufbürden, erhöhen nur den
1999) zeigt unter anderem folgende Befunde:
Aufwand, ohne die reale Zeitverteilung in Rechnung zu stel- - Lehrkräfte unterschätzen ihre Arbeitszeit eher als dass sie sie
len. Nach den vorliegenden Schweizer Daten konzentriert überschätzen.
sich die Jahresarbeitszeit der Lehrkräfte mit durchschnittlich - Alle Wochentage sind belastet, die Wochenendarbeit variiert nach
zwischen 80 und 90 Prozent auf die unterrichtsbezogenen Schultyp und Schulstufe.
- Die durchschnittliche Arbeitszeit liegt ferienbereinigt höher, als im
Tätigkeiten. Den verbleibenden Rest einer stark gestressten
öffentlichen Dienst verlangt: Zwischen 44,6 und 47,3 Wochenstunden
Zeit müssen sich Betreuung und Beratung, Weiterbildung je nach Pensengrösse, zwischen 44,4 und 47,8 Stunden bezogen auf
oder Gemeinschaftsarbeit und alles Übrige teilen (Landert die Schulstufen.
1999). Es ist dann ziemlichgrotesk, Listen mit allerlei diag- - Die Jahresarbeitszeit konzentriert sich auf das Hauptgeschäft, nämlich
nostischen Tätigkeiten zu lesen, die ungewichtet sind und die Unterrichten, Vor- und Nachbereitung sowie Planung und Auswertung.
- Für Betreuung und Beratung stehen 3% der durchschnittlichen
zeitliche Belastungen unberührt lassen (Jäger 2000, S. 101).
Jahresarbeitszeit zur Verfügung.«
Das Grundproblem von Aufwand und Effekt ist nicht gelöst,
306 Vgl. auch Stiggins (1999, 194).
zumal nicht in einem Berufsfeld, das vom individuellen 307 In der zweiten Spalte sind die Mittelwerte der zeitlichen Bean-
Engagement lebt und sich in zeitlicher Hinsicht nicht stan- spruchung angegeben, wobei 1 »ganz erheblich« und 3 »geringfügig«
dardisieren lässt.«305 bedeutete (vgl. Schönwälder 1999, 119-120).
50
Die Übersicht zeigt: sprachlich differenziert gerecht zu werden, sich nicht hinter
Die Teiltätigkeiten der Leistungsbeurteilung gehören zu einer (scheinbaren) Verrechnung von Daten verstecken zu
den aufwändigeren Aufgaben (fast alle in der oberen Hälfte, können, ist offensichtlich eine hohe Anforderung. So berech-
drei unter den ersten fünf); tigt diese Anforderung nach dem oben Gesagten auch sein
das Benoten ist ganz erheblich weniger aufwändig als mag - ohne entsprechende Ausbildung und Unterstützung
das Schreiben von Entwicklungsberichten und dieses ist (Fortbildung, kollegialer Austausch, Supervision) ist sie in
auch noch deutlich aufwändiger als das Korrigieren von der Breite wohl nicht erfüllbar (vgl. > Kap. 3.1). Außerdem
Arbeiten oder das Schreiben von Zeugnissen. brauchen LehrerInnen alltagstaugliche Verfahren und Auf-
gaben, die es ihnen ermöglichen, Beobachtung und Förde-
Wer fordert, dass Ziffernnoten und -zeugnisse durch gehalt- rung im Unterricht enger miteinander zu verknüpfen310.
volle Entwicklungsberichte ersetzt werden, muss LehrerInnen Dass der zeitliche Mehraufwand sich psychisch auf Dauer
also zeigen, welchen Vorteil sie von dieser zusätzlichen sogar als Entlastung auswirken kann, zeigen die Ergebnisse
Anforderung haben oder ihre zeitliche Mehrbelastung durch der Befragung von 81 LehrerInnen im NRW-Schulversuch
eine Gratifikation ausgleichen - sonst wird Anspruch der mit notenfreien Beurteilungen in Klasse 3 und 4: »Das State-
Reform zu oft unterlaufen, wie die ernüchternden Ergeb- ment mit der höchsten Zustimmungsquote dieses Bereichs
nisse der Inhaltsanalysen von Verbalgutachten zeigen (vgl. bezieht sich auf den Arbeitsaufwand der Lehrkräfte. So
> Kap. 3.1). geben 88% der Befragten an, daß bedingt durch die neue
Vor diesem Hintergrund ist ein zweiter Aspekt der Schön- Beurteilungsform der zeitliche Aufwand im Vergleich zu frü-
wälder-Studie interessant. Die LehrerInnen wurden nämlich her erheblich gestiegen ist. ... Mit fast ebenso großer
zusätzlich gebeten, dieselben Vorgaben nach dem Grad Mehrheit (zu 84%) finden die betroffenen LehrerInnen und
ihrer psychischen »Belastung« einzustufen. Dabei ergab sich Lehrer aber gleichzeitig, dass die pädagogischen Vorteile
folgendes Bild308: ohne Noten den Mehraufwand voll und ganz rechtfertigen.
Bei 66% (und bei weiteren 18% noch teilweise) ist trotz der
Rang Wert Tätigkeit beträchtlichen Mehrbelastung die Berufszufriedenheit sogar
größer als früher. Dass diese positiven Wirkungen auf die
1 (1) 1,4 Beurteilen durch Entwicklungsberichte Lehrkräfte nicht gering veranschlagt werden dürfen, zeigt
2 (5) 1,7 Zeugnisse geben auch der Befund, dass die weitaus meisten der Befragten
3 (6) 1,8 Schulveranstaltungen (80%) meinen, es eigentlich nicht mehr verantworten zu kön-
(Wandertage, Schul-/Klassenfeste ...) nen, noch einmal Zensurenzeugnisse zu schreiben.«311
4 (7) 1,8 Klassenfahrten/Projekte Interessant sind auch die Gründe, die von den Lehre-
5 (12) 1,9 Benoten rInnen für diese Einschätzungen genannt werden: ein besse-
... res Verständnis der Lernentwicklung der Kinder - und ein
18 (18) 2,4 Fachkonferenzen größeres Interesse am einzelnen Kind.
19 (4) 2,4 Korrigieren von Schülerarbeiten Beachtung verdient aber auch der oben genannte Be-
(ohne Benotung) fund, dass alle Formen der Leistungsbeurteilung als beson-
20 (19) 2,6 Fort- und Weiterbildung ders belastend wahrgenommen werden, wenn sie der
21 (11) 2,6 Kooperation mit KollegInnen Selektion dienen. Hier wird ein grundsätzlicheres Problem
deutlich, das über technische Fragen der Darstellungsform
hinausweist (> Kap. 7).
Wie Schönwälder (a.a.O., 120) betont, gibt es zwar einen
Zusammenhang zwischen zeitlichem Aufwand und psychi-
scher Belastung (r = .58), aber wie die gemeinsame Varianz 308 Vgl. Schönwälder (1999, 115-116): 1 = »sehr belastend« vs. 3 =
von nur etwa einem Drittel zeigt, geht letztere nicht in erste- »kaum belastend«; zum Vergleich sind in der folgenden Tabelle in
rer auf. Deren Besonderheit wird gerade in den Tätigkeiten Klammern die Rangplätze des zeitlichen Aufwands aus der ersten
der Leistungsbeurteilung deutlich. Das sehr zeitaufwändige Tabelle mit aufgenommen.
309 Schmude u.a. (2003) berichten aus einer Befragung von Lehramts-
Korrigieren wird nämlich psychisch als nur geringe Belas-
studierenden zu Problemen, die sie im Beruf erwarteten, ebenfalls, dass
tung empfunden, während alle Formen der Bewertung von der Komplex Bewertung/Benotung/Selektionsentscheidungen am häufig-
Leistungen zu den fünf belastendsten Tätigkeiten zählen309. sten genannt wurde. Bei der im Rahmen des NOVARA-Projekts durch-
Unter ihnen rangieren die Entwicklungsberichte allerdings geführten Lehrerbefragung kam von Lehrkräften, die überzeugte Vertreter
wieder eindeutig auf Platz 1, während Noten und Zeugnisse verbaler Beurteilungen waren, auch die Anmerkung, dass für sie die
Reduktion ihrer Rückmeldung auf eine Note sehr belastend ist (pers.
als etwas weniger belastend eingeschätzt werden.
Mitteilung von Schmude am 20.3.06).
Die beiden Vergleiche machen deutlich, dass entwick-
310 Vgl. dazu die umfangreichen Hilfen für die ersten beiden Schul-
lungsorientierte Lernberichte nicht nur einen hohen zeitlichen jahre in Bartnitzky u.a. (2005) und für Klasse 3/4 in Bartnitzky u.a. (2006,
Aufwand erfordern, sondern von den LehrerInnen auch als in Vorb.).
besondere Belastung empfunden werden. Einer Person 311 Haenisch (1996b, 21-22).
51
6 Dies sind ernst zu nehmende Einwände. Aber es sind
unterschiedliche Folgerungen denkbar - die jeweils ihre eige-
Zwischenbilanz und pädagogische Folgerungen312 nen Probleme aufwerfen.
52
seinen Leistungen in einem fachlichen Ausschnitt abhängen. faktisch nicht gewährleisten können. Schließlich schränkt die
Auch andere Leistungen, beispielsweise seine soziale und Reduktion differenzierter Fähigkeitsprofile und unterschied-
emotionale Kompetenz, müssen Aufmerksamkeit und Aner- licher Gründe für ein und dieselbe Leistung (als Produkt) die
kennung finden. Dies muss ein Kind spüren. Und es darf nicht Aussagekraft von Noten zusätzlich ein.
von einem Urteil allein abhängig sein. Lernende müssen sich Damit stellt sich die Frage nach den Alternativen, zumal
an verschiedenen »Meistern« orientieren können, um selbst- auch Verbalgutachten die in sie gesetzten Erwartungen bis-
ständig zu werden. her nicht erfüllt haben.
6.1.2 6.2
Verzicht auf eine Zertifizierung nach außen? Keine Beurteilungsform erfüllt alle Anforderungen -
einfache Auswege aus dem Bewertungsdilemma
Von denen, die Leistungsbeurteilungen in den Schulen ganz gibt es nicht
abschaffen wollen315, ist aber noch eine zweite Frage zu
beantworten: Wie verschaffen wir SchülerInnen einen Leistungsbeurteilungen haben unterschiedliche Funktionen
Ausweis ihrer Leistungen, der außerhalb der Schule zählt? zu erfüllen. Je nachdem, ob die Förder-, Berichts- oder
Verzichtet die Schule auf Abschlusszertifikate oder wer- Selektionsfunktion im Vordergrund steht, und je nach den
den Beurteilungen von den AbnehmerInnen nicht ernst ge- Adressaten sind verschiedene Formen angemessen.
nommen, führen diese Eingangsprüfungen durch316. Oder es Zumindest in der Grundschule kann (und sollte) schon
werden statt der Beurteilungen innerhalb der Klasse externe heute auf Noten verzichtet werden. Vorrang hat eine mög-
Prüfungen auf der zentralen Systemebene eingeführt. lichst differenzierte Rückmeldung der individuellen Leistung
Diese haben ihre eigenen Probleme: Wenn LehrerInnen und ihrer Entwicklung. Verbalbeurteilungen dürfen dabei
nicht beurteilen, beurteilen Fremde. Wenn der Markt allein aber nicht bloße Übersetzungen der Ziffernnoten sein, da sie
entscheidet, kommen Kriterien stärker zur Geltung, die nicht dann eine überflüssige Zusatzbelastung sind. Sie müssen
pädagogisch zu begründen sind. Eine Trennung von Unter- vielmehr durch die Differenzierung von Teilleistungen und
richt und Prüfung317 eröffnet somit Vor- und Nachteile. Sie durch den Bezug der Bewertung auf die individuelle Entwick-
entlastet das Verhältnis zwischen PädagogInnen und lung die Notenbewertung inhaltlich ergänzen.
SchülerInnen, sie belastet aber den Unterricht mit Fremd- Die Risiken von Fehlbeurteilungen und die negativen
kriterien. Für die Schüler könnte der kontinuierliche Bewäh- Nebenwirkungen einzelner Formen der Leistungsbeurteilung
rungsdruck entfallen, andererseits dürften sie unter der lassen sich nur reduzieren, nicht gänzlich aufheben. Fol-
Bedeutung der punktuellen Prüfungssituation leiden. Vor gende Maßnahmen sind möglich, wobei ihre Umsetzbarkeit
allem aber stellt sich die Frage, ob die Vorbereitung auf die im Schulalltag im Blick zu behalten ist:
externe Prüfung den Unterricht nicht stärker prägt als infor-
melle Leistungsproben, die direkt aus konkreten Unterrichts- Bei der Erhebung von Leistungen sind verschiedene
einheiten erwachsen. Verfahren wie standardisierte Tests, klassenbezogen ge-
Nur: Soll dies in Form von Noten geschehen? Noten sind stellte oder individuell gewählte Aufgaben sowie informelle
eine spezifische Form der Leistungsbeurteilung. Diese ist ab- Beobachtungen zu kombinieren.
geleitet aus ihrer Funktion bei der Vergabe von Zeugnissen. Bei der Rückmeldung sind Leistungen mit Bezug auf
verschiedene Maßstäbe auszuweisen
6.1.3 - als individuelle Fortschritte gegenüber früheren Leistungen,
- als Grad der Lernzielannäherung und
Verzicht auf Ziffernnoten als Form der Beurteilung? - als Rangplatz in einer repräsentativen Bezugsgruppe.
In den Beurteilungsprozess sind verschiedene
Bleibt also die Frage, ob Beurteilungen weiterhin in Form von BewerterInnen einzubeziehen, einschließlich der Selbstein-
Noten erfolgen sollen, schätzung durch die Betroffenen, und eventuelle Differenzen
- deren Grundlage informelle Leistungsnachweise sind, ihrer Urteile explizit auszuweisen.
- die mit Bezug auf den Rang in der Klasse bewertet und Diese drei Punkte erfordern noch einige Erläuterungen,
- die in Form von Ziffern dargestellt werden und die im Folgenden kurz ausgeführt werden.
- die Selektionsentscheidungen begründen.
Die in diesem Gutachten referierten Studien stellen Noten 315 Kinderrechtszänker (o.J., 7. Punkt).
unter allen vier Gesichtspunkten in Frage: Die Bewertung 316 Tillmann (1997/99) stellt allerdings in Frage, dass die Schule ihre
traditionelle »Allokationsfunktion« werde beibehalten können, da sich das
nach informellen Proben und Beobachtungen ist in hohem
Beschäftigungssystem zunehmend vom Bildungssystem abkoppele: Gute
Maße fehleranfällig, die soziale Bezugsnorm hat negative
Abschlüsse sichern keine Ausbildungsplätze oder gar Berufskarrieren
Auswirkungen auf die Lernmotivation, und vor allem sind mehr, das Überangebot an Arbeitskräften entwertet schulische Zertifikate
Ziffern wenig aussagekräftig, suggerieren vielmehr eine zunehmend.
Genauigkeit, Vergleichbarkeit und Prognosefähigkeit, die sie 317 S. England, s. Baden-Württemberg und Bayern.
53
6.3 generell interpretationsbedürftig sind: Zahlen sprechen nicht
für sich. Insofern können Tests informelle Beobachtungen
Daten aus verschiedenen Erhebungsverfahren und vor allem das Lehrerurteil selbst nicht ersetzen. Auch die
sind miteinander zu verbinden Daten aus Tests bedürfen der Deutung und Ergänzung.
Verbale Beurteilungen, die neben Testwerten weitere
Wo immer möglich - und in bei der Nutzung für Daten einbeziehen und im Zusammenhang interpretieren,
Selektionsentscheidungen zwingend - sind Leistungsdaten können einige der genannten Schwierigkeiten auffangen320:
zu mehreren Zeitpunkten - durch kontinuierliche Sammlung von Daten statt nur punk-
anhand verschiedener Aufgaben tueller Erhebungen;
in unterschiedlichen Situationen - durch Berücksichtigung des jeweiligen Leistungskontexts;
zu erheben. - durch eine situationsbezogene Verständigung über die
Bedeutung von Fragen und Antworten (»Was hast du dir
Schon Christiani/Heller (1981) haben vorgeschlagen, dabei gedacht?«);
Klassenarbeiten und andere Leistungsproben, - durch die Kombination unterschiedlicher Leistungsformen
prozessbegleitende Lernbeobachtungen und (mündlich vs. schriftlich) und Leistungssituationen (mit/ohne
Ergebnisse standardisierter Tests Zeitdruck; selbst gewählte vs. fremd bestimmte Aufgaben;
jeweils zu etwa einem Drittel in die Leistungsbeurteilung individuelle vs. Gruppen-Arbeit).
einzubeziehen.
Wichtig ist dabei die mehrfach eingeforderte Entwicklung
Die stärkere Einbeziehung standardisierter Tests ist ein plau- von Schreibstandards321 und das Gespräch mit SchülerInnen
sibler Vorschlag, um die Schwierigkeiten personabhängiger und Eltern über Kriterien und Form der Berichte: »Die
Beobachtungen zu verringern. Im Anschluss an die interna- Schülerinnen und Schüler - und nicht zuletzt deren Eltern -
tionalen Leistungsvergleiche werden beispielsweise landes- müssen über die Kriterien der Lernberichte, die Schreib-
weite Lernstandserhebungen propagiert. Als Vorteile werden standards und die Sprachregelungen sowie die Gewichtung
genannt318: der Dimensionen aufgeklärt sein. Sie müssen die Sprache
Vorhersehbarkeit der Anforderungen für die SchülerIn- der Lernberichte eindeutig entschlüsseln könne, sollen diese
nen, wenn der Inhalt von Leistungsproben klar definiert ist den Anspruch der fördernden Evaluation des Lernprozesses
(allerdings mit der Gefahr eines bloßen »learning for the gegenüber dem Lernenden Genüge tun.«322
test«); Was die Validität, Objektivität und Reliabilität der Wahr-
Berechenbarkeit der Bewertung unabhängig von person- nehmungen und Bewertungen durch eine Lehrperson betrifft
abhängigen Einschätzungen; unterliegen die beiläufigen Beobachtungen, anders als Tests.
Einstufung der Leistungen mit Bezug auf repräsentative Zudem scheint die Versuchung groß, ausformulierte Beur-
(Teil-)Stichproben, so dass der Rangplatz eines Schülers teilungen mit Hilfe von Textbausteinen als bloß verbale Über-
unabhängig wird vom Leistungsniveau seiner Klasse. setzung von Noten zu gestalten323.
Beurteilungen müssen deshalb in Gespräche eingebettet
Über diese Erweiterung der Vergleichsperspektive hinaus werden324, die Rückfragen erlauben und Gegenperspektiven
eröffnen Tests die Möglichkeit,
durch die Zuordnung konkreter Leistungen zu Kompe- 318 Vgl. Bremerich-Vos u.a. (2005). In dieser Nutzung besteht auch
tenzstufen deren Annäherung an gesetzte Lernziele zu eine sinnvolle Funktion zentraler Lernstandserhebungen - jedenfalls
wenn sie LehrerInnen Optionen für die Auswahl von Instrumenten eröff-
bestimmen (Kriteriumsorientierung) und
nen, die für ihren Unterricht aufschlussreich sind (vgl. Brügelmann
bei Wiederholung der Tests individuelle Lernfortschritte
2003b).
auszuweisen (Entwicklungsorientierung). 319 Vgl. > Kap. 1 und zur Fehleranfälligkeit des Test»geschäfts«
(bezogen auf die langjährigen Erfahrungen in den USA): Rhoades/
Allerdings besteht die Gefahr, die Leistungsfähigkeit von Madaus (2003).
Tests zu überschätzen319. Sie erfassen die Leistung nur 320 Vgl. dazu die konkreten Hilfen vor allem in Bambach u.a. (1996);
Vierlinger (1999); Winter (2004); Bartnitzky u.a. (2005; 2006); Becker u.a.
punktuell, ausschnitthaft und je nach Aufgabe in einer sehr
(2006); Brunner u.a. (2006), speziell für die Schriftsprache bei Brinkmann/
spezifischen Form. Hier hat das zentrale »Institut für Qualität Brügelmann (1993); Naegele/Valtin (2003); Dehn/Hüttis-Graff (2006);
im Bildungswesen« (IQB) in Berlin einige Entwicklungsarbeit für Mathematik bei Hengarter (1999); Sundermann/Selter (2005; 2006);
zu leisten, um auch nur das Niveau zu erreichen, auf dem für die Sekundarstufe bei Beutel/Vollstädt (2000); Winter u.a. (2002);
etwa das niederländischen CITO-Institut Schulen Instrumente Paradies u.a. (2005).
321 Vgl. Beutel (2005, 41, 110-115).
zur Evaluation von Unterricht anbietet (nicht vorschreibt!).
322 Lübke (1996, 217 f.).
Das setzt voraus, dass Fachdidaktik und Unterrichtspraxis
323 Vgl. etwa www.schulbericht.de, aber auch die verbreiteten
gewichtig an der Entwicklung von Aufgaben beteiligt werden. Konkordanzlisten für Arbeitszeugnisse in der freien Wirtschaft, z.B. bei
Selbst dann bleibt zu bedenken, dass Tests nur bestimmte Weuster/Scheer (2005).
Leistungstypen erfassen können und dass ihre Ergebnisse 324 Vgl. dazu Gramsch/Krause-Hotopp (2003).
54
einbeziehen. Dies erfordert auch einen Wechsel von hierar- 6.5
chischen zu dialogischen Formen der Leistungsbewertung
(> Kap. 6.4). In dialogischer Form sollten Fremd- durch
6.4 Selbsteinschätzungen ergänzt werden
Bewertungen müssen auf unterschiedliche Ernest House329 hat bereits vor 25 Jahren die Fixiertheit der
Bezugsnormen bezogen werden Evaluationsdiskussion auf die klassischen Gütekriterien
der Validität, Objektivität und Reliabilität als unzulässige Ver-
Die verschiedenen Bezugsnormen haben alle ihre Berechti- kürzung der Anforderungen an eine angemessene Dokumen-
gung - jeweils für spezifische Funktionen325. Wenn es darum tation und Bewertung von pädagogischen Programmen und
geht, Lernende zu motivieren326 und konkrete Vorschläge Aktivitäten beklagt. Er sieht Evaluation als einen sozialen
für ihre Förderung zu entwickeln, müssen allerdings die indi- Prozess, in dem es auch um Macht und um Gerechtigkeit
viduelle und lernzielorientierte Norm im Vordergrund stehen. geht. Glaubwürdigkeit, Unparteilichkeit, Fairness sind des-
Für die Rückmeldung des Lernerfolgs ist es deshalb halb für ihn Standards, denen Evaluationen gerecht werden
wichtig, Fortschritte - bezogen auf die individuellen Voraus- müssen. Es geht um mehr als um technische Präzision.
setzungen - zu dokumentieren (Entwicklungsnorm). Ergän- Die Möglichkeiten der Erkenntnis im pädagogischen Feld
zend sollte der Leistungsstand als Grad der Annäherung an beschränken sich auf Wahrscheinlichkeiten; ihr Ergebnis sind
die Lernziele ausgewiesen werden. Leistungsstandards327 persönliche Entscheidungen, nicht logische Folgerungen.
haben dafür eine wichtige Funktion: nicht um vorzuschreiben, Dies gilt besonders für die Beurteilung individueller
welche Leistungen von allen SchülerInnen zu einem be- Leistungen. Die Subjektivität auch des professionellen Urteils
stimmten Zeitpunkt zu erbringen sind. Das ist eine illusionäre lässt sich nicht vermeiden. Im Sinn einer wohlwollenden
Erwartung328. Hilfreich können sie aber sein, um das Niveau Empathie ist sie sogar erforderlich, wenn die Rückmeldung
der individuell erworbenen Kenntnisse und Fähigkeiten so zu zu Leistungen auf deren Förderung zielt. Anders bei Be-
beschreiben, dass Lernfortschritt und Lernanforderungen wertungen, die eine Ausweisfunktion haben. Hier ist eine
gleichermaßen sichtbar werden. Kontrolle persönlicher Wahrnehmungen und Deutungen
Für die Zulassung zu einem Lernangebot oder einer zwingend geboten. Tests können zwar auch dort persönliche
Berufstätigkeit reicht es in der Regel aus zu prüfen, ob Be- Einschätzungen nicht ersetzen, sie sollten aber - als zu
werberInnen die Anforderungen der aufnehmenden Einrich- interpretierende Daten - in diese einbezogen werden. Die
tung erfüllen. Auch für die Schulfächer lassen sich solche auch hierbei nicht vermeidbare Subjektivität lässt sich aber
Minimalanforderungen (evtl. in gestufter Form) formulieren. in Verbalgutachten - anders als in Ziffernnoten - transparent
Erbracht werden die entsprechenden Leistungsnachweise machen. Und sie kann sozial kontrolliert werden, indem
von einzelnen SchülerInnen, wenn sie sich sicher fühlen. mindestens das für Prüfungen übliche »Vier-Augen-Prinzip«
»Rechenpass«, »Rechtschreibausweis« oder »Computer- angewandt wird330.
führerschein« sind Instrumente, um solche Basiskompe- Diese Vorschläge - und ihre Diskussion in der Literatur -
tenzen auszuweisen. nehmen eine Voraussetzung als gegeben hin: SchülerInnen
Muss aus einer zu großen Zahl von KandidatInnen aus- werden durch LehrerInnen beurteilt. Diese Annahme ist
gewählt werden, lässt sich durch Vergleich ihrer unterschied- aber nicht selbstverständlich331. Zudem hat sich der Ansatz
lichen Leistungsniveaus entscheiden. Allerdings kann es einer Beurteilung »von oben« als grundsätzlich problema-
auch hier bedeutsam sein, wo jemand mit dem erreichten tisch herausgestellt.
Niveau im Verhältnis zur Gesamtgruppe steht, so dass ein
Ausweis des Prozentrangs bestimmter Kompetenzniveaus
(Rangplatz auf einer Skala von 1 bis 100) ergänzend hilf- 325 Vgl. oben > Kap. 2 und Klauer (1987).
reich wäre. 326 Vgl. Rheinberg (2001, 69) und > Kap. 2.3.
Prozentränge aus standardisierten Tests dürfen allerdings 327 Vgl. zur Notwendigkeit, verschiedene Funktionen von Standards
nicht unkommentiert stehen bleiben. Ähnlich wie Noten könn- genau zu trennen: Klieme u.a. (2003, 81ff.).
328 Vgl. Brügelmann (2005a, Kap. 46-49).
ten sie eine Verbindlichkeit der Einordnung suggerieren, die
329 Vgl. House (1980, 65 ff.) und neuerdings wieder Winter (2004, 91-95).
bei ihrer inhaltlichen und zeitlichen Ausschnitthaftigkeit nicht
330 Allerdings darf nicht übersehen werden, dass eine gemeinsame
gerechtfertigt wäre. Auch diese Zahlenwerte bzw. Abwei- Beratung von Noten, wie bei mündlichen Prüfungen, eigene gruppen-
chungen von anderen Einschätzungen müssen also erläutert dynamische Effekte entfalten kann, in denen sich z.B. der Status einzel-
werden. ner Beteiligter gegen fachliche Kriterien durchsetzen kann (vgl. dazu u.a.
Die Gruppennorm sollte im Übrigen eher indirekt wirksam die ethnografische Studie von Kalthoff 1996, 118-120). Auch in unserer
eigenen Auswertung des Notenniveaus verschiedener Prüfer-Teams
werden: Bei der Bestimmung von Mindestanforderungen
zeigte sich diese wechselseitige Beeinflussung durch KollegInnen (vgl.
für eine Tätigkeit (z.B. Führerschein) wird neben normativen Brügelmann 2000b).
Setzungen eine Rolle spielen, wie viele Personen erfahrungs- 331 Vgl. grundsätzlich Winter (1991) und Wehr (1992) mit vielen kon-
gemäß welches Leistungsniveau erreichen. kreten Vorschlägen für die Grundschule.
55
So sind dialogische Formen wichtig, um den Kindern bei Inzwischen liegen vielfältige Ideen, Hilfen und Erfahrun-
der Entwicklung von sachangemessenen Kriterien zu helfen. gen für eine Stärkung der Selbsteinschätzung im Unterricht
Morys (2006) stellte in ihrer Studie Leistungsselbstsicht von vor342. Zu ihnen zählen selbst erstellte und von der Lehr-
Grundschulkindern überraschend fest, dass die befragten person kommentierte Portfolios eigener Arbeiten, Lerntage-
Kinder sich in ihrer Selbsteinschätzung einerseits überwie- bücher, Kriterienraster für die Selbstbewertung in einzelnen
gend an Leistungsrückmeldungen aus der Familie orientier- Fächern usw.343. Winter344 hat in verschiedenen Publika-
ten und andererseits keinen Bezug auf eine differenziertere tionen Prinzipien und konkrete Alternativen der Leistungs-
Rückmeldung von LehrerInnen nahmen (vielleicht nicht neh- dokumentation vorgestellt, die eine »neue Lernkultur« beför-
men konnten, weil es diese nicht gab?)332. dern können. Im Zentrum steht für ihn das Portfolio, das
Außerdem zeigen Studien zur Wirkung von fremd be- in sehr unterschiedlicher Weise ausgestaltet sein und damit
stimmten Belohnungen auf Motivation und Leistung von auch verschiedene Funktionen erfüllen kann. Folgende
SchülerInnen und anderen Personengruppen höchst negati- Erträge sieht er als möglichen Gewinn345:
ve Effekte. Deutlich wird das in einem Versuch von Grolnick/ - Das Portfolio hilft, die Ziele zu klären und Kriterien zu
Ryan (1987)333: Eine Gruppe arbeitete in der Vorstellung, formulieren
dass anschließend eine externe Leistungskontrolle334 statt- - Portfolioarbeit öffnet den Kreis der Leistungsnachweise
finden werde, die anderen erhielten die Informationen, die - Fähigkeiten zur Reflexion und Bewertung werden gefördert
Prüfungen dienten nur zur eigenen Rückmeldung und hätten - Portfolioarbeit führt zu vielen inhaltlichen Aussagen und
keinen Einfluss auf die Benotung. Die Gruppe mit Leistungs- Rückmeldungen
druck unterschied sich von der zweiten Gruppe in mehr- - Das Portfolio ist ein aussagekräftiges Leistungsdokument
facher Hinsicht, und zwar durch - Portfolios schaffen Voraussetzungen für öffentliche
Bekundung von weniger Interesse bei der Arbeit, Leistungswahrnehmung und demokratische Rechen-
geringere Einschätzung ihrer fachlichen Kompetenz, schaftslegung
größere Angst, - Portfolios ermöglichen veränderte Prüfungen und
schlechtere Leistung in drei von fünf Zwischenprüfungen, Aufnahmeverfahren.
schlechtere Leistung in der Schlussprüfung.
Die Übersicht macht deutlich, dass die Funktionsüberlast von
Für Aufsätze hat schon Merkelbach (1986) ein Verfahren Noten entzerrt werden kann, wenn man verschiedene For-
dialogischer Bewertung vorgeschlagen. Gegen Bedenken, men der Beschreibung und Bewertung von Leistungen nutzt.
Kinder könnten ihre Leistungen nicht beurteilen, sprechen die Reich (2003 ff.) hat die Forderung nach einer Kombi-
Daten aus der Studie von Beutel (2004), in der sie fast 150 nation von verschiedenen Elementen in sein Konzept für
Kinder zu ihren Zeugnissen befragt hat. Ihr Fazit: »Kinder eine systemische Leistungsbeurteilung aufgenommen und
sind ›Experten‹ ihres Lernens. Sie haben, das erweist die im folgenden Schaubild übersichtlich zusammengefasst:
Studie, ein höheres Bewusstsein von ihren Lernfortschritten
und -defiziten, als dies die Pädagogik im Schulalltag üblicher-
weise unterstellt.«335
Dieser Befund passt zu den Erfahrungen der Kindheits-
332 A.a.O., 310, 329.
forschung der letzten zehn Jahre, die Kinder zunehmend 333 Zusammengefasst nach Deci/Ryan (1993, 234); vgl. ergänzend
als ExpertInnen ihrer eigenen Lebenswelt wahrnimmt und in > Kap. 3.2.3.1 und zusammenfassend zur Selbstbestimmungstheorie der
die Untersuchungen einbezieht336. Parallel dazu wurden Motivation den Überblick über verschiedene Studien bei Deci/ Ryan
Konzepte eines Unterrichts entwickelt, der Kindern als Schü- (1993) und Ryan/Deci (2000).
334 Die Ergebnisse von fünf Zwischenprüfungen dienten zur offiziellen
lerInnen mehr Verantwortung zugesteht337 und sie damit
Benotung eines wichtigen Schulfachs.
auch in die Beurteilung ihrer Arbeiten und Leistungsentwick- 335 Beutel (2004, 231); s.a. Beutel/Vollstädt (2002).
lung einbezieht338. 336 Vgl. u.a. Zinnecker (1995); Honig u.a. (1996); Heinzel (2000);
Aber werden Kinder durch eine solche Verantwortung Panagiotopoulou/Brügelmann (2003).
nicht überfordert - zumindest im Grundschulalter? Morys 337 Vgl. u.a. die Zusammenfassung bei Peschel (2002a+b).
338 Vgl. u.a. Winter (1991); Konrad (1997); Arnold (1999).
(2006, 331) empfiehlt, die Aufgabe, sich selbst realistisch
339 Mit Bezug auch auf Graf (2004), die in ihrer Studie ebenfalls eine
einzuschätzen, an konkrete Leistungssituationen anzubin-
»werkorientierte Selbsteinschätzung« fordert (a.a.O., 314).
den, also die erforderlichen Fähigkeiten mit unmittelbarem 340 Zum Beispiel zu der Frage »Wie gut kannst du lesen?«
»Werkbezug«339 zu entwickeln. In ihren Interviews mit über (a.a.O., 304-305, 311, 332-333).
70 Zweit- bis Viertklässlern stellt sie zwar bei leistungs- 341 A.a.O., 306-307.
schwachen SchülerInnen fest, dass diese sich oft überschät- 342 Vgl. u.a. Bambach u.a. (1996); Winter u.a. (2002); Bartnitzky
(2004); Bartnitzky u.a. (2005; 2006) und zu einer positiven Evaluation in
zen. Das gilt aber nur bei allgemeinen Urteilen340, während
der Schweiz schon Iten/Theiler (1993).
sie bei konkreten Leseaufgaben gelungene Stellen und 343 Vgl. etwa die Beiträge zu Bartnitzky/Speck-Hamdan (2004).
Schwierigkeiten angemessen wahrnehmen und bewerten 344 Winter u.a., (2002); Winter (2004); Brunner u.a. (2006).
können341. 345 Winter (2006).
56
Abb. 8 Die Betonung in der konstruktivistischen Didaktik orientiert sich vor diesem Hintergrund
an einer systematischen Notengebung, die vor allem aus drei Bereichen besteht:
Systematische Notengebung
In der kanadischen Provinz Ontario wird ein solches System In welchem Maße ähnliche Vorstellungen auch in den
bereits seit längerem verwirklicht346 (Seiten des Erziehungs- Schulen politisch durch- und praktisch umgesetzt werden
ministeriums in Ontario, Kanada): können, hängt von grundlegenden Veränderungen im Bil-
Zeugnisse gibt es dreimal im Jahr. dungswesen ab. Wenn Selektionsentscheidungen nicht - wie
Sie dienen als Gesprächsgrundlage für Lehrer, in anderen Ländern üblich - zeitlich weiter aufgeschoben
Eltern, Schüler. werden348, überlagert der Auslesezwang das zumindest für
Ergänzend hierzu sollen Aufzeichnungen über die Grundschule zentrale Förderinteresse - und Verände-
Gespräche und Telefonate mit Eltern und Schülern sowie rungen der Beurteilungsverfahren bleiben Kosmetik.
Schülerarbeiten berücksichtigt werden. Unter dem Gesichtspunkt der Akzeptanz in der Praxis
Zwei Ziele der Zeugnisse: Berichtfunktion entsprechend scheint zurzeit eine Kombination von Ziffern und verbalen
den Curriculumvorgaben der Provinz Ontario und Anbahnen Kommentaren als Zwischenschritt am ehesten Erfolg zu ver-
der Kompetenz zur Weiterentwicklung auf Seiten des sprechen. Aber auch dann sind pragmatisch Zwischen-
Schülers. lösungen denkbar, die allen Beteiligten Gewinn bringen. So
Fester Zeugnisbestandteil ist eine Seite mit Kommen- könnte das jährliche Versetzungszeugnis (bestehend aus
taren und Stellungnahmen zu der Lehrerbeurteilung durch Ziffernnoten und deren Deutung und Begründung) verbunden
Eltern und den Schüler. werden mit einem Gespräch zum Schulhalbjahr zwischen
Neben den Zeugnissen werden schriftliche Lernverein- KlassenlehrerIn, SchülerIn, Eltern. Hier sollte es um Lern-
barungen getroffen. Hier schreiben die Schüler auf, was sie bereitschaft/-ergebnisse/-nöte/-defizite und daraus zu ziehen-
schon gut können, was sie lernen möchten, was sie selbst de Konsequenzen gehen, die ggf. in einem »Lernvertrag«
zur Verbesserung beitragen wollen und welche Hilfe sie sich für das zweite Schulhalbjahr festzuhalten sind. Selbst dann,
vorstellen. Eltern und Lehrer schreiben ihre Stellungnahme wenn das Gespräch den schriftlichen Entwicklungsbericht
hierzu auf dasselbe Formular. nicht ersetzt, sondern kommentiert würde es seine Abfas-
sung entlasten - weil er nicht für sich allein stünde und weil
Die zentrale Stoßrichtung für eine ernsthafte Reform der er durch die Sichtweise des Kindes und der Eltern relativiert
Leistungsbeurteilung müsste also sein, dass eine hierarchi- werden könnte.
sche Bewertung ersetzt wird durch dialogische Formen
der Verständigung über die Qualität von Leistungen347. Ermu-
346 Vgl. die Informationen zur Zeugniserstellung und Zeugnisformulare
tigen können dabei Veränderungen in der freien Wirtschaft, für alle Altersstufen (in französischer, aber auch englischer Sprache >
wie sie Landmesser u.a. (2003, 23) feststellen: »Die Mitar- www.edu.gov.on.ca/fre/document/forms/report/1998/report98f.html#elem
beiterinnen und Mitarbeiter sind für ihre eigene Entwicklung [Abruf: 27.2.2006].
zunehmend selbst verantwortlich. Sie werden zu Unterneh- 347 Vgl. die konkreten Vorschläge in Bartnitzky u.a. (2005). Diese
Materialien machen deutlich, dass sich Ansprüche wie die Kombination
mern ihrer eigenen Talente und Fähigkeiten. Der Personal-
von Selbst- und Fremdbeurteilung oder die Berücksichtigung verschiede-
entwicklungsbereich war früher Vollstrecker, Administrator ner Bezugsnormen auch in alltagstauglichen Formen umsetzen lassen.
und Planer, er entwickelt sich heute zunehmend zum Berater 348 Diese Forderung wird zunehmend auch von Nicht-Pädagoginnen
für Laufbahn und Lernen.« erhoben, vgl. etwa Sinn (2006).
57
7 nen haben also mindestens eine der folgenden Maßnahmen
erlebt: Zurückstellung am Schulanfang; Nichtversetzung;
Fazit und bildungspolitische Bewertung Überweisung in die Sonderschule; »Abschulung« in eine
niedrigere Schulform. Das bedeutet: »Kinder mit eher schwa-
Harlen (2004a, 7) resümiert die angelsächsische Forschung chen Leistungen machen häufig Misserfolgserfahrungen
zur Validität und Reliabilität verschiedener Erhebungsverfah- und werden schließlich in Hauptschulen oder Sonderschulen
ren und Bewertungsformen u.a. in den folgenden Punkten349: eingewiesen. Dort treffen sie ganz überwiegend auf Mit-
schüler/innen mit gleichem Schicksal. Es lässt sich empirisch
Wenn über Beurteilungsverfahren entschieden wird, dür- nachweisen: In solchen Gruppen der Negativauslese ist das
fen die Grenzen externer Prüfungen und nationaler Tests Anregungspotential dürftig, ist der Kompetenzerwerb gering
nicht übersehen werden. (vgl. Schümer 2004), ist eine schul- und lerndistanzierte
Die grundlegenden und wichtigen Unterschiede von Haltung weit verbreitet.« (a.a.O., 17).
Lehrerurteil und Test müssen respektiert werden, indem man Man muss insofern eine mehrfache Benachteiligung von
aufhört, die Qualität des Lehrerurteils über den Grad seiner Kindern aus anregungsarmen Elternhäusern konstatieren352:
Übereinstimmung mit Tests zu bestimmen. Je höher der sozio-ökonomische Status der Eltern ist,
Für die Beurteilung sind Kriterien zu entwickeln, die sich umso anregungsreicher sind die Lernmöglichkeiten ihrer
auf die Ziele des Unterrichts und nicht nur auf spezifische Kinder vor der Schule, so dass sie bessere kognitive Voraus-
Aufgaben beziehen. So kann LehrerInnen geholfen werden, setzungen in die Schule mitbringen.
ein tieferes Verständnis der Ziele von Unterricht zu gewinnen Weil Stadtviertel sich in ihrer sozio-ökonomischen Zu-
und die Beurteilung besser auf diese abzustimmen. sammensetzung stark unterscheiden353, kommen sie in der
LehrerInnen brauchen mehr Aus- und Fortbildung, die Regel auch in eine Lerngruppe, die durch die Herkunft der
sie für die Risiken der Leistungsbewertung sensibilisiert und anderen Kinder ebenfalls ein anregenderes Milieu bietet.
auf ihre unterschiedlichen Funktionen vorbereitet350. Deshalb entwickeln sich auch ihre Leistungen über die
Kontinuierliche wechselseitige Abstimmung von Kriterien Grundschulzeit hinweg besser - und damit ihre Chancen auf
im Austausch über konkrete Bewertungsversuche hilft den Besuch einer höheren Schulform in der Sekundarstufe.
LehrerInnen, Klarheit über die Ziele von Unterricht und dar- Selbst wenn Kinder am Ende der Grundschulzeit ver-
auf bezogene Beurteilungskriterien zu gewinnen351. gleichbare Leistungen erreichen, ist ihr Zugang zu einer
höheren Schulform umso wahrscheinlicher, je höher der
Unser Fazit zur Ausgangsfrage »Sind Noten nützlich - und soziale Status der Eltern ist: Sie erhalten häufiger eine Em-
nötig?« fällt ähnlich kritisch aus. Noten erfüllen die Erwartun- pfehlung für das Gymnasium und ihre Eltern folgen dieser
gen ihrer Befürworter nicht: Empfehlung auch eher. Diese Entscheidung ist deshalb
- Sie sind nicht valider, objektiver und zuverlässiger als bedeutsam, weil sich die Leistungen in der Sekundarstufe
andere Beurteilungsformen. auch bei gleichen kognitiven Voraussetzungen und gleichem
- Die beanspruchte Vergleichbarkeit ist durch den in der sozialen Status der Eltern umso besser entwickeln, je höher
Regel üblichen Bezug auf den Klassendurchschnitt und die die besuchte Schulform ist.
unvermeidlichen Beurteilungsfehler sehr eingeschränkt. Aber auch wenn Kinder mit vergleichbaren Grundschul-
- Ziffernnoten erfüllen die verschiedenen Funktionen der leistungen in dieselbe Schulform wechseln, fällt der Lern-
Leistungsbeurteilung (Motivation, Information) nicht besser, erfolg innerhalb dieser Schulform umso besser aus, je höher
zum Teil sogar schlechter als andere Formen der
Rückmeldung. 349 Auswahl und deutsche Zusammenfassung: Hans Brügelmann.
350 Die sieht Stiggins (1999, 198) auch für die USA als Schlüssel zur
Wenn Noten im Schulalltag trotzdem so viel Zustimmung
Steigerung des Ertrags von Leistungsbewertungen für den Lernprozess
finden, hängt dies vermutlich damit zusammen, dass sie der SchülerInnen - vor allem mit Hinweis auf die Mängel der Alltags-
SchülerInnen und Eltern vertraut sind. Für LehrerInnen ist praxis, wie sie Crooks (1988) dokumentiert hat (a.a.O., 194). Vgl. analog
ihre Vergabe außerdem mit einem geringeren Arbeitsauf- für Deutschland Jürgens (1998b, 191-192); Valtin (2002c).
wand verbunden als das Schreiben von Verbalgutachten. 351 Zu dem Ergebnis, dass punktuelle Fortbildungen nicht ausreichen,
kommt auch Inckemann (2004) aufgrund ihrer Versuche zum Schrift-
Schließlich suggeriert ihre leichte Verrechenbarkeit eine
spracherwerb.
Vereinfachung von Selektionsentscheidungen. Diese haben
352 Vgl. Brügelmann (2005a, 128) und speziell zu den Filtern beim
im deutschen Schulsystem eine hohe und im Vergleich zu Übergang in die Sekundarstufe, die je nach sozialer Herkunft den in No-
anderen Ländern erheblich höhere Bedeutung. ten und Tests erfassten Leistungen unterschiedlich stark widersprechen:
Klaus-Jürgen Tillmann (2004, 10, 16) hat anhand der Elternwunsch > Lehrerempfehlung > Elterentscheidung: Ditton (1992,
PISA-Daten vorgerechnet, dass am Ende der Grundschulzeit 132); Lehmann u.a. (1997, 89-102); Bos u.a. (2004b, 211-214); Geißler
(2004, 18-19); OECD (2005, 89); zusätzlich wirkt sich der ethnische
nur noch rund 80% der SchülerInnen eine Klasse ihres
Hintergrund aus, vgl. Stallmann (1999, 254); Ditton u.a. (2005, 293, 295).
Einschulungsjahrgangs besuchen und dass es unter den 353 Vgl. zur hohen Bedeutung dieser Kontextbedingungen, die wesent-
15-Jährigen kaum mehr als 60% sind, die eine »glatte« lich stärker für Leistungsunterschiede zwischen Schulen verantwortlich
Schullaufbahn aufweisen können. Fast 40% der SchülerIn- sind als schulinterne Bedingungen: OECD (2005, 88).
58
der sozio-ökonomische Status der Eltern ist, da sie u.a. ihre de »Offenheit« für die individuell unterschiedliche Entwick-
Kinder besser unterstützen können. lung von Kindern gewährleisten. Gleiche Anforderungen
Gesteuert werden die innerschulischen Ausleseprozesse für alle zum selben Zeitpunkt verletzen das »Recht auf
durch Noten. Diese sind offensichtlich nicht in der Lage, Eigenaktivität und Selbstbestimmtheit des Kindes« (ebda).
unterschiedliche Fähigkeiten zureichend genau auszuweisen. Eine Diskussion der Noten nur als »nützliches« oder
Leistungen und ihre Beurteilung werden überlagert durch »nötiges« Mittel der Leistungsbeurteilung greift demnach zu
andere Faktoren, vor allem durch den Einfluss der sozialen kurz. Problematisch werden sie durch ihre Instrumentali-
Herkunft, den sie doch ersetzen sollen (vgl. > Kap. 0.3). sierung als Auslesefilter. Der Verweis der National Coalition
In Deutschland und Österreich stellt sich dieses Problem auf die UN-Kinderrechtskonvention macht die gesellschafts-
wegen der extrem frühen Aufteilung der SchülerInnen auf politische und völkerrechtliche Dimension der Notenfrage
verschiedene Bildungswege mit besonderer Schärfe. Eine unmissverständlich klar: »Die ausdrückliche Hervorhebung,
frühe Selektion ist unproduktiv, wie die niedrigeren Durch- dass das Recht des Kindes auf Bildung ›auf der Grundlage
schnittsleistungen im PISA-Vergleich zeigen354. Damit ist sie der Chancengleichheit‹ zu verwirklichen sei, unterstreicht,
auch ökonomisch verschwenderisch: Dringend benötigte dass Deutschland in diesem Punkt nicht nur bildungs-
Kompetenzressourcen werden verschenkt. Die Bindung der politisch, sondern auch völkerrechtlich im Abseits steht.«
Selektion an Noten erweist sich als ineffektiv, weil die bean- (a.a.O., 2).355
spruchte Trennung nach Fähigkeiten nicht funktioniert - zu- Damit wird aber auch deutlich, dass eine »Reparatur«
mindest wenn man die Testleistung als Maßstab nimmt. Auch technischer Schwächen von Noten nicht ausreicht, um die
dies belegen die PISA-Daten: »So würden - um nur ein Bei- Probleme der Leistungsbewertung zu lösen. Sicher: Verbal-
spiel zu nennen - die 10% Besten in der Hauptschule im Gym- gutachten können Leistungen, ihre Ursachen und konkrete
nasium zum mittleren Leistungsbereich gehören. Und knapp Fördermöglichkeiten differenzierter ausweisen. Als entwick-
die Hälfte der 15-Jährigen in Realschulen überschneiden sich lungsorientierte Beschreibung von Lernverläufen machen sie
in ihren Leistungen mit den Heranwachsenden in den Gym- Fortschritte und damit die individuelle Leistung des einzelnen
nasien (vgl. Artelt u.a. 2001, S. 121).« (Tillmann 2004, 14). Kindes besser sichtbar als eine Benotung im Vergleich mit
Damit ist die Gerechtigkeitsfrage gestellt. Denn dass anderen. Die Einbeziehung verschiedener PrüferInnen und
Noten ihre Funktion als Selektionsinstrument nicht wirksam auch standardisierter Aufgaben können helfen, die Validität,
erfüllen, ist nur die eine Seite der Medaille. Zugleich verlet- Objektivität und Reliabilität von Beurteilungen zu verbessern,
zen sie auch das Recht des einzelnen Kindes auf Chancen- indem sie informelle Leistungsproben ergänzen. Der punktu-
gleichheit und bestmögliche Förderung seines individuellen elle Einsatz normierter Tests ermöglicht LehrerInnen zudem,
Potenzials. Die Kritik der »National Coalition für die Umset- die vergleichende Bewertung von Leistungen über den
zung der UN-Kinderrechtskonvention in Deutschland« (2005) Durchschnitt der jeweiligen Klasse hinaus auf repräsentative
am schulischen Bewertungssystem macht sehr deutlich, dass Stichproben zu beziehen und damit ihre eigenen Maßstäbe
eine nur systemimmanente Bewertung der Effektivität von zu überprüfen.
Noten zu kurz greift: »Die im Vordergrund internationaler Eine andere Bedeutung und Wirkung gewinnen Bewer-
Kritik stehende Bildungsbenachteiligung durch soziale Un- tungen - in gleich welcher Form - aber erst, wenn sich ihre
gleichheit ist nicht nur Ausdruck eines strukturellen Mangels Funktion ändert. Solange die Selektionsfunktion im System
an Chancengerechtigkeit im gegliederten Schulsystem dominiert, werden eine stärkere Motivation der leistungs-
Deutschlands, sondern untergräbt das Recht auf Bildung schwächeren SchülerInnen und eine differenziertere Förde-
jedes einzelnen betroffenen Kindes. [...] Die Leistungs-
bewertung durch Zensuren als Grundlage eines Berechti- 354 Vgl. die letzte Auswertung von PISA-2000 durch die OECD (2005,
89, 93, 94) selbst und die dort deutlich formulierte Kritik einer frühen Se-
gungssystems ist pädagogisch fragwürdig; es verkürzt auch
lektion, auch wegen der auf diesem Weg verstärkten sozialen Selektion.
den Anspruch des Kindes auf Würdigung als eigenständige 355 Die gelegentlich umstrittene unmittelbare Geltung der UN-Kinder-
Persönlichkeit. Jedes Kind hat Anspruch darauf, dass seine rechtskonvention für innerstaatliche Maßnahmen ist durch ein Rechts-
Leistungen an seinem individuellen Vermögen, und nicht gutachten von Lorz (2003) geklärt. Danach ist Art 3 der Konvention
an abstrakten Regeln gemessen werden. [...] Einseitige - unmittelbar anwendbare Völkerrechtsnorm;
- die nicht nur den Gesetzgeber, sondern auch die Rechtsanwender
Orientierung an Gesichtspunkten der Verwertbarkeit führt
verpflichtet,
jedoch zu einer Verkürzung der Bildungsziele, die die
- auch wenn aus ihr keine konkreten Leistungsansprüche herleitbar sind,
Subjektstellung des Kindes und dessen allseitigen Bildungs- - begründet sie eine Klagebefugnis gegen belastende Maßnahmen und
anspruch unterminiert. [...] Die Vorgaben der Lehrpläne - einen Anspruch auf ermessensfehlerfreie Entscheidung über alle auf
führen in Verbindung mit dem Bewertungs- und dem gekop- innerstaatliches Recht gestützten Anträge (a.a.O., 4).
pelten Berechtigungssystem in Deutschland zu einer weit- Vor diesem Hintergrund ist auch der Deutschland-Besuch des Sonder-
berichterstatters der UN-Menschenrechtskommission, Vernor Muñoz, im
gehenden ›Enteignung des Lernens‹ durch Fremdbestim-
Februar 2006 zum Thema »Recht auf Bildung« zu sehen (vgl. Kaube
mung.« (a.a.O., 2, 6) 2006 sowie Spiewak 2006 und die Berichterstattung in den Tages-
Mit dem letzten Teilsatz nimmt die National Coalition aus- zeitungen vom 22.2.2006 zum abschließenden Pressegespräch des
drücklich Bezug auf Bildungsstandards, die keine zureichen- UN-Kommissars).
59
rung ihres Lernens nicht erreicht werden können. So machen 8
die US-amerikanischen Erfahrungen mit high-stakes testing
darauf aufmerksam, dass eine Sanktionierung von schlech- Literaturnachweise, weiterführende Literatur361
ten Ergebnissen in Leistungsvergleichen pädagogisch kon- und Abbildungsverzeichnis
traproduktiv ist356: Einengung des Curriculum auf die »Haupt«-
fächer; kurzfristig orientiertes teaching to the test; Ausson- Ammann, C.-H. (2002): Subjektive Fehlerquellen in der Beurteilung
> www.multimedia-pflege.de/paed/beurteil/ingenk89_67.html [Abruf:
derung schwacher SchülerInnen, weil sie das Leistungsbild
7.3.2006].
beeinträchtigen. Das gilt nicht nur für Einzelpersonen, son-
Amsbeck, U. (1999): Leistungsbeurteilung ohne Noten im europäischen
dern auch für Institutionen wie Schulen. Dies haben vor Ausland. In: Grundschule, 31. Jg., H. 1, 24-26.
allem die Wirkungen des Gesetzes »No Child Left Behind« Amrein, A.L./ Berliner, D.C. (2002): High-stakes testing, uncertainty, and
gezeigt357. Erfahrungen in europäischen Ländern belegen student learning. In: Education Policy Analysis Archives, Vol.10,
darüber hinaus358, dass selektive Strukturen alle Versuche No.18. [http://epaa.asu.edu/epaa/v10n18/].
Arnold, K.-H. (1997b): Strukturelemente und Verlauf einer lernförderlichen
einer anderen Beurteilung im Ergebnis außer Kraft setzen.
Leistungsbeurteilung. Schulforschungsprojekt Nr. 87. Senator für
Darum ist auch in Deutschland eine längere gemeinsame Bildung: Bremen.
Schulzeit geboten, wie sie international längst Standard ist. Arnold, K.-H. (1999): Fairness bei Schulsystemvergleichen.Diagnostische
Dass und wie eine solche Reform erfolgreich umgesetzt Konsequenzen von Schulleistungsstudien für die unterrichtliche
werden kann, wenn sie sich nicht auf Veränderungen der Leistungsbewertung und binnenschulische Evaluation. Waxmann:
Münster u.a.
äußeren Struktur beschränkt, zeigt beispielhaft das deutsch-
Arnold, K.-H. (2001): Qualitätskriterien für die standardisierte Messung
sprachige PISA-Siegerland Südtirol359. Obwohl Italien insge-
von Schulleistungen. Kann eine (vergleichende) Messung von Schul-
samt bei PISA-2003 (Lesen) mit 476 Punkten noch schlech- leistungen objektiv, repräsentativ und fair sein? In: Weinert (2001,
ter abgeschnitten hat als Deutschland mit durchschnittlich 117-130).
491, erreichte die autonome Provinz Südtirol bei gleicher Arnold, K.-H./Vollstädt, W. (2001): Arbeits- und Sozialverhalten in der
Schulstruktur mit Platz 1 im Lesen und Platz 5 in Mathematik Schule. Möglichkeiten und Grenzen ihrer Beurteilung durch »Kopf-
noten«. In: Die Deutsche Schule, 93. Jg., H. 2, 199-209.
ein deutlich besseres Ergebnis als der deutsche Spitzenreiter
Artelt, C., u.a. (2001a): Lesekompetenz: Testkonzeption und Ergebnisse.
Bayern. Gleichzeitig arbeitete sich die Provinz gegenüber der In: Baumert u.a. (2001, 69-137).
IEA-Lesestudie (Anfang der 1990er Jahre) von einem Platz Artelt, C., u.a. (Hrsg.) (2001b): PISA 2000: Zusammenfassung zentraler
im Mittelfeld an die europäische Spitze vor und schneidet im Befunde. Berlin: Max-Planck-Institut für Bildungsforschung >
Lesen noch einen Punkt besser ab als der bildungspolitische http://www.mpib-berlin.mpg.de/pisa/ergebnisse.pdf [Abruf: 12.2.06].
Arzberger, K. (1988): Über die Ursprünge und Entwicklungsbedingungen
Wallfahrtsort Finnland - mit vollständiger Integration aller
der Leistungsgesellschaft. In: Hondrich u.a. (1988, 23-49).
behinderten Kinder, ohne Sitzenbleiben und ohne Ziffern-
Backhaus, A. (2005): Beim Lesen stolpern? Vom Stolperwörter-Lesetest
noten, stattdessen mit individuellen Aufgaben in offeneren zum Siegener Lesetest und der Testung der Leseleistung am PC. In:
Unterrichtsformen und einer Bewertung, die sich am persön- Hofmann/Sasse (2005, 128-137).
lichen Lernfortschritt orientiert360. Erfolgreicher Unterricht ist Backhaus, A. (2006): Die Zugehörigkeit zur Klasse oder das Testergeb-
also auch mit weniger Leistungsdruck möglich; und Schul- nis? Eine Mehrebenenanalyse zur Vorhersage von Noten für Lesen
und Rechtschreibung in der Grundschule. Unveröff. Arbeitspapier des
systeme können lernen, ohne Selektion auszukommen.
Projekts LUST. FB 2 der Universität: Siegen.
Backhaus, A./Moskopp, M. (2006): Der Siegener Satzlesetest. Ein
356 Vgl. zu den negativen Wirkungen von high-stakes tests, also von Vergleich von Papier- und PC-Test. Unveröff. Arbeitspapier des
Bewertungsformen, von deren Ergebnis viel für die Betroffenen abhängt, Projekts LUST. FB 2 der Universität: Siegen.
die breite empirische Evidenz in US-amerikanischen Untersuchungen, Bambach, H. (1994): Ermutigungen. Nicht Zensuren. Ein Plädoyer in
zusammengefasst u.a. bei Kohn (2000); Linn (2000); Harlen/Deakin Beispielen. Libelle: CH-Lengwil.
(2002, 4); zusammenfassend mit weiteren Nachweisen: Brügelmann Bambach, H., u.a. (Hrsg.) (1996): Prüfen und beurteilen. Zwischen
(2005, Kap. 48; 2006). Fördern und Zensieren. Jahresheft XIV. Friedrich-Verlag: Seelze.
357 Aktuell berichtet TIME Magazine (Nr. 16 vom 17.4.2006) mit dem Bangert-Drowns, R.L., et al. (1991) : The instructional effect of feedback
Titelbild »Dropout Nation«, dass rund ein Drittel der SchülerInnen die in test-like events. In: Review of Educational Research,Vol. 61, 213-238.
High School ohne Abschluss verlassen. Baron-Boldt, J. u.a. (1988). Prädiktive Validität von Schulabschlußnoten:
358 Vgl. etwa die sorgfältige Evaluation des Modellversuchs Eine Metaanalyse. Zeitschrift für Pädagogische Psychologie, 2. Jg.,
»Schülerbeurteilung und Schulentwicklung« in Liechtenstein: Roos 79- 90.
(2003, 135, 138-139). Baron Boldt, J., u.a. (1989): Prognostische Validität von Schulnoten.
359 Vgl. oben > Kap. 0.5 und die bereits dort zitierten: Höllrigl/Meraner Eine Metaanalyse der Prognose des Studien und Ausbildungserfolgs.
(2005); Leitzgen (2005); Meraner (2005); Ratzki (2005; 2006). In: Jäger u.a. (1989, 11 39).
360 Das heißt nicht, dass diese Elemente in jeder Klasse in jeder Stun- Bartnitzky, H. (1995): Stellungnahme zum Zeugniskonzept des Schul-
de optimal umgesetzt werden. Aber die pädagogischen Prinzipien weisen versuchs Bern-West. Vervielf. Ms. Bezirksregierung: Düsseldorf.
deutlich in eine andere Richtung als im deutschen Selektionssystem. Bartnitzky, H. (2004): Zeugnisse als Selbstreflexion - mit einem Vorschlag
361 In diesem Verzeichnis werden alle im Gutachten genutzten Titel für Schulen. In: Bartnitzky/ Speck-Hamdan (2004, 238-248).
nachgewiesen. Außerdem haben wir Publikationen aufgenommen, die wir Bartnitzky, H. (2005a): VERA Deutsch 2004: ungeeignet und bildungs-
zwar in die Vorarbeiten einbezogen, aber im Text nicht ausdrücklich fern. In: Grundschule aktuell, H. 89, 10-16.
zitiert haben, sowie weitere, z.B. von Dritten zitierte Veröffentlichungen, Bartnitzky, H. (2005b): »Schimpansenkinder müssen laufen lernen« -
die uns für vertiefende Analysen relevant erschienen. Lesetest in Bayern. In: Grundschule aktuell, H. 92, 25-27.
60
Bartnitzky, H./Christiani, R. (1987): Mängelkatalog für Noten. In: Neue Becker, H./Hentig, H.v. (Hrsg.) (1983): Zensuren. Lüge - Notwendigkeit -
Deutsche Schule, H. 11/1987, 4-5. Alternativen. Klett-Cotta: Stuttgart.
Bartnitzky, H./Portmann, R. (Hrsg.) (1992): Leistung der Schule - Leistung Becker, G., u.a. (2006): Diagnostizieren und Fördern. Stärken entdecken
der Kinder. Beiträge zur Reform der Grundschule, Bd. 87. Arbeitskreis - Können entwickeln. Friedrich Jahresheft XXIV. Erhard Friedrich
Grundschule: Frankfurt. Verlag: Seelze.
Bartnitzky, H./Speck-Hamdan, A. (Hrsg.) (2004): Leistungen der Kinder Behnken, I./Jaumann, O. (Hrsg.) (1995): Kindheit und Schule. Kinder-
wahrnehmen - würdigen - fördern. Beiträge zur Reform der Grund- leben im Blick von Grundschulpädagogik und Kindheitsforschung.
schule, Bd. 118. Grundschulverband: Frankfurt. Juventa: Weinheim/München.
Bartnitzky, H., u.a. (1999): Zur Qualität der Leistung. 5 Thesen zur Evalua- Bellenberg, G., u.a. (2004): Selektivität und Durchlässigkeit im allgemein
tion und Rechenschaft der Grundschularbeit. Grundschulverband - Ar- bildenden Schulsystem. Rechtliche Regelungen und Daten unter
beitskreis Grundschule e.V.: Frankfurt (auch in: Schmitt 1999, 164-198). besonderer Berücksichtigung der Gleichwertigkeit von Abschlüssen.
Bartnitzky, H. u.a. (Hrsg.) (2005): Pädagogische Leistungskultur: Materi- Arbeitsgruppe Bildungsforschung/Bildungsplanung. Universität Essen/
alien für Klasse 1/2. Beiträge zur Reform der Grundschule, Bd. 119. Duisburg: Essen.
Grundschulverband: Frankfurt. Bender, P. (2004): Die etwas andere Sicht auf den mathematischen Teil
Bartnitzky, H., u.a. (Hrsg.) (2006, i.V.): Pädagogische Leistungskultur: der internationalen Vergleichsuntersuchungen PISA sowie TIMSS und
Materialien für Klasse 3/4. Beiträge zur Reform der Grundschule, IGLU. In: GDM-Mitteilungen, H. 78, 101-108.
Bd. 121. Grundschulverband: Frankfurt. Benholz, E., u.a. (2005): Wie schwierig sind Texte aus Leistungstests?
Baumeister, R. F., et al. (2004): Exploding the self-esteem myth. In: Textverstehen mehrsprachiger Kinder . In: Grundschule aktuell, H. 92,
Scientific American, December 20, 2004 > www.sciam.com/print_ 21-24.
version.cfm?articleID=000CB565-F330-11BE-AD0683414B7F0000 Benner, D./Ramseger, J. (1985): Zwischen Ziffernzensur und pädagogi-
[Abruf: 4.2.2005]. schem Entwicklungsbericht. In: Zeitschrift für Pädagogik, 31.Jg.,151-74.
Baumert, J./Schümer, G. (2001): Familiäre Lebensverhältnisse, Bildungs- Benner, D., u.a. (Hrsg.) (1996a): Pädagogische Eigenlogiken im Trans-
beteiligung und Kompetenzerwerb. In: Baumert u.a. (2001, 323-401). formationsprozeß von SBZ, DDR und neuen Ländern. Freie Universität:
Baumert, J./Watermann, R. (2000): Institutionelle und regionale Varia- Berlin.
bilität und die Sicherung gemeinsamer Standards in der gymnasialen Benner, D., u.a. (1996). Bildung und Schule in Transformationsprozess
Oberstufe. In: Baumert u.a. (2000b, 317-372). von SBZ, DDR und neuen Ländern - Untersuchungen zu Kontinuität
Baumert, J., u.a. (1994): Das Bildungswesen in der Bundesrepublik und Wandel. Berlin: Freie Universität: Berlin.
Deutschland. Max-Planck-Institut für Bildungsforschung - Arbeitsgruppe Bennett, R.E, et al. (1993): Influence of behaviour, perceptions and
Bildungsbericht. Rowohlt-Sachbuch 9193: Reinbek. gender on teachers’ judgements of students’ academic skill. In: Journal
Baumert, J., u.a. (Hrsg.) (2000b): TIMSS/III. Dritte Internationale Mathe- of Educational Psychology Vol. 85, 347-356.
matik- und Naturwissenschaftsstudie - Mathematische und naturwissen- Beutel, I. (1998): Berichtszeugnisse anders lesen - Anmerkungen zur
schaftliche Bildung am Ende der Schullaufbahn. Bd. 2: Mathematische eigenen Evaluationsstudie. In: Tillmann/Wischer (1998, 85-95).
und naturwissenschaftliche Grundbildung am Ende der gymnasialen Beutel, S.-I. (2000): Grundschulkinder als Experten für Lernberichte -
Oberstufe. Leske + Budrich: Opladen. eine Auswertung von Kinderinterviews. In: Beutel u.a. (2000, 155-204).
Baumert, J., u.a. (Hrsg.) (2001): PISA 2000 - Basiskompetenzen von Beutel, S.-I. (2004): Zeugnisse aus Kindersicht. Habilitation an der
Schülerinnen und Schülern im internationalen Vergleich. Leske + Universität: Jena (publ. 2005 in der Schriftenreihe der Max-Traeger-
Budrich: Opladen. Stiftung. Juventa: Weinheim/München).
Baumert, J., u.a. (Hrsg.) (2002): PISA 2000 - Die Länder der Bundes- Beutel, S.-I.(2005): Zeugnisse aus Kindersicht. Kommunikationskultur an
republik Deutschland im Vergleich. Leske + Budrich: Opladen. der Schule und Professionalisierung der Leistungsbeurteilung. Juventa,
Baumert, J., u.a. (2003): PISA 2000 - Ein differenzierter Blick auf die Weinheim und München.
Länder der Bundesrepublik Deutschland. Leske + Budrich: Opladen. Beutel, S.-I./Vollstädt, W. (Hrsg.) (2000): Leistung ermitteln und
Baumgart, F./Lange, U. (Hrsg.) (1999): Theorien der Schule. Erläute- bewerten. Bergmann + Helbig: Hamburg.
rungen Texte Arbeitsaufgaben. Klinkhardt: Bad Heilbrunn. Beutel, S.-I./Vollstädt, W. (2002): Kinder als Experten für Leistungs-
Baumgarten, J., u.a. (Red.) (2005): Research Report 2003-2004. Max- bewertung. In: Zeitschrift für Pädagogik, 48. Jg., H. 4, 591-613.
Planck-Institut für Bildungsforschung: Berlin. Beutel, S.-I., u.a. (1999): Ermittlung und Bewertung schulischer Leistun-
Baurmann, J. (1975): Aufsatzbenotung und Reihenfolgeeffekt. Beeinflusst gen. Behörde für Schule/Freie Hansestadt: Hamburg.
die Reigenfolge im Beurteilungsvorgang die Aufsatzbenotung? In: Beutel, S.-I., u.a. (2000): Die schulische Beurteilungspraxis aus der Sicht
Psychologien in Erziehung und Unterricht, 22. Jg., 181-185. von Schülern, Lehrern und Eltern. Universitäten: Bielefeld und Jena.
Baurmann, J. (1977): Der Einfluss von Auswertungsbedingungen, Birkel, P. (1978): Mündliche Prüfungen. Zur Objektivität und Validität der
Vorinformationen und Persönlichkeitsmerkmalen auf die Benotung von Leistungsbeurteilung. Kamp: Bochum.
Deutschaufsätzen. In: Ingenkamp (1977, 117-130). Birkel, P. (2003): Aufsatzbeurteilung - ein altes Problem neu untersucht.
Baurmann, J./Dehn, M. (2004): Beurteilen im Deutschunterricht. In: In: Didaktik Deutsch, 9. Jg., H. 15, 46-63.
Praxis Deutsch, 31. Jg., H. 184, 6-13. Birkel, P./Birkel, C. (2002): Wie einig sind sich Lehrer bei der Aufsatzbe-
Bayerisches Kultusministerium (2004): Weiterentwicklung der Unterrichts- urteilung? In: Psychologie in Erziehung und Unterricht, 49. Jg., 219-224.
qualität hat Vorrang. Kultusministerin Monika Hohlmeier zum Schuljah- Birkhäuser, K. (1999): Mehr fördern, weniger auslesen. Zur Entwicklung
resbeginn 2004/05. Pressemitteilung Nr. 240 vom 13.September 2004. der schulischen Beurteilung in der Schweiz. Trendbericht Nr. 3.
Beck, O./Hofen, N. (1991): Aufsatzunterricht Grundschule. Schneider Schweizerische Koordinationsstelle für Bildungsforschung: Aarau.
Hohengehren: Baltmannsweiler. Black, P./Wiliam, D. (1998a). Assessment and classroom learning. In:
Becher, A.L./Maclure, S. (eds.) (1978): Accountability in education. Social Assessment in Education, Vol. 5, No. 1, 7-71.
Science Research Council. National Foundation of Educational Black, P./Wiliam, D. (1998b): Inside the black box. Raising standards
Research: London. through classroom assessment. In: Phi Delta Kappan, Vol . 80, No. 2
Becker, G./Ramseger, J. (2003): Bewertung des Arbeits- und Sozialver- (October), 139-148.
haltens in den Klassenstufen 3-10 der allgemeinbildenden Schulen in Block, R. (2006): Schulrecht vor Elternrecht? Neue empirische Befunde
Brandenburg. Inhaltliche Probleme - Weiteres Vorgehen. Aide-mémoire zur Zuverlässigkeit von Übergangsempfehlungen der Grundschulen.
für eine Besprechung im MBJS, Potsdam. Arbeitsgruppe Bildungsforschung/-planung. Universität: Essen.
61
Block, R./Klemm, K. (2005): Soziale Herkunft entscheidet. PISA E 2003 - Brügelmann, H. (1999): Was leisten unsere Schulen? Qualität und
NRW im Vergleich. In: nds (GEW-nrw), 57. Jg., H. 12, 18-19. Evaluation von Unterricht in der Diskussion. Kallmeyersche Verlags-
Block, R./Klemm, K. (2006): PISA 2003: differenzierende Bemerkungen buchhandlung: Seelze.
zum neuen Ländervergleich. In: SchulVerwaltung NRW, H. 2/2006, Brügelmann, H. (2000a): Sind Noten doch nötig? In: Grundschulzeit-
38-40. schrift, 13. Jg., H. 132, 4.
Böhnel, E. (1993): Wirkung von Unterricht in der leistungsheterogenen Brügelmann, H. (2000b): Noten im 1. Staatsexamen (Lehramt Primar-
Gruppe auf Lernleistung, Schulangst, Schulfreude und auf Sozial- stufe Siegen) im Überblick (zweite, um weitere Strichproben ergänzte
kontakte zwischen den Schülern - unter besonderer Berücksichtigung und in Details korrigierte Fassung v,14.4.2000). Vervielf. Ms. Arbeits-
des österreichischen Bildungswesens. In: Olechowski/ Persy (1993, gruppe Primarstufe/FB 2 der Universität: Siegen.
102-120). Brügelmann, H. (2002): Besserwisser und Alleskönner. Ein erster
Böttcher, W., u.a. (Hrsg.) (1999): Leistungsbewertung in der Grund- Kommentar zur Relativierung von Folgerungen aus den Ergebnissen
schule. Beltz: Weinheim/Basel. von PISA und zu ihrer Rezeption in den Medien. In: Schulverwaltung
Bohl, T. (2003): Aktuelle Regelung zur Leistungsbeurteilung und zu (Niedersachsen und Schleswig-Holstein), 12. Jg., H. 2, 36-39 [auch
Zeugnissen an deutschen Sekundarschulen. In: Zeitschrift für Päda- abgedruckt in: Schulverwaltung (Nordrhein-Westfalen), H. 2/2002, und
gogik, 49. Jg , H. 4, S. 550-566. Schulverwaltung (Baden-Württemberg), H. 4/2002, 76, 78-80]
Bohl, T. (2004): Prüfen und Bewerten im Offenen Unterricht. Beltz: Brügelmann, H. (2003a): Noten abschaffen? Pro. In: Pädagogik, 55. Jg.,
Weinheim/Basel. H. 3, 50.
Bolscho, D., u.a. (Hrsg.) (1979): Grundschule ohne Noten. Arbeitskreis Brügelmann, H. (2003b) Grundlegende Leseleistungen und der
Grundschule: Frankfurt. »Karawanen-Effekt« in der Grundschule. Zentrale Befunde aus dem
Bos, W./Baumert, J. (1999): Möglichkeiten, Grenzen und Perspektiven Projekt LUST an der Universität Siegen. In: Grundschulverband Aktuell,
internationaler Bildungsforschung: das Beispiel TIMSS/III. In: Aus Nr. 84 (November 2003), 19-25.
Politik und Zeitgeschichte, Beilage B 35-36/99 zu »Das Parlament«. Brügelmann, H. (2003c): Lese-Untersuchung mit dem Stolperwörter-Test.
Bos, W./Pietsch, M. (Hrsg.) (2005): KESS 4. Kompetenzen und Einstel- Abschlussbericht des Projekts LUST-1 > www.uni-siegen.de/
lungen von SchülerInnen und Schülern Jahrgangsstufe 4. Behörde für ~agprim/lust/index.htm.
Bildung und Sport: Hamburg. Brügelmann, H. (2004): Lese-/Schreibförderung nach PISA, IGLU und
Bos, W., u.a. (Hrsg.) (2004a): Einige Länder der Bundesrepublik LUST: Was heißt eigentlich »funktional alfabetisiert«? In: Alfa-Forum,
Deutschland im nationalen und internationalen Vergleich. Waxmann: Nr. 54-55 (Sommer 2004), 16-18.
Münster. Brügelmann, H. (2005a): Schule verstehen und gestalten - Perspektiven
Bos, W., u.a. (2004b): Schullaufbahnempfehlungen von Lehrkräften für der Forschung auf Probleme von Erziehung und Unterricht. Libelle:
Kinder am Ende der vierten Jahrgangsstufe. In: Bos u.a. (2004a, CH-Lengwil.
191-228). Brügelmann, H. (2005b): Der Karawaneneffekt. Eine Zwischenbilanz des
Bos, W., u.a. (Hrsg.) (2005): IGLU. Vertiefende Analysen zu Lesever- Projekts LUST zum Lesenlernen. In: Neue Sammlung, 45. Jg., H. 1,
ständnis, Rahmenbedingungen und Zusatzstudien. Waxmann: Münster. 49-67.
Brammer, P. (1998): Evaluation der Lernentwicklungsberichte an der IGS Brügelmann, H. (2005c): Das Prognoserisiko von Risikoprognosen - eine
Göttingen-Geismar. In: Tillmann/Wischer (1998, 96-108). Chance für »Risikokinder«? In: Hofmann/Sasse (2005, 146-172).
Breitschuh, G. (1979): Zur Geschichte des Schulzeugnisses. In: Bolscho Brügelmann, H. (2006): International tests and comparisons in education
u.a. (1979, 35-63). performance: A pedagogical perspective on standards, core curricula,
Bremerich-Vos, A., u.a. (2005): Stellungnahme zur Kritik an VERA in and the measurement of the quality of schooling. In: Rotte (2006,
»Grundschule aktuell«, H. 89. in: Grundschule-aktuell, H. 90, 3-6. s.a. in print).
> www.uni-landau.de/vera/ziele.htm Brügelmann, H./Heymann, H.W. (2006): Klärung und Übersetzung von
Brinkmann, E. (2004): Kurz vor den Zeugnissen. In: Grundschule Forschung als Dienstleistung für die pädagogische Praxis. Plädoyer für
Deutsch, 1. Jg., H. 4, 34-37. die Einrichtung einer »Evaluationsstelle für nutzerorientierte Bildungs-
Brinkmann, E. (2006): Bewertung von Aufsätzen - vor und nach einem forschung«. Vervielf. Diskussionspapier (Fassung v. 16.3.06). FB 2 der
Seminar. Interne Auswertung. Pädagogische Hochschule: Schwäbisch Universität: Siegen.
Gmünd. Brügelmann, H./Richter, S. (Hrsg.) (1994): Wie wir recht schreiben lernen.
Brinkmann, E./Brügelmann, H. (1993): Ideen-Kiste Schriftsprache 1 (mit Zehn Jahre Kinder auf dem Weg zur Schrift. Libelle Verlag CH Lengwil.
didaktischer Einführung »Offenheit mit Sicherheit«). Verlag für pädago- Brügelmann, H., u.a. (Hrsg.) (1998): Jahrbuch Grundschule. Fragen der
gische Medien: Hamburg. Praxis - Befunde der Forschung [Schwerpunkte: Offener Unterricht;
Brookhart S.M./DeVoge, J.G. (1999): Testing a theory about the role of Mathematik]. Erhard Friedrich Verlag: Seelze.
classroom assessment in student motivation and achievement. In: Brügelmann, H., u.a. (Hrsg.) (1999): Jahrbuch Grundschule. Fragen der
Applied Measurement in Education Vol. 12, 409-425. Praxis - Befunde der Forschung Bd. 2 [Schwerpunkte: Schulfähigkeit;
Brügelmann, H. (1977): Einheitlichkeit durch Operationalisierung - ein Sprache]. Erhard Friedrich Verlag: Seelze.
Phantom. In: Flitner/Lenzen (1977, 71-87). Brunner, I., u.a. (Hrsg.) (2006): Das Handbuch Portfolioarbeit. Kallmeyer:
Brügelmann, H. (1980): Experimental decision making and responsive Seelze (im Druck).
accountability. Expert report for »Basic Education Policies Project«. Büchner, P./Koch, K. (2002): Von der Grundschule in die Sekundarstufe.
OECD/ CERI: Paris? Reprint der Kurzfassung http://www.agprim. In: Die Deutsche Schule, 94. Jg., H. 2, 234-246.
uni-siegen.de/printbrue.htm [14.4.06]. Buff, A. (1988a): Überlegungen zu Reformen in der Schülerbeurteilung.
Brügelmann, H. (1994a): Verflixte zweite Halbzeit. Die Länge von In: Schweizer Schule, H. 4/88, 25-35.
Diktaten als Falle für schwache RechtschreiberInnen. In: Brügelmann/ Bundesinstitut für Berufsbildung (1998): Aussagekraft von Prüfungen.
Richter (1994, 206 207). Referenz Betriebs System. Information Nr. 12. Bundesinstitut für
Brügelmann, H (1994b): Zählen LehrerInnen Rechtschreibfehler Berufsbildung: Bonn.
geschlechtsspezifisch? In: Richter/Brügelmann (1994, 31). Carter, R. S. (1971): Wie gültig sind die durch Lehrer erteilten Zensuren?
Brügelmann, H. (1998): Leistung auf dem Prüfstand. In: Grundschul- In: Ingenkamp (1971, 123-133).
verband aktuell, November 1998, 1 und 7f. (auch abgedruckt in Schmitt Chamberlin, D., et al. (1942). Did they succeed in college? Adventures in
1999, 153-156). American education. Vol. IV. Harper & Brothers: New York.
62
Cizek, G.J., et al. (1995/1996): Teachers’ assessment practices: prepa- Faigel, P. (1973): Die Problematik der Rechtschreibzensur. Überlegungen
ration, isolation and the kitchen sink. In: Educational Assessment, und Untersuchungsergebnisse. In: Linguistische Berichte, H. 24/1973,
Vol. 3, 159-179. 103-108.
Cohen, P.A. (1984): College grades and adult achievement: A research Fatke, R./Merkens, H. (Hrsg.) (2006): Bildung über die Lebenszeit. Schrif-
synthesis. In: Research in Higher Education, Vol. 20, 281 293. tenreihe der DGfE. VA Verlag für Sozialwissenschaften: Wiesbaden.
Crooks, T. (1988): The impact of classroom evaluation on students. In: Faust, G. (2005): Grundschule nach IGLU. In: Götz/Nießeler (2005,
Review of Educational Research, Vol. 58, 438-481. 161-176).
Czerwenka, K., u.a. (1988): Was Schüler von der Schule halten. In: Die Faust-Siehl, G./Schweitzer, F. (1992): Anstrengung ist alles - Wie Kinder
Deutsche Schule, 80.Jg., 1988, 132 145. schulische Leistungen verstehen. In: Bartnitzky/Portmann (1992, 50-60).
Czerwenka, K., u.a. (1990). Schülerurteile über die Schule. Bericht über Fend, H. (2006): Bildungserfahrungen und produktive Lebensbewältigung
eine internationale Untersuchung. Peter Lang: Frankfurt. - Ergebnisse der LifE-Studie. In: Fatke/Merkens (2006, 31-56).
Darge, K., u.a. (2002): Welche Zeugnisarten wünschen sich SchülerInnen Fend, H., u.a. (1976): Sozialsiationseffekte der Schule. Beltz: Weinheim/
und Schüler für ihre Grundschulzeit? In: Valtin (2002a, 61-66). Basel.
Deci, E.L./Ryan, R.M. (1993): Die Selbstbestimmungstheorie der Moti- Ferdinand, W./Kiwitz, H. (1971): Über die Häufigkeitsverteilung der
vation und ihre Bedeutung für die Pädagogik. In: Zeitschrift für Päda- Zeugnisnoten 1 bis 6. In: Ingenkamp (1971, 178-185).
gogik, 39. Jg., H. 2, 223-238. Fiegert, M. (2001): Der Leistungsbegriff in historisch-systematischer
Deci, E.L., et al. (1999): A meta-analysis review of experiments exa- Perspektive. In: Solzbacher/Freitag (2001, 19-38).
mining the effects of extrinsic rewards on intrinsic motivation. In: Fiegert, M./Solzbacher, C. (2001): Alternative Schulen - alternative
Psychological Bulletin, Vol. 125, No. 6, 627-688. Leistungsbewertung. In: Solzbacher/Freitag (2001, 289-312).
De Groot, A.D. (1971): Fünfen und Sechsen. Beltz: Weinheim/Basel. Finetti, M. (2005): Bessere Noten für Mädchen bei gleicher Leistung. In:
Dehn, M. (2001): Leistungsbewertung und -zensierung im Fach Deutsch. Süddeutsche Zeitung v. 8.11.2005.
In: Pädagogik, 53. Jg., H. 7-8, 74-79. Finlayson, D.S. (1971): Die Zuverlässigkeit bei der Zensierung von
Dehn, M. (2006): Zeit für die Schrift 1. Lesen lernen und Schreiben Aufsätzen. In: Ingenkamp (1971, 103-116; engl. 1951).
können. Cornelsen Scriptor: Berlin. Flitner, A. (1992): Leistung ist mehr als Schulleistung. In: Bartnitzky/
Dehn, M./Hüttis-Graff, P. (2006): Zeit für die Schrift 2. Beobachtung und Portmann (1992, 10-14).
Diagnose. Cornelsen Scriptor: Berlin. Flitner, A./Lenzen, D. (Hrsg.) (1977): Abitur-Normen gefährden die
Deutscher Bildungsrat (1970): Strukturplan für das Bildungswesen. Schule. Piper: München
Empfehlungen der Bildungskommission. Bundesdruckerei: Bonn. Fraser, B.J., u.a. (1987). Syntheses of educational productivity research.
Dicker, H. (1973): Untersuchung zur Beurteilung von Mathematikauf- International Journal of Educational Research, Vol. 11, 145-252.
gaben. Diplomarbeit an der Erziehungswissenschaftlichen Hochschule Frederiksen J./White B. (2004): Designing assessment for instruction and
Rheinland-Pfalz: Landau. accountability: an application of validity theory to assessing scientific
Diekmann, A. (1995): Empirische Sozialforschung. Rowohlt Re 55551: inquiry. In: Wilson (2004, 74-104).
Reinbek. Freitag, C. (2001): Die Schulreform in England und ihre Auswirkungen
Ditton, H. (1992): Ungleichheit und Mobilität durch Bildung. Theorie und auf die Leistungsbewertung. In: Solzbacher/Freitag (2001, 59-75).
empirische Untersuchung über sozial-räumliche Aspekte von Bildungs- Fricke, R./Treinies, G. (1985): Einführung in die Metaanalyse. Methoden
entscheidungen. Beltz: Weinheim/Basel. der Psychologie, Bd. 3. Hans Huber: Bern u.a.
Ditton, H., u.a. (2005): Bildungsungleichheit - der Beitrag von Familie Fuchs, L.S./Fuchs, D. (1986): Effects of systematic formative evaluation:
und Schule. In: Zeitschrift für Erziehungswissenschaft, 2. Jg., A meta-analysis. In: Exceptional Children, Vol. 53, No. 3, 199-208.
285-304. Gaedike, A.-K. (1974): Determinanten der Schulleistung. In: Heller (1974,
Döbert,H./Geißler, G. (2000): Schulleistung in der DDR: Das System der 46-93).
Leistungsentwicklung, Leistungssicherung und Leistungsmessung. Gaude, P. (1989): Beobachten, Beurteilen und Beraten von Schülern.
Peter Lang: Frankfurt. Diesterweg: Frankfurt.
Döpp, W., u.a. (2002): Lernberichte statt Zensuren. Erfahrungen von Gebert, D. (1983): Zur Aussagekraft von Industrie und Handelskammer
Schülern, Lehrer und Eltern. Klinkhardt: Bad Heilbrunn. Facharbeiter Prüfungen im gewerblich technischen Bereich für die
Dohse, W. (1967): Das Schulzeugnis - Sein Wesen und seine Proble- spätere Berufspraxis. In: Zeitschrift für Arbeitswissenschaft, 37. (9.NF)
matik. Beltz: Weinheim/Berlin (2. Aufl.; 1. Aufl., 1963) (S. 39-43 und Jg., H 2., 107, 109.
62-67 auch in Ingenkamp 1971, 42-51). Geißler, R. (2004): Bildung für wen? Die Benachteiligten der Bildungs-
Dressel, P.L. (1957): Facts and fancy in assigning grades. In: Basic expansion. In: Sozialwissenschaften, 33. Jg., H. 2, 12-22.
College Quarterly, Vol. 2, 6-12. Ghiselli, E. E. (1966): The validity of occupational aptitude tests. Wiley:
Eells, W.C. (1930): Reliability of repeated grading of essay type ex- New York.
mainations. In: Journal of Educational Psychology, Vol. 21, 48-52. Giest, H./Scheerer-Neumann, G. (Hrsg.) (1999): Jahrbuch Grundschul-
Eells, W.C. (1971): Die Zuverlässigkeit wiederholter Benotung von auf forschung, Bd. 2. Beltz/Deutscher Studienverlag: Weinheim.
satzähnlichen Prüfungsarbeiten. In: Ingenkamp (1971, 117-122). Gipps C./Clarke, S. (1998): Monitoring consistency in teacher assess-
Ehmke, T., u.a. (2005): Soziale Herkunft im Ländervergleich. In: Prenzel ment and the impact of SCAA’s guidance materials at Key Stages
u.a. (2005a, Kap.9). 1, 2, and 3. Final Report.Qualifications and Curriculum Authority:
Einsiedler, W./Schöll, G. (1995): Pro und contra ziffernfreie Beurteilung in London.
der Grundschule. In: Pädagogische Welt, 49. Jg., H. 3, 120-124. Glass, G.V. (1976): Primary, secondary, and meta-analysis of research.
Elbing, E./Buschmann, S. (1985): Schülerbeurteilung mittels Wortzeug- In: Educational Researcher, Vol. 11, 3-8.
nissen - eine empirische Analyse. Institut für Empirische Pädagogik Glass, G.V. (1977): Integrating findings: The meta-analysis of research.
und Pädagogische Psychologie. Universität: München. In: Shulman (1977, 351-379).
Eurydice (o.J.) Education in Europe, network, comparative studies on Glatz, Kell, A. (Hrsg.) (2005): Lernstandserhebungen und Unterrichts-
education and national education systems > www.eurydice.org [Abruf: qualität. Siegener Studien Bd. 63. Gesellschaft zur Förderung der
10.02.2006]. Lehrerbildung e.V. (Universität): Siegen, 111-123.
Fadsich, F./Steinert, B. (2005): Schulische Rahmenbedingungen im inter- Götz, M. (2005): Verbalzeugnisse in der Grundschule - Anspruch und
nationalen Vergleich. In: Bos u.a. (2005, 159-186). Realisierung. In: Götz/Nießeler (2005, 78-92).
63
Götz, M./Nießeler, A. (Hrsg.) (2005): Leistung fördern - Förderung leisten. Haas, G. (1999): In der Schule Leistungen bewerten, ohne pädagogische
Auer Verlag: Donauwörth. Prinzipien außer Kraft zu setzen. Bewerten und Benoten im offenen
Götz, M./Müller, K. (Hrsg.) (2005): Grundschule zwischen den An- Unterricht. In: Praxis Deutsch, 26. Jg., H. 155, 10-19.
sprüchen der Individualisierung und Standardisierung. Wiesbaden: Haecker, H. (1971): Subjektive Faktoren im Leistungsurteil der Lehrer. In:
VS Verlag für Sozialwissenschaften. Schule und Psychologie, 18 Jg., 74-84.
Gompf, G./Henrich, H. (2005): Englisch ab 3. Grundschuljahr ohne Hofmann, B./Sasse, A. (Hrsg.) (2005): Übergänge. Kinder und Schrift
Noten. Wissenschaftliche Untersuchung der Einstellung von Eltern, zwischen Kindergarten und Schule. Bericht über die Jahrestagung der
Schülern und Lehrkräften in Rheinland-Pfalz und Thüringen. Kinder Deutschen Gesellschaft für Lesen und Schreiben, Rauischholzhausen
lernen europäische Sprachen e.V. > www.kles.org [Abruf: 9.2.06]. 19.11.2004. Deutsche Gesellschaft für Lesen und Schreiben: Berlin.
Graf, U. (2004): Schulleistung im Spiegel kindlicher Wahrnehmungs- und Hall, K., et al. (1997): A study of teacher assessment at Key Stage 1.
Deutungsarbeit. Eine qualitativ-explorative Studie zur Grundlegung Cambridge Journal of Education, Vol. 27, 107-122.
selbstreflexiven Leistens im ersten Schuljahr. Dissertation. Pädago- Hall K./Harding A. (2002): Level descriptions and teacher assessment in
gische Hochschule: Ludwigsburg. England: Towards a community of assessment practice. In: Educational
Gramsch, A./Krause-Hotopp, D. (2003): Neue Wege in der Leistungs- Research, Vol. 44, 1-15.
bewertung. Erfahrungen mit Eltern-Kind-Zeugnis-Gesprächen. In: Die Hanke, P. (2002): Lehr-Lernkulturen und schriftsprachliche Handlungs-
Deutsche Schule, 95. Jg., H. 4,. kompetenzen im Primarstufenbereich. Habilitationsschrift. Universität:
Greuer-Werner, M., u.a. (Hrsg.) (1985): Berichte aus Schulpsychologie Köln (publ. als 2005).
und Bildungsberatung. Deutscher Psychologen Verlag: Bonn. Hanke, P. (2005): Öffnung des Unterrichts in der Grundschule. Lehr-
Grissemann, H. (2000): Deutschnoten als »Ursache« von »Legasthenie«. Lernkulturen und orthographische Lernprozesse im Grundschulbereich.
In: Schweizer Schule, H. 3/2000 Waxmann: Münster (Habil. Universität: Köln 2002)
Groeben, A.v.d./Lenzen D. (Hrsg.) (1996): Berichten und Bewerten I. Hargreaves, D.J., et al. (1996): Teachers’ assessments of primary chil-
Ein Reader zum Beurteilungssystem der Laborschule. Werkstattheft 5. dren's classroom work in the creative arts. In: Educational Research,
Universität: Bielefeld. Vol. 38, 199-211.
Groeben, A.v.d./Lenzen, D. (Hrsg.) (1997): Berichten und Bewerten II. Harlen, W (2004a): A systematic review of the evidence of reliability and
Ein Reader zum Beurteilungssystem der Laborschule. Werkstattheft 6. validity of assessment by teachers used for summative purposes. In:
Universität: Bielefeld. Research Evidence in Education Library. EPPI-Centre, Social Science
Grolnick, W.S./Ryan, R.M. (1987): Autonomy in children's learning: Research Unit, Institute of Education: London.
An experimental and individual difference investigation. In: Journal of Harlen, W. (2004b) A systematic review of the evidence of the impact on
Educational Psychology, Vol. 81, 143-154. students, teachers and the curriculum of the process of using assess-
Grünig, B., u.a. (1999).: Leistung und Kontrolle. Die Entwicklung von ment by teachers for summative purposes. In Research Evidence in
Zensurengebung und Leistungsmessung in der Schule. Juventa: Education Library. EPPI-Centre, Social Science Research Unit, Institute
Weinheim/München. of Education: London.
Grunder, H.-U./Bohl, T. (2001): Neue Formen der Leistungsbeurteilung in Harlen, W./Deakin Crick, R. (2002): A systematic review of the impact of
den Sekundarstufen I und II. Schneider Hohengehren: Baltmannsweiler. summative assessment and tests on students’ motivation for learning
Grzesik, J./Fischer, M. (1984): Was leisten Kriterien für die Aufsatzbeur- (EPPI-Centre Review, version 1.1*). In: Research Evidence in Edu-
teilung? Theoretische und praktische Aspekte des Gebrauchs von Krite- cation Library. Issue 1. EPPI-Centre, Social Science Research Unit,
rien und der Mehrfachbeurteilung nach globalem Eindruck. Forschungs- Institute of Education: London.
bericht Nr. 3192 des Landes NRW. Westdeutscher Verlag: Opladen. Hartinger, A./Fölling-Albers, M. (2002): Schüler motivieren und interes-
Günther, H./Ludwig, O. (Hrsg.) (1996): Schrift und Schriftlichkeit. Ein inter- sieren. Ergebnisse aus der Forschung - Anregungen für die Praxis.
disziplinäres Handbuch. 2. Halbbd. Walter de Gruyter: Berlin/New York. Klinkhardt: Bad Heilbrunn.
Haarmann, H. (Hrsg.) (1997): Handbuch elementarer Schulpädagogik. Hartinger, A., u.a. (2003): Beeinflussen unterschiedliche Übertritts-
Beltz: Weinheim. regelungen an weiterführende Schulen die Leistungsängstlichkeit und
Haas, G. (1999): In der Schule Leistungen bewerten, ohne pädagogische die Qualität der Lernmotivation von Grundschüler/innen? Eine
Prinzipien außer Kraft zu setzen. Bewerten und Benoten im offenen vergleichende Studie zwischen Niedersachsen und Bayern. In:
Unterricht. In: Praxis Deutsch, 26. Jg., H. 155, 10-19. Panagiotopoulou/Brügelmann (2003, 115-119).
Hadley, S. T. (1954): A school mark - fact or fancy. In: Educational Hartinger, A., u.a. (2004): »Grundschul-Numerus Clausus« oder Orientie-
Administration and Supervision, Vol. 40, 305-312. rungsstufe? Auswirkungen verschiedener Übertrittsbedingungen auf
Hadley, S.T. (1971): Feststellungen und Vorurteile in der Zensierung. In: Motivationsstile und Leistungsängstlichkeit von Grundschulkindern. In:
Ingenkamp (1971, 134-141). Empirische Pädagogik, 18. Jg. , H. 2, 173-193.
Haecker, H. (1971): Subjektive Faktoren im Leistungsurteil der Lehrer. In: Hartmann, M. (2002): Der Mythos von den Leistungseliten. Spitzen-
Schule und Psychologie, 18. Jg., 74-84. karrieren und soziale Herkunft in Wirtschaft, Politik, Justiz und Wissen-
Haenisch, H. (1991): Erfolgreich unterrichten - Wege zu mehr Schüler- schaft. Campus: Frankfurt/New York.
orientierung. Forschungsergebnisse und Empfehlungen für die Hartog, P./Rhodes, E.C. (1971a): Prüfungszensuren in Geschichte und
Schulpraxis. Arbeitsbericht No. 17. Landesinstitut für Schule und Englisch. In: Ingenkamp (1971, 78-89).
Weiterbildung: Soest. Hartog, P./Rhodes, E.C. (1971b): Die Beurteilung mündlicher Prüfungen.
Haenisch, H. (1996a): Schulversuch ›Zeugnisse ohne in den Klassen 3 In: Ingenkamp (1971, 142-148).
und 4‹. Auswertung der Erfahrungsberichte aus den am Schulversuch Haußer, K. (1991): Verbalbeurteilung in Schulzeugnissen. Eine psycholo-
beteiligten Grundschulen. Arbeitsberichte zur Curriculumentwicklung gische Inhaltsanalyse. In: Die Deutsche Schule, 83. Jg., H. 3, 348-359.
Schul- und Unterrichtsforschung, H. 41. Landesinstitut für Schule und Heckhausen, H. (1974): Lehrer-Schüler-Interaktion. In: Weinert u.a.
Weiterbildung: Soest. (1974, 547-573).
Haenisch, H. (1996b): Beurteilungen ohne Noten auf dem Prüfstand. Heinzel, F. (Hrsg.) (2000): Methoden der Kindheitsforschung. Ein Über
Ergebnisse einer Befragung von Eltern und Lehrkräften zur Akzeptanz blick über Forschungszugänge zur kindlichen Perspektive. Juventa:
und zu den Wirkungen. Arbeitsberichte zur Curriculumentwicklung Weinheim u.a.
Schul- und Unterrichtsforschung, H. 42. Landesinstitut für Schule und Hell, B., u.a. (o.J.): Die Validität von Prädiktoren des Studienerfolgs - eine
Weiterbildung: Soest. Metaanalyse. Universität: Hohenheim.
64
Heller, K.A. (Hrsg.) (1974): Leistungsbeurteilung in der Schule. Quelle & Hopf, D. (1994): Kindergarten, Vorschule und Grundschule (Elementar-
Meyer: Heidelberg. und Primarbereich). In: Baumert u.a. (1994, 292-340).
Heller, K.A. (1995): Schulleistungsprognosen. In: Oerter/Montada (1995, Hopp, A.-D./Lienert, G.A. (1971): Eine Verteilungsanalyse von Gymna-
983-989). sialzensuren. In: Ingenkamp (1971, 191-204).
Heller, K.A. (1997): Individuelle Bedingungsfaktoren der Schulleistung. In: Hosenfeld, I. (2002): Kausalitätsüberzeugungen und Schulleistungen.
Weinert/Helmke (1997, 183-201), Waxmann: Münster.
Heller, K.A. (1999): Wissenschaftliche Argumente für eine frühzeitige Huber, A. (2003). Die Lebensweisheit der 15-jährigen. Warum unsere
Schullaufbahnentscheidung. In: Schulreport (München), H. 3/99, 10-13. Jugend besser ist als ihr Ruf. München: Heinrich Hugendubel Verlag:
Heller, K.A./Hany, E.A. (2001): Standardisierte Schulleistungsmes- München.
sungen. In: Weinert (2001, 87-101). Huber, L. (2002): Leistung in der Schule. Rückblicke in die Geschichte -
Heller, K.A./Nickel, H. (Hrsg.) (1982): Modelle und Fallstudien der Fragen an die Gegenwart. In: Winter u.a. (2002, 11-19).
Erziehungs- und Schulberatung. Huber: Bern. Huberman, M. (1980): Das Selbstkonzept. Eine Untersuchung über die
Heller, K.A., u.a. (1978): Prognose des Schulerfolgs. Eine Längsschnitt- Wirkung von Noten, Ranglisten und Preisen auf Kinder der Genfer
studie zur Schullaufbahnberatung. Beltz: Weinheim/Basel. Primarschule. FAPSE: Genf.
Helmke, A. (1988): Leistungssteigerung und Ausgleich von Leistungs- Hübner, O. (2003): Prognose beruflicher Eignung mittels biographischer
unterschieden in Schulklassen: unvereinbare Ziele? In: Zeitschrift für Daten. Unveröff. Diplomarbeit. Fb Erziehungswissenschaften und
Erziehungspsychologie und Pädagogische Psychologie, 20. Jg., H. 1, Psychologie. Freie Universität: Berlin (zusammengefasst in: Land-
45-76. messer 2003, 11).
Helmke, A. (1992): Selbstvertrauen und schulische Leistungen. Hogrefe: Hunter, J.E./Hunter, R.F. (1984): Validity and utility of alternative predic
Göttingen. tors of job performance. In: Psychological Bulletin, Vol. 96, No.1.,72-98.
Helmke, A. (1997a): Das Stereotyp des schlechten Schülers: Ergebnisse Hunter, J., et al. (1982): Meta-Analysis: Cumulating research findings
aus dem SCHOLASTIK-Projekt. In: Weinert/Helmke (1997a, 269-279). across studies. Sage: Beverly Hills/ Newbury Park, Cal. (new ed. 1990;
Helmke, A. (1997b): Entwicklung lern- und leistungsbezogener Motive 2004).
und Einstellungen: Ergebnisse aus dem SCHOLASTIK-Projekt. In: Inckemann, E, (2004): »Dass man aus einer Fortbildung heimgeht und
Weinert/Helmke (1997a, 59-76). morgen passiert es, geht halt nicht« - förderdiagnostische Kompetenz
Helmke, A. (1997c): Individuelle Bedingungsfaktoren der Schulleistung. von Grundschullehrkräften. In: Bartnitzky/Speck-Hamdan (2004,
Ergebnisse aus dem SCHOLASTIK-Projekt. In: Weinert/Helmke 218-237).
(1997a, 203-216). Ingenkamp, K. (1967): Untersuchungen zur Übergangsauslese. Beltz:
Helmke, A. (1998): Vom Optimisten zum Realisten? Die Entwicklung des Weinheim/Berlin.
Fähigkeitsselbstkonzeptes vom Kindergarten bis zur 6. Klassenstufe. Ingenkamp, K. (1969): Die Bedeutung objektiver Leistungsbeurteilungen
In: Weinert (1998, 115-132). für moderne Grundschularbeit. In: Schwartz (1969, 53-80).
Helmke, A. (1999): Development from optimism to realism? Development Ingenkamp, K. (Hrsg.) (1971a): Die Fragwürdigkeit der Zensurengebung.
of children’s academic self-concept from kindergarten to grade 6. In: Beltz: Weinheim (7. überarb. Aufl. 1977; 9. Aufl. 1995).
Weinert/Schneider (1999, 198-221). Ingenkamp, K. (1971b): Überblick über die prognostische Bewährung
Hengartner (1999): Mit Kindern lernen. Standorte und Denkwege im der Grundschulgutachten und -zensuren. In: Ingenkamp (1971,
Mathematikunterricht. Klett und Balmer: CH-Zug. 229-232).
Hentig, H.v. (1985): Die Menschen stärken, die Sachen klären. Reclam: Ingenkamp, K. (1971c): Sind Zensuren aus verschiedenen Klassen
Ditzingen. vergleichbar? In: Ingenkamp (1971, 156-163).
Herrlitz, H.-G., u.a. (1998): Deutsche Schulgeschichte von 1800 bis zur Ingenkamp, K. (1975): Pädagogische Diagnostik. Ein Forschungsbericht
Gegenwart. Eine Einführung. Juventa Verlag: Weinheim und München zur Schülerbeurteilung in Europa. Trendbericht im Auftrag des Europa-
(2. ergänzte Auflage). rats in Straßburg. Beltz: Weinheim/Basel.
Herrmann, U. (2005): Noten abschaffen? Contra. In: Pädagogik, 55. Jg., Ingenkamp, K. (Hrsg.) (1977): Die Fragwürdigkeit der Zensurengebung.
H. 3, 51. Beltz: Weinheim (7. überarb. Aufl.; 1. Aufl. 1971; 9. Aufl. 1995).
Hiebert E./Davinroy, K. (1993): Dilemmas and issues in implementing Ingenkamp, K. (Hrsg.) (1981): Wert und Wirkung von Beurteilungs-
classroom-based assessment for literacy (Technical Report 365). Los verfahren. Untersuchungen zu den Gütekriterien und der Wirkung
Angeles, Centre for Research on Evaluation, Standards and Student diagnostischer Instrumente in der Schule. Beltz: Weinheim/Basel.
Testing (CRESST) > www.cse.ucla.edu/CRESST/Reports/ Ingenkamp, K. (1989): Diagnostik in der Schule. Beiträge zu Schlüssel-
TECH365.PDF fragen der Schülerbeurteilung. Beltz: Weinheim/Basel. S. 95-126
Höllrigl, P./Meraner, R. (2005): Erfreuliche Ergebnisse. Frucht gemein- (»Zeugnisse und Zeugnisreformen in der Grundschule aus der Sicht
samer Arbeit. In: Info (Informationsschrift für Kindergarten und Schule empirischer Pädagogik«)
in Südtirol), H. 1 (Jänner)/2005, 2-3. Ingenkamp, K. (1991): Die Bedeutung von Schultests für moderne
Hofmann, B./Sasse, A. (Hrsg.) (2005): Übergänge. Kinder und Schrift Bildungssysteme. Test-Info 1/91. Beltz: Weinheim/Basel.
zwischen Kindergarten und Schule. Bericht über die Jahrestagung der Ingenkamp K.-H. (1992): Lehrbuch der pädagogischen Diagnostik. Beltz:
Deutschen Gesellschaft für Lesen und Schreiben, Rauischholzhausen Weinheim/Basel (2. Auflage).
19.11.2004. Deutsche Gesellschaft für Lesen und Schreiben: Berlin. Ingenkamp, K.-H. (1993): Der Prognosewert von Zensuren, Lehrergut-
Hoge, R.D./Coladarci, T. (1989): Teacher-based judgments of academic achten, Aufnahmeprüfungen und Test während der Grundschulzeit für
achievement: A review of the literature. In: Review of Educational den Sekundarschulerfolg. In: Olechowski/Persy (1993, 68-85).
Research, Vol. 59, No. 3 (Fall 1989), 297-313. Ingenkamp, K./Jäger R.S. (Hrsg.) (1990): Tests und Trends. Jahrbuch der
Holtappels, H.G., u.a. (Hrsg.) (2004): Jahrbuch der Schulentwicklung, Pädagogischen Diagnostik., Bd. 8. Beltz: Weinheim/Basel.
Bd.13. Daten, Beispiele und Perspektiven. Juventa: Weinheim/München. Iten, M./Theiler, P. (1993): Ganzheitlich Beurteilen und Fördern. Erzie-
Hondrich, K.O., u.a. (Hrsg.) (1998): Krise der Leistungsgesellschaft. hungsdepartement des Kantons: Luzern.
Westdeutscher Verlag: Opladen. Jachmann, M. (2000a): Einstellungen von Lehrer, Eltern und Schülern zur
Honig, M.-S., u.a. (Hrsg.) (1996): Kinder und Kindheit. Soziokulturelle Leistungsbeurteilung - ein Vergleich. In: Beutel u.a. (2000, 205-234).
Muster - sozialisationstheoretische Perspektiven. Kindheiten Bd. 7. Jachmann, M. (2000b): Zusammenfassung der Ergebnisse. In: Beutel
Juventa: Weinheim. u.a. (2000, 235-241).
65
Jachmann, M. (2003): Noten oder Berichte? Die schulische Beurteilungs- Klauer, K.J. (1992): In Mathematik mehr leistungsschwache Mädchen, im
praxis aus der Sicht von Schülern, Lehrern und Eltern. Leske + Budrich: Lesen und Rechtschreiben mehr leistungsschwache Jungen? In:
Opladen. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie,
Jachmann, M./Tillmann, K.-J. (2000a): Einführung. In: Beutel u.a. (2000, 24. Jg., H. 1, 48-65.
9-26). Klauer, K J. (2001): Wie misst man Schulleistungen? In: Weinert (2001,
Jachmann, M./Tillmann, K.-J. (2000b): Leistungsbeurteilung und 103-115).
Zeugnisse aus der Sicht Hamburger LehrerInnen und Lehrer. In: Beutel Key, E. (1992): Das Jahrhundert des Kindes. Pädagogisch Bibliothek
u.a. (2000, 27-70). Beltz, Weinheim/Basel.
Jacobs, B. (1999): Motivationales Feedback und Lernleistung. > Klieme, E. (o.J.): Abiturnoten, Leistungsstandards und Studierfähigkeit.
www.phil.uni-sb.de/~jakobs/wwwartikel/feedback/motivation.htm [last Validierung von Benotungssystemen anhand von Zulassungsdaten und
update 12.5.05; Abruf: 14.2.2006]. Ergebnissen des Medizinstudiums. Vervielf. Ms.
Jäger, S., u.a. (Hrsg.) (1989): Tests und Trends 7. Jahrbuch der Päda- Klieme, E., u.a. (2003): Zur Entwicklung nationaler Bildungsstandards.
gogischen Diagnostik. Beltz: Weinheim. Eine Expertise. Deutsches Institut für Internationale Pädagogische
Jäger, R.S. (1998): Von der Beurteilung zur Notengebung. Verlag Forschung: Frankfurt.
Empirische Pädagogik: Landau (2. vollst. überarb. Auflage). Klieme, E., u.a. (2006): Unterricht und Kompetenzerwerb in Deutsch und
Jäger, R.S. (2000): Von der Beobachtung zur Notengebung. Ein Lehr- Englisch. Zentrale Befunde der Studie »Deutsch Englisch Schüler-
buch. Diagnostik und Benotung in der Aus- Fort- und Weiterbildung. leistungen International (DESI)«. Deutsches Institut für Internationale
Zentrum für empirische pädagogische Forschung: Landau. Pädagogische Forschung: Frankfurt > www.dipf.de/desi/
Johnston P.H., et al. (1993): Teachers’ assessment of the teaching and DESI_Zentrale_Befunde.pdf [Abruf: 3.3.2006].
learning of literacy. In: Educational Assessment, Vol. 1, 91-117. Klink, J.G. (1964): Die Schülerleistung im Koordinatensystem der
Jürgens, E. (1997): Das Wortgutachten in der Grundschule. Eine Ziffernzensur. In: Lebendige Schule, 19. Jg., 375-383.
empirische Untersuchung zur Praxis der Verbalbeurteilung. Universität: Kluger, A.N./DeNisi, A. (1996): The effects of feedback interventions on
Bielefeld. performance: A historical review, a meta-analysis, and a preliminary
Jürgens, E. (1998a): Leistung und Beurteilung in der Schule. Eine feedback intervention theory. In: Psychological Bulletin, Vol. 119, No. 2,
Einführung in Leistungs- und Bewertungsfragen aus pädagogischer 254-284.
Sicht. Academia Verlag: St. Augustin (4. Aufl.). KMK (1970): Empfehlungen zur Arbeit in der Grundschule. Beschluß vom
Jürgens, E. (1998b): Zeugnisse ohne Noten. Die Verbalbeurteilungspraxis 2.7.1970. Sekretariat der Kultusministerkonferenz: Bonn.
in der Grundschule als Gegenstand einer Untersuchung. In: Brügel- Knoche, W. (1971): Die Noten im Auslesekriterium und der Schulerfolg
mann, u.a. (1998, 187-192). am Gymnasium. In: Ingenkamp (1971, 236-251).
Jürgens, E./Sacher, W. (Hrsg.) (2000): Leistungserziehung und Leis- Köller, O. (2002): Des Schülers Leid, des Lehrers Freud. Schulnoten
tungsbeurteilung: Schulpädagogische Grundlegung und Anregungen für sind nötig und besser als ihr Ruf. In: Schule - Wissen - Bildung. Klett
die Praxis. Studientexte für das Lehramt Bd. 6. Luchterhand: Neuwied. ThemenDienst Nr. 16: Dezember 2002, 7-10.
Jung, J. (2005): Formen, Prinzipien und Probleme der Leistungs- Köller, O., u.a. (1999): Wege zur Hochschulreife: Offenheit des Systems
beurteilung. In: Götz/Nießeler (2005, 63-77). und Sicherung vergleichbarer Standards. In: Zeitschrift für Erziehungs-
Kahlert, J., u.a. (Hrsg.) (2000): Grundschule: Sich Lernen Leisten. wissenschaft, 2. Jg., H. 3, 386-422.
Neuwied: Luchterhand. Köller, O., u.a. (2000): Zum Zusammenspiel von schulischen Interessen
Kalthoff, H. (1996): Das Zensurenpanoptikum. Eine ethnographische und Lernen im Fach Mathematik: Längsschnittanalysen in den Sekun-
Studie zur schulischen Bewertungspraxis. In: Zeitschrift für Soziologie, darstufen I und II. In: Schiefele/Wild (2000, 163-181).
25. Jg., H. 2, 106-124. Kohn, A. (1999). Punished by rewards. The trouble with gold stars,
Kanders, M./Rolff, H.-G. (2002): Mehr von allem, aber wenig ändern! incentive plans, A’s, praise, and other bribes. Houghton Miflin:
Ergebnisse der neuen IFS-Repräsentativbefragung zu Schule Boston.
und Bildung. Pressemitteilung des Instituts für Schulentwicklung. Kohn, A. (2000). The case against standardized testing. Raising the
Universität: Dortmund > www.ifs.uni-dortmund.de/Download/ scores, ruining the schools: Heinemann: Portsmouth, NH.
Artikel%20zur%20IFS-Umfrage.pdf [Abruf: 16.2.2006]. Konrad, K. (1997): Lernen eigenständig planen, überwachen und
Kanders, M./Rolff, H.-G. (2004): 13. IFS-Repräsentativumfrage zu Schule bewerten. Explorative Analysen kooperativer Lernsequenzen. Verlag
und Bildung. Vorlage zur Pressekonferenz am 15. Juni 2004 in Berlin. Empirische Pädagogik: Landau.
Kanders, M., u.a. (1997): Das Bild der Schule aus der Sicht von Schülern Koretz, D., et al. (1994): The Vermont Portfolio Assessment Program:
und Lehrern. Bundesministerium für Bildung, Wissenschaft, Forschung findings and implications. In: Educational Measurement: Issues and
und Technologie: Bonn. Practice, Vol. 13, 5-16.
Kanders, M., u.a. (2004): IFS-Umfrage: Die Schule im Spiegel der öffent Krampen, G. (1985): Differenzielle Effekte von Lehrerkommentaren
lichen Meinung - Ergebnisse der 13. IFS-Repräsentativbefragung der zu Noten bei Schülern. In. Zeitschrift für Erziehungspsychologie und
bundesdeutschen Bevölkerung. Pädagogische Psychologie, 17. Jg., H. 2, 99-123.
Kaube, J. (2006): Der Menschenrechts-Revisor kommt. In: Frankfurter Krampen, G. (1987): Effekte von Lehrerkommentaren zu Noten bei
Allgemeine Zeitung, Nr. 32 v. 7.2.2006, 33. Schülern. In: Olechowski/Persy (1987, 297-227).
KinderRÄchTsZÄnker (o.J.): Fällt Euch denn nichts besseres ein? Krampen, F./Mory, M. (1982): Zur Verarbeitung einer schlechten Mathe-
Kritik an populärer und oberflächlicher Schulkritik und Pseudo- matikzensur. In: Zeitschrift für Entwicklungspsychologie und Pädago-
Alternativen > http://www.kraetzae.de/schule/schulkritik/#7 gische Psychologie, 14. Jg., 337-340.
[Abruf: 27.3.06]. Krapp, A./Mandl, H. (1977): Einschulungsdiagnostik: Eine Einführung in
Kirschner, G. (1992): Kinder wollen Zeugnisse - wollen Kinder Noten? Probleme und Methoden der pädagogisch-psychologischen Diagnostik.
Meinungsumfrage über Zeugnisformen. In: Bartnitzky/Portmann (1992, Beltz: Weinheim.
89-83). Krope, P., u.a. (1999): Ziffernzeugnis versus Berichtszeugnis. Zur
Kirsten, N. (2003): Betragen ins Zeugnis? Verkopfte Debatte. In: Die Zeit, Lerneffektivität bei quantitativen und qualitativen Aussagen. In: Giest/
Nr. 37 v. 4.9.03. Scheerer-Neumann (1999, 299-313).
Klauer, K.J. (1987): Fördernde Notengebung durch Benotung unter drei Kühl, R. (1991a): Berichtszeugnisse in Klasse 1 bis 4. Krach in
Bezugsnormen. In: Olechowski/Persy (1987, 180-206). Schleswig-Holstein. In: Grundschul-Zeitschrift, 5. Jg., H. 49, 2-3.
66
Kultusministerium Baden-Württemberg (2004): Verordnung des Kultus- Lütgert, W. (1992): Die Fragwürdigkeit der Zensurengebung und die
ministeriums über die Notenbildung vom 5. Mai 1983 (GBI. S. 324; Berichte zum Lernvorgang der Bielefelder Laborschule. In: Neue
K.u.U. S. 449), zuletzt geändert durch: Verordnung vom 23.3.2004. Sammlung 32. Jg., H. 3, 387-404.
www.leu.bw.schule.de/bild/Notenbildung.pdf [Abruf: 17.3.06]. Lütgert, W. (1999): Leistungs-Rückmeldung, Anforderung, Innovationen,
Lambrou, U. (1989a): Leistungsmessung. Eine Grenzwanderung... In: Probleme. Pädagogik, 51. Jg., H. 3, 46-50 (auch in: In: Beutel/Vollstädt
Päd.extra/Demokratische Erziehung, 2. Jg., H. 3, 36-9. (2000).
Landert, C. (1999): Die Arbeitszeit von Lehrpersonen in der Deutsch- Lütgert, W. (2002): Die Guten ins Töpfchen, die Schlechten … Zeugnisse
schweiz. Verlag LCH: Zürich. und Zensuren: Der vergessene Teil der allgemeinen Didaktik. In:
Landmesser, M., u.a. (2003): Schulleistungen, außerschulische Aktivi- Lütgert/Hallpap (2002, 157-178).
täten und Praxiserfolg. Die Bedeutung, Bewertung und Entwicklung von Lütgert, W./Hallpap, X. (Hrsg.) (2002): Didaktik in Jena. Aufgaben zu
Handlungskompetenz. IBM Deutschland: Stuttgart > http://forum- Beginn des 21. Jahrhunderts. Jena: Friedrich-Schiller-Universität: Jena.
kritische-paedagogik.de/start/download.php?view.198 [Abruf: Lütgert, W./Jachmann, M. (2000): Leistungsbeurteilung und Zeugnisse
24.2.2006]. aus der Sicht Hamburger Eltern. In: Beutel u.a. (2000, 71-110).
Landtag intern (1999): Am Aussagewert von Kopfnoten scheiden sich die Lütgert, W./Tillmann, K.-J. (2000): Vorwort. In. Beutel u.a. (2000, 7).
Meinungen der Fraktionen im Landtag NRW. In: SchulVerwaltung Lütgert, W., u.a. (2001): Leistungsbeurteilung und -rückmeldung an
NRW, 10. Jg., H. 10, 283-284. Hamburger Schulen. Bericht über ein Forschungsprojekt. Hrsgg. von
Leffelsand, S. (2003): Schullaufbahnempfehlungen: Vergleich diagnos- der Behörde für Schule, Jugend und Berufsbildung der Freien und
tischer Entscheidungen von Grundschullehrer/innen und Lehramts- Hansestadt: Hamburg.
studierenden. Poster. Universität: Dortmund > www.ifs.uni-dortmund.de/ Maier, M. (2001): Das Verbalzeugnis in der Grundschule. Verlag
ifs/download/paeps2003_poster_leffelsend.pdf [24.3.06]. Empirische Pädagogik: Landau.
Lehmann, R.H. (1990): Aufsatzbeurteilung - Forschungsstand und Maier, M. (2003): Was leisten Verbalzeugnisse? In: Grundschule, 35. Jg.,
empirische Daten. In: Ingenkamp/Jäger (1990, 64-94). H. 7-8, 72-75.
Lehmann, R.H. (1994): Essays, scoring of. In: Postlethwaite/Husén Martschinke, S., u.a. (2005): Die ersten Notenzeugnisse und der Übertritt
(1994, 2018-2025). in der Perspektive der Kinder - Ergebnisse aus der KILIA-Studie. In:
Lehmann, R.H. (1999): Wider die Notenwillkür. Bildungsforscher Rainer Götz/ Müller (2005, 85-92).
Lehmann über die Leistungen deutscher Schüler - und ihrer Schulen. Meiers, K. (1989a): Nur der Noten wegen schöner schreiben? Offener
In: Die Zeit, Nr. 41 v. 7.10.99, 38. Brief an das Ministerium für Kultus und Sport Baden-Württemberg. In:
Lehmann, R.H. (2001): Messung von Schulleistungen im Primar- und Grundschule, 21. Jg., H. 7+8, 92-93.
Sekundbereich. In: Weinert (2001, 131-141). Meisels S.J., et al. (2001): Trusting teachers' judgements: A validity study
Lehmann, R.H., u.a. (1997): Aspekte der Lernausgangslage von of a curriculum-embedded performance assessment in kindergarten to
Schülerinnen und Schülern der fünften Klassen an Hamburger Schulen. Grade 3. In: American Educational Research Journal, Vol 38, 73-95.
Behörde für Schule, Jugend und Berufsbildung: Hamburg. Meraner, R. (2005): Spitze bei PISA. Die Ergebnisse und erste Über-
Leitzgen, A. (2005): Neues aus PISA. In: Family & Co, H. 10/2005 legungen. In: Info (Informationsschrift für Kindergarten und Schule in
v. 15.9.2005. Südtirol), H. 1 (Jänner)/2005, 12-16.
Lempp, R. (1971): Lernerfolg und Schulversagen. Kösel: München. Merkelbach, N. (1986): Korrektur und Benotung im Aufsatzunterricht.
Learnline (o.J.) www.learn-line.nrw.de/angebote/gemeinsamerunterricht/ Wissenschaftliche Erkenntnisse und didaktische Konzepte. Frankfurt.
leistungsbewertung/index.html (Funktionen und Formen von Leistungs- Merkelbach, V. (2005): Die Strukturfrage ist längst gestellt. Schulpoliti-
bewertungen, rechtliche Bedingungen) [Abruf: 21.2.2006]. sche Perspektiven der Ländervergleichsstudie PISA 2003. In: PISA-
Lenhard, W. (2005): Diagnostische Verfahren zur Schulleistungsfest- INFO 38/2005 der GEW: Frankfurt. http://user.uni-frankfurt.de/
stellung in der Grundschule. In: Götz/Nießeler (2005, 38 ff.). ~merkelba/ > Dezember 2005.
Lind, G. (2003): Benoten und Lernen. Vorlesung Pädagogische Psycho- Merkelbach, V. (2005b): Schule ohne Noten - wie soll das gehen?
logie für Lehramtsstudierende. ? http://www.uni-konstanz.de/ Dialogische Leistungsbewertung als Element einer anderen Lernkultur.
ag-moral/lernen/15_evaluation/noten.htm#pisa [23.1.2003] http://user.uni-frankfurt.de/~merkelba/ > Juni 2005.
Linn, R.L. (2000): Assessments and accountability. In: Educational Merkens, H. (2005): Schulkarrieren von Kindern mit Migrationshinter-
Researcher, Vol. 29, No. 2, 4-15. grund in den ersten drei Jahren der Grundschule. Ergebnisse aus dem
Lissmann, U. (1977): Gewichtung von Abiturnoten und Studienerfolg. Projekt BeLesen: Berliner Längsschnittsstudie zur Lesekompetenz-
Beltz: Weinheim. entwicklung von Grundschulkindern. Berichte aus der der Arbeit des
Lissmann, U. (1981): Zur Wirkung verschiedener Rückmeldungs- Arbeitsbereichs Empirische Erziehungswissenschaft, Nr. 43. Freie
techniken auf Lernende. In: Ingenkamp (1981, 233-289). Universität: Berlin.
Lissmann, U. (1987): Qualität des Unterrichts. Zur Modifikation und Metz, H. (1982): Unterrichtsbeurteilungen auf dem Prüfstand. In: Die
Relevanz der Leistungsrückmeldung des Lehrers und ihrer Abhängig- Deutsche Schule, 74. Jg., H. 1, 44-57.
keit von Lernvoraussetzungen. In: Zeitschrift für erziehungswissen Micklos, J. (1982): Clouds and silver linings: A realistic look at reading
schaftliche Forschung, 21. Jg., 195 217. achievement. In: The Reading Teacher, Vol. 35, 644-646.
Lissmann, U./Paetzold, B. (1987): Leistungsrückmeldung, Lernerfolg und Minker, U. (2005): Der Übergang von der Grundschule zu den weiter-
Lernmotivation. Beltz: Weinheim/Basel. führenden Schulen im Fach Englisch - Fallanalysen im schulischen
Lorz, R.A. (2003). Der Vorrang des Kinderwohls nach Art. 3 der UN- Kontext. Dissertation im FB 3. Universität: Siegen.
Kinderrechtskonvention in der deutschen Rechtsordnung. Hrsgg. von Mount, M., et al. (2000): Incremental vailidity of empirically keyed biodata
der National Coalition für die Umsetzung der UN-Kinderrechtskonven- scales over GMA and the five factor personality constructs. In:
tion in Deutschland. Arbeitsgemeinschaft für Jugendhilfe: 10178 Berlin Personnel Psychology, Vol. 53, No. 2, 299-323.
(Mühlendamm 3). Morys, R. (2006): Die Leistungsselbstsicht von Grundschulkindern im
Ludwig, P. (1995): Pygmalion im Notenbuch. Die Auswirkung von Erwar- Beziehungsgeflecht von Schule und Elternhaus - Schwerpunkt
tungen bei Leistungsbeurteilung und -rückmeldung. In: Pädagogische Leseleistung. Dissertation. Pädagogische Hochschule: Ludwigsburg.
Welt, 49. Jg., H. 3, 114-119. Mreschar, R.I. (Hrsg.) (1985): Erzieher und Erzogene. Schüler, Lehrer,
Lübke, S.-I. (1996): Schule ohne Noten. Lernberichte in der Praxis der Eltern im Blickpunkt der Forschung. Verlag Deutscher Forschungs-
Laborschule. Leske + Budrich: Opladen. dienst: Bonn-Bad Godesberg.
67
Müller, K. (2005): Zeugnisbestimmungen in den Bundesländern. In: Götz/ Persy, E. (1990): Auswirkungen der Leistungsbeurteilung auf Merkmale
Nießeler (2005, 93-101): der Schülerpersönlichkeit. In: Olechowski/Rieder (1990, 129-171).
Müller-Naendrup, B. (Red.) (2005): Lernbeobachtung - Leistungs- Peschel, F. (o.J./1999): Leistungsbewertung: Und unsere Beurteilungs-
beurteilung. Reader zum Seminar. Arbeitsgruppe Primarstufe im FB 2. kriterien stimmen immer noch nicht! Oder: Für eine andere Sichtweise
Universität: Siegen. von Produkt- und Prozessorientierung im (offenen) Unterricht. Vervielf.
National Coalition für die Umsetzung der UN-Kinderrechtskonvention in Ms. Universität: Siegen.
Deutschland (2005): Die Rechte des Kindes nach der Kinderrechts- Peschel, F. (2002a+b): Offener Unterricht - Idee - Realität - Perspektive
konvention der Vereinten Nationen im deutschen Schulwesen. und ein praxiserprobtes Konzept zur Diskussion. Teil I: Allgemein-
Diskussionspapier. Arbeitsgemeinschaft für Jugendhilfe: 10178 Berlin didaktische Überlegungen. Teil II: Fachdidaktische Überlegungen.
(Mühlendamm 3). Schneider Verlag Hohengehren: Baltmannsweiler.
Naegele, I./Valtin, R. (Hrsg.) (2003): LRS - Legasthenie - in den Klassen Peschel, F. (2003): Offener Unterricht - Idee, Realität, Perspektive und
1-10. Handbuch der Lese-Rechtschreib-Schwierigkeiten. Bd. 1: ein praxiserprobtes Konzept in der Evaluation. Dissertation. FB 2 der
Grundlagen und Grundsätze der Lese-Rechtschreibförderung. Beltz: Universität: Siegen/Schneider Hohengehren: Baltmannsweiler.
Weinheim u.a. (6. Aufl.). Petersen, P. (1974): Der Kleine Jena-Plan. Beltz: Weinheim/Basel
Newman, M., et al. (2004): Improving the usability of educational (54./55. Aufl.; 1. Aufl. 1927).
research: Guidelines for the reporting of empirical primary research Petillon, H. (2001). Vorwort zu: Maier, M. »Das Verbalzeugnis in der
studies in education. Evidence for Policy and Practice Information and Grundschule«. Verlag Empirische Pädagogik: Landau.
Coordinating Centre (EPPI-Centre)/Social Science Research Unit Petzold, K./Woest, V. (Hrsg.) (2003): Leistung und Leistungsbewertung.
(SSRU). Institute of Education/University of London. Beiträge des Zentrums für Didaktik, Bd. 2. Friedrich-Schiller-Universität:
Nickel, H. (1982): Schuleingangsberatung auf der Grundlage eines Jena.
ökopsychologischen Schulreifemodells. In. Heller/ Nickel (1982, Pietsch, M. (2005): Schulformwahl in Hamburger Schülerfamilien und die
81-88). Konsequenzen für die Sekundarstufe I. In: Bos/Pietsch (2005, 255-286).
Nichols, S.L., et al. (2006): High stakes testing and student achievement: Pilcher J.K. (1994): The value-driven meaning of grades. In: Educational
Does accountability pressure increase student learning? In: Policy Assessment, Vol. 2, 69-88.
Analysis Archives, Vol. 14, No. 1, 1-180 > epaa.asu.edu/epaa/v14n1/ Pohl, B./Beekmann, A. (2005a): Deutsche Schulen - gut oder aus-
Nisbet, J. (1978): Procedures for Assessment. In: Becher/ Maclure (1978, reichend? Ergebnisse der repräsentativen Lehrer-Befragung durch
95-112). FORSA. Media-Forschung und -Service für Eltern for Family. Gruner &
Oberholzer, S. (2002): Bedeutung der Schulnoten für den beruflichen Jahr: Hamburg.
Erfolg. Über die Funktionen von Schulnoten, ihre Mängel und ihre Pohl, B./Beekmann, A. (2005b): Deutsche Schulen - gut oder aus-
Auswirkungen auf den späteren beruflichen Erfolg. FB Wirtschaft und reichend? Ergebnisse der repräsentativen Eltern-Befragung durch
Recht. > http://www.scsh.ch/startseite/themen/ FORSA. Media-Forschung und -Service für Eltern for Family. Gruner &
maturaarbeiten_05/noten_s_oberholzer.pdf [Abruf: 12.12.2005] Jahr: Hamburg.
OECD (2005): School factoirs related to quality and equity. Results from Portmann, R.(1997): Schülerinnen und Schüler beobachten und
PISA 2000. Organization for Economic Co-operation and Development: beurteilen. In: Haarmann 1997, 225-249).
Paris. Postlethwaite, T. N./Husén, T. (eds.) (1994): International encyclopaedia
Oelkers, J. (2001): Leistungsbeurteilung als Problem und Chance der of education, Vol. 4. Pergamon Press: Oxford (2nd edition).
Schulentwicklung. > www.impulsmittelschule.ch/themata/noten/2001/ Prenzel, M., u.a. (Hrsg.) (2005a): PISA 2003. Der zweite Vergleich der
leistungsbeurteilung.htm [Abruf: 22.1.2006] Länder in Deutschland - Was wissen und können Jugendliche?
Olechowski, R./Persy, E. (Hrsg.) (1987): Fördernde Leistungsbeurteilung. Waxmann: Münster.
Jugend und Volk: Wien/München. Prenzel, M., u.a. (2005b): Vorinformation zu PISA 2003. Zentrale
Olechowski, R./Rieder, K. (Hrsg.) (1990): Motivieren ohne Noten. Jugend Ergebnisse des zweiten Vergleichs der Länder in Deutschland
und Volk: Wien/München. > http://pisa.ipn.uni-kiel.de [Abruf: 12.02.06]
Olechowski, R./Rieder, K. (1991): Verbale Beurteilung in der Schul- Preuß, E. (1994): Leistungserziehung, Leistungsbeurteilung und innere
eingangsstufe - Ergebnisse eine Interventionsstudie. In: Erziehung und Differenzierung in der Grundschule. Bausteine moderner Grundschul-
Unterricht, 141. Jg., 378-384. arbeit - Anregungen und Hilfen. Klinkhardt: Bad Heilbrunn.
Olechowski, R./Sretenovic K. (Hrsg.) (1983): Schule ohne Angst? Eine Preuß, E. (o.J.): Leistungserziehung und Leistungsbeurteilung in der
empirische Interventionsstudie zur Verminderung der Schulangst. Grundschule. Ein Lehr- und Arbeitsbuch Medienwerkstatt: Mühlacker.
Jugend und Volk: Wien/München. Preuss-Lausitz, U. (2005): Verhaltensauffällige Kinder integrieren. Zur
Osnes (1972) Anm. 106. Förderung der emotionalen und sozialen Entwicklung, Eine empirische
Ostrop, G., u.a. (2002): Was denken Kinder über ihre Zeugnisse? In: Studie und ihre persönlichen Konsequenzen. Beltz: Weinheim/Basel.
Valtin (2002a, 49-59). Ramseger, J. (1989): Differenzierende Lernerfolgsrückmeldung - eine
Ott, U. (2005): Leistungsforderung und Leistungsförderung in Integra- Chance zur Wiedergewinnung der Pädagogik. In: Die Schleswig-
tionsklassen. In: Götz/Nießeler (2005, 125-160). Holsteinische, 43. Jg., Nr. 10, 6-11.
Page, E.B. (1992): Ist the world an orerly place? A review of teacher com- Ramseger, J. (1993a): Für und wider Ziffernbenotung und Verbalein-
ments and student achievement. In. Journal of Experimental Education, schätzung. Zwei Wissenschaftler im Meinungsstreit. In: Deutsche
Vol. 60, 161-181. Lehrerzeitung, 40. Jg., Nr. 45/1993 (2. Novemberausgabe), 4.
Panagiotopoulou, A./Brügelmann H. (Hrsg.) (2003): Grundschulpädagogik Ramseger, J. (1993b): Ich bleibe dabei: Die Ziffernnoten abschaffen! In:
meets Kindheitsforschung: Zum Wechselverhältnis von schulischem Deutsche Lehrerzeitung, 40.Jg., Nr. 45/1993 (3. Novemberaus-
Lernen und außerschulischen Erfahrungen im Grundschulalter. gabe), 6.
Leske + Budrich: Opladen. Ratzka, N. (2003): Mathematische Fähigkeiten und Fertigkeiten am Ende
Paradies, L., u.a. (2005): Leistungsmessung und -bewertung. Cornelsen der Grundschulzeit - Empirische Studien im Anschluss an TIMSS (Phil.
Scriptor, Berlin. Diss. FB 2 der Universität Siegen). Franzbecker: Hildesheim/Berlin.
Pekrun, R. (1996): Ziffernzensuren oder Berichtszeugnisse? Drei kritische Ratzki, A. (2005): »Wir achten die Einzigartigkeit eines jeden Kindes und
Anmerkungen zur Annahme unterschiedlicher Wirkungen. In: Benner vertrauen auf sein Potenzial.« Eine Bildungsreise durch Südtiroler
u.a. (1996b, 253-259). Schulen. In: Forum (GEW Köln), November 2005.
68
Ratzki, A. (2006): Finnland in Südtirol. Die deutschsprachige Region Rosenfeld, H./Valtin, R. (1997): Zur Entwicklung schulbezogener Persön-
in Italien sorgt für große Überraschung bei PISA 2003. In: e&w, lichkeitsmerkmale bei Kindern im Grundschulalter. Erste Ergebnisse
H. 2/2006, 24-25. aus dem Projekt NOVARA. In: Unterrichtswissenschaft, 25. Jg., H. 4,
Reich, K. (Hrsg.) (2003 ff.): Systemische Benotung. In: Methodenpool. > 316-330.
http://methodenpool.uni-koeln.de [Abruf: 18.12.05] Rosenfeld, H./Valtin, R. (2002): Welche Einstellungen und Erwartungen
Reilly, R.R./Chao, G.T. (1982): Validity and fairness of some alternative haben Eltern in Bezug auf die Grundschule? In: Valtin (2002a, 27-36).
employee selection procedures. In: Personnel Psychology, Vol. 35, Rost, D.H. (Hrsg.) (1998): Handwörterbuch Pädagogische Psychologie.
No. 1, 1-62. Psychologie Verlags Union: Weinheim.
Reimers, H. (1991): Länderübersicht zur Leistungsbeurteilung in Zeug- Roth, P.L., et al. (1996): Meta analyzing the relationship between grades
nissen der Klassen zwei, drei und vier (Stand: September 1991). In: and job performance: A quantitative synthesis. In: Journal of Applied
Grundschul-Zeitschrift, 5. Jg., H. 49, 3. Psychology, Vol. 81, 548 556.
Reuchlin, M. (1971): Testergebnisse und Zensuren der Klassenlehrer. In: Rotte, R. (ed.) (2006): International perspectives on education policy.
Ingenkamp (1971, 164-167). Nova Science Publ.: New York (forthcoming).
Rheinberg, F. (1980): Leistungsbewertung und Lernmotivation. Hogrefe: Ryan, R.M./Deci, E.L. (2000): Self-determination theory and the facili-
Göttingen. tation of intrinsic motivation, social development, and well-being. In:
Rheinberg, F. (Hrsg.) (1982): Bezugsnormen zur Schulleistungsbewer- American Psychologist, Vol. 55, 68-78.
tung. Analyse und Intervention. Jahrbuch für empirische Erziehungs- Sacher, W. (1996): Prüfen, Beurteilen, Benoten. Klinkhardt: Bad Heil-
wissenschaften. Schwann. Düsseldorf. brunn. Sacks, P. (2004). The Geography of Privilege. In: Encounter:
Rheinberg, F. (1987): Soziale versus individuelle Leistungsvergleiche und Education for Meaning and Social Justice, Vol. 17, No. 1 (Spring), 7.
ihre motivationalen Folgen in Lehr-Lernsituationen. In: Olechowsk/ Sailer, W. (1998): Lernentwicklungsbericht in der Sekundarstufe I: Ab-
Persy (1987,80-115). schlussbericht. Schulbegleitforschung Projekt 46. Hrsgg. vom Bremer
Rheinberg, F. (1998): Bezugsnormorientierung. In: Rost (1998, 39-43). Landesinstitut für Schule (LIS): Bremen.
Rheinberg, F. (1995): Individuelle Bezugsnormen der Leistungsbeurtei- Saldern, M.V. (1999): Schulleistung in Diskussion, Schneider Verlag:
lung und Motivation im Unterricht. In: Pädagogische Welt 49. Jg., H. 2, Hohengehren.
59-62. Samson, G. E., et al. (1984): Academic and occupational performance:
Rheinberg, F. (2001): Bezugsnormen und schulische Leistungsbeurtei- A quantitative synthesis. In: American Educational Research Journal,
lung. In: Weinert (2001, 59-71). Vol. 21, 311 321.
Rheinberg, F./Peter, R. (1982): Selbstkonzept, Ängstlichkeit und Schul- Sauer, J./Gamsjäger, E. (1996): Ist Schulerfolg vorhersehbar? Die
unlust von Schülern. In: Rheinberg (1982, 143-159). Determinanten der Grundschulleistung und ihr prognostischer Wert für
Rhoades, K./Madaus, G. (2003): Errors in standardized tests: A systemic den Sekundarschulerfolg. Hogrefe: Göttingen u.a.
problem. National Board on Educational Testing and Public Policy. Schaub, H. (1993): Weder Noten - noch Berichtszeugnisse: Lernentwick-
Lynch School of Education: Boston. Download > http://www.bc.edu/ lungsberichte. Von der Zeugnisreform zur pädagogisch-diagnostischen
research/nbetpp/statements/M1N4.pdf [Abruf: 15.3.06]. Reform. In: Grundschulzeitschrift, 8. Jg., H. 63, 8-11.
Richter, S. (1996): Unterschiede in den Schulleistungen von Mädchen Scheerer, H., u.a. (1985): Verbalbeurteilungen in der Grundschule.
und Jungen. Geschlechtsspezifische Aspekte des Schriftspracherwerbs Arbeits- und Sozialverhalten in Grundschulzeugnissen in Nordrhein-
und ihre Berücksichtigung im Unterricht. S. Roderer: Regensburg Westfalen. In: Zeitschrift für Pädagogik, 31. Jg., H. 2, 175-200.
> www.uni-regensburg.de/Fakultaeten/phil_Fak_II/ Scheerer-Neumann, G. (1996): Störungen des Erwerbs der Schriftlichkeit
Grundschul_Paedagogik/content/a_sexdif.html bei alphabetischen Schriftsystemen. In: Günther/Ludwig (1996, 2. Hb.,
Richter, S./Brügelmann, H. (Hrsg.) (1994): Mädchen lernen ANDERS 1329-1352).
lernen Jungen. Geschlechtsspezifische Unterschiede beim Schrift- Scherer, P. (2004): Was »messen« Mathematikaufgaben? - Kritische
spracherwerb. DGLS Reihe »Lesen und Schreiben«. Libelle: CH Anmerkungen zu Aufgaben in den Vergleichsstudien. In: Bartnitzky/
Lengwil. > www.agprim.uni-siegen.de/maedchenjungen/index.htm Speck-Hamdan (2004, 270-280).
Rieder, K. (Hrsg.) (1990): Motivieren ohne Noten. Wien. Schiefele, H. (1960): Sind unsere Noten gerecht? In: Welt der Schule,
Roeder, P.M. (1997): Entwicklung vor, während und nach der Grund- 12. Jg., 251-257.
schulzeit. Literaturüberblick über den Einfluss der Grundschulzeit auf Schiefele, U./Wild, K.-P. (2000): Interesse und Lernmotivation. Unter-
die Entwicklung in der Sekundarstufe. In: Weinert/Helmke (1997, suchungen zu Entwicklung, Förderung und Wirkung. Waxmann:
405-421). Münster/New York.
Roeder, P.M./Sang, F. (1991): Über die institutionelle Verarbeitung von Schlattmann, H. (1978): Zur Frage angemessener Methodenstrategien bei
Leistungsunterschieden. In: Zeitschrift für Entwicklungspsychologie und der Vorhersage des Studienerfolgs. Phil. Diss. Universität: Saarbrücken.
Pädagogische Psychologie, 23. Jg., H. 2, 159-170. Schlömerkemper, J. (2001): Leistungsmessung und Professionalität des
Röhr, H. (1978): Voraussetzungen zum Erlernen des Lesens und Recht- Lehrerberufs. In: Weinert (2001, 311-321).
schreibens. Dissertation. Universität: Münster. Schlottke, P.F./Speidel, E. (1981): Der Schulbericht in der Grundschule.
Roos, M. (2000): Evaluationsbericht zum Schulversuch »Erweiterte In: Lehren und Lernen, 7. Jg., H. 3, 1-27.
SchülerInnen- und Schülerbeurteilung«. Befragung der involvierten Schmack, E. ( 1978): Zur neuen Schülerbeurteilung in der Grundschule.
Gymnasiallehrpersonen, Eltern und SchülerInnen im Auftrag der In: Pädagogische Rundschau 32. Jg., 233-253.
Luzerner Projektleitung Gymnasialreform. Vervielf. Ms. [am 8.12.2005] Schmidt, H.-J. (1981): Grundschulzeugnisse unter der Lupe. In: Die
direkt über den Verf. bezogen > [email protected]). Deutsche Schule, 73. Jg., H. 7-8, 486-496.
Roos, M. (2001): Beurteilen und Fördern in der Primarschule. Eine Schmied, D. (1976): Abiturnoten, Testverfahren und Prognose des
Untersuchung, wie erweiterte Beurteilungsformen erfolgreich umgesetzt Studienerfolgs. Blickpunkt Hochschuldidaktik Nr. 39. Arbeitsgemein-
werden können. Rüegger: Chur/Herold: Oberhaching/München. schaft für Hochschuldidaktik: Hamburg.
Roos, M. (2003): Schülerbeurteilung und Schulentwicklung im Fürstentum Schmitt, R. (Hrsg.) (1999): An der Schwelle zum dritten Jahrtausend -
Liechtenstein. Wissenschaftliche Evaluation. Schlussbericht. Pädago- BundesGrundschulKongress 1999. Beiträge zur Reform der Grund-
gisches Institut der Universität: Zürich. schule Bd. 105: Grundschulverband - Arbeitskreis Grundschule e.V.:
Rosemann, B. (1978): Prognosemodelle und Schullaufbahnberatung. Frankfurt [darin Forum III »Grundschule - Schule der Vielfalt und
Reinhardt: München/Basel. Gemeinsamkeit. Qualität der Leistung«, 137-196].
69
Schmitt, R., u.a. (1992): Grundschule in Europa - Europa in der Grund- Schwarzer, R., u.a. (1982): Die Bezugsnorm des Lehrers aus der Sicht
schule. Beiträge zur Reform der Grundschule Bd. 83/84. Arbeitskreis des Schülers. Eine Längsschnittstudie zum Einfluß des Klassenlehrers.
Grundschule: Frankfurt. In: Rheinberg (1982, 161 172).
Schmitt, R. (Hrsg.) (2001): Grundlegende Bildung in Europa. Beiträge Schweizerische Koordinationsstelle für Bildungsforschung (1999): Mehr
zur Reform der Grundschule Bd. 112. Grundschulverband: fördern, weniger auslesen. Zur Entwicklung der schulischen Beurteilung
Frankfurt. in der Schweiz; Trendbericht SKBF Nr. 3, S. 192.
Schmude, C. (2001): Berichtszeugnisse - unnötiger Aufwand oder auf Seel, T. (2002). Studium, Berufseinmündung, beruflicher Werdegang.
wendige Notwendigkeit? Evaluation verbaler Leistungsbeurteilungen Ergebnisse einer Befragung von Absolventinnen und Absolventen des
und differenzielle Entwicklungsverläufe bei Kinder im Grundschulalter. Diplomstudiengangs. Diplomarbeit im Fach Psychologie. Universität:
Dissertation an der Humboldt-Universität: Berlin. Konstanz.
Schmude, C. (2002a): Wie werden Berichtszeugnisse realisiert? In: Valtin Seidel, B. (2005): Das Risiko punktueller Lernstandserhebungen.
(2002a, 77-87). Befunde aus einer Fallstudie zur Rechtschreibentwicklung in Klasse
Schmude, C. (2002b): Was ist ein gutes Berichtszeugnis? In: Valtin 4-6. In: Glatz/Kell (2005, 111-123).
(2002a, 89-100). Seidel, B. (Hrsg.) (2006): Einstein, Luke Skywalker und all' die anderen.
Schmude, C., u.a. (2003). Traumberuf Grundschulpädagoge!? - Beam- Kinder und ihre Lernbiografien - Beiträge aus dem Projekt LISA&KO.
tenstatus, Freizeit, Versagensängste - Erste Ergebnisse einer Unter- Universität: Siegen.
suchung bei Studierenden der Grundschulpädagogik an der HU Berlin Selter, C. (2005): VERA Mathematik 2004. VERbesserungsbedürftige
über die Gründe und Motive ihrer Berufswahl sowie ihrer Ängste und Aufgaben! VERkapptes Ausleseinstrument? In: Grundschule aktuell,
Befürchtungen > http://www2.hu-berlin.de/gsw/downloads/zs_netz.pdf H. 89, 17-20.
[Abruf: 23.3.06]. Severinski, N. (1990): Projekt: Effekte unterschiedlicher Motivierung in
Schneider, B. (1985): Lese- und Rechtschreibschwäche. Primäre und der Schuleingangsstufe. Ergebnisse der Untersuchung. In: Olechowski/
sekundäre Ursachen. Dissertation. Fakultät für Biologie der Universität: Rieder (1990, 218-229).
Freiburg. Shepard, L. (1991): Will national tests improve student learning? In:
Schneider, B. (1985a): Lese- und Rechtschreibschwäche. Primäre und Phi Delta Kappan, Vol. 73, No. 3, 232-238.
sekundäre Ursachen. Dissertation der Fakultät Biologie. Universität: Shulman, L. S. (ed.) (1977): Review of research in Education. Vol. 5.
Freiburg/Hochschulverlag: Freiburg. Peacock: Itasca, Ill.
Schönwälder, H.-G. (2000): Berufsbelastung von GrundschullehrerInnen. Sinn, H.-W. (2006): Alte Ideologien. Über Pisa und die deutsche Drei-
In: Kahlert u.a. (2000, 113-128). Klassen-Gesellschaft. In. Wirtschaftswoche. Nr. 11 von 13.3.06, 250.
Schrader, F.-W. (1989): Diagnostische Kompetenzen von Lehrern und Solzbacher, C. (2001): Zwischen Verhalten, Arbeitstugenden und
ihre Bedeutung fr die Gestaltung und Effektivität des Unterrichts. Peter Kompetenzen: Kopfnoten und die »Bewertung« von Schlüsselkompe-
Lang: Frankfurt. tenzen. In: Solzbacher/Freitag (2001, 77-104).
Schrader, F.-W. (1997): Lern- und Leistungsdiagnostik im Unterricht. In: Solzbacher, C./Freitag C. (Hrsg.) (2001): Anpassen, verändern, abschaf-
Weinert (1997, 659-699). fen? Schulische Leistungsbewertung in der Diskussion. Klinkhardt,
Schrader, F.-W./Helmke, A. (2001): Alltägliche Leistungsbeurteilung Bad Heilbrunn.
durch Lehrer. In: Weinert (2003, 43-58). Sommer, W. (1983): Bewährung des Lehrerurteils. Eine empirische
Schröter, G. (1981a): Zensuren? Zensuren! Allgemeine und fachspezifi- Untersuchung über den Aussagewert des Lehrerurteils über den
sche Probleme. Burgbücherei Schneider: Baltmannsweiler (3. erw.Aufl.; Bildungs und Berufserfolg. Julius Klinkhardt: Bad Heilbrunn.
1. Aufl.: Henn: Kastellaun 1977). Speck-Hamdan, A., u.a. (Hrsg.) (2003): Kulturelle Vielfalt - Religiöses
Schröter, G. (1981b): Zeugnisse muss man richtig lesen - Zensuren Lernen. Jahrbuch Grundschule, Bd. 4. Kallmeyer: Seelze/Grundschul-
richtig beurteilen. In: Schröter (1981c). verband: Frankfurt.
Schröter, G. (Hrsg.) (1981c): Schulkinderprobleme. Burgbücherei Spiewak, M. (2006): Schlechte Noten. Fehlende Chancengleichheit,
Schneider: Baltmannsweiler. verschenktes Bildungspotenzial und die Verlagerung von Kompetenzen
Schröter, G. (1982): Was Deutsche von Zensuren halten. In: Wester- auf Länderebene: UN-Sonderberichterstatter Muñoz hat die wunden
manns Pädagogische Beiträge, 34. Jg., H. 5, 194-197. Punkte unseres Schulsystems benannt. Ein Kommentar. In: Zeit online
Schröter, G. (1993): Für und wider Ziffernbenotung und Verbaleinschät- v. 21.2.2006 > http://zeus.zeit.de/text/online/2006/08/schulsystem
zung. Zwei Wissenschaftler im Meinungsstreit. In: Deutsche Lehrer- [Abruf: 22.2.2006]
zeitung, 40. Jg., Nr. 45/1993 (2. Novemberausgabe), 5. Stallmann, M. (1999): Soziale Herkunft und Oberschulübergänge in einer
Schümer, G. (2004): Zur doppelten Benachteiligung von Schülern aus Berliner Schülergeneration. Eine Logit-Analyse von Schülerbögen. In:
unterprivilegierten Gesellschaftsschichten im deutschen Schulwesen. Zeitschrift für Pädagogik, 36. Jg., H. 2, 241-258.
In: Schümer u.a. (2004, 73-114). Starch, D./Elliot, E.C. (1971): Die Verläßlichkeit der Zensuren von
Schümer, G., u.a. (Hrsg.) (2004): Die Institution Schule und die Lebens- Mathematikarbeiten. In: Ingenkamp (1971, 69-77).
welt der Schüler. Vertiefende Analysen der PISA-2000-Daten zum Stecher, L. (2003): Schulerleben am Ende der Grundschule. In:
Kontext von Schülerleistungen. Verlag für Sozialwissenschaften: Panagiotopoulou/Brügelmann (2003, 55-68).
Wiesbaden. Steinkamp, G. (1971): Die Rolle des Volksschullehrers im schulischen
Schuler, H. (1998): Noten und Studien und Berufserfolg. In: Rost (1998, Selektionsprozeß. In: Ingenkamp (1971, 256-276).
370 374). Stepanek, M. (2005): Gute Noten: Schule ködert Schüler mit Geld.
Schuler, H./Stehle, W. (1990): Biographische Fragebogen als Methode Direktor verteidigt Belohnung als leistungs- und motivationsfördernd.
der Personalauswahl. Verlag für angewandte Psychologie: Stuttgart pressetext.austria v. 18.11.05.
(2. unveränderte Aufl.). Stiggins, R. (1999): Assessment, student confidence, and school
Schwark, W., u.a. (Hrsg.) (1991): Beurteilen und Benoten in der Grund- success. In: Phi Delta Kappan, Vol. 81, No. 3, 191-198.
schule. Bestandsaufnahme und Anregungen aus der Praxis. Ehren- Strittmatter, A. (2003): Wem Gott ein Amt gibt... Unterrichtsbesuche
wirth: München (1. Aufl. 1986). redlich und hilfreich anlegen. In: Schulmanagement, H. 6/2003, 8-11.
Schwartz, E. (Hrsg.) (1969): Ausgleichende Erziehung in der Grund- Sundermann, B./Selter, C. (2005): Mathematikleistungen feststellen, be-
schule. Grundschulkongress ’69, Bd. 2. Arbeitskreis Grundschule e.V.: urteilen und fördern. Beschreibung des Moduls 9 für das Projekt SINUS-
Frankfurt. Transfer Grundschule > www.sinus-grundschule-de/ [Abruf: 13.1.06].
70
Sundermann, B./Selter, C. (2006): Beurteilen und Fördern im Mathe- Ullrich, H./Woebcke, M. (1981): Notenelend in der Grundschule. Alter-
matikunterricht. Gute Aufgaben - Differenzierte Arbeiten - Ermutigende native Beurteilungsformen für die Praxis. Kösel: München.
Rückmeldungen. Cornelsen Scriptor: Berlin. Ulshöfer, R. (1949): Zur Beurteilung von Reifeprüfungsaufsätzen. In: Der
Tent, L. (1998): Zensuren. In: Rost (1998, 580 584). Deutschunterricht, 1. Jg., H. 8, 84-102.
Textor, A. (2006): Differenzieren und öffnen. Empfehlungen zum Unter- Undeutsch, U. (1971): Die Konstanz des Maßstabes bei Aufnahme-
richt mit schwierigen Kindern. In: Lernchancen, 9. Jg., H. 49, 19-21. prüfungen. In: Ingenkamp (1971, 233-235).
Theiler, P., u.a. (1987a): Ganzheitliche Schülerbeurteilung. Bericht des Valencia, S.W./Au, K.H. (1997); Portfolios across educational contexts:
Projektleitungsstabes. Erziehungsdepartement: Luzern. Issues for evaluation, teacher development and system validity. In:
Theiler, P., u.a. (1992): Beurteilen und Fördern. Bericht des Projekts- Educational Assessment, Vol. 4, 1-35.
leitungsstabs »Ganzheitlich Beurteilen und Fördern«. Erziehungs- Valtin, R. (1999): NOVARA, NOVUS und SABA. Kurzbericht über drei
departement des Kantons: Luzern. Studien aus der Grundschulforschung. In: Brügelmann u.a. (1999,
Thiel, O. (2004): Modellierung der Bildungsgangempfehlung in Berlin 110-113).
> http://edoc.hu-berlin.de/dissertationen/thiel-oliver-2005-12-16/PDF/ Valtin, R. (Hrsg.) (2002a): Was ist ein gutes Zeugnis? Noten und verbale
thiel.pdf [Abruf: 24.2.2006]. Beurteilungen auf dem Prüfstand. Juventa: Weinheim/München.
Thiel, O./Valtin, R. (2002): Eine Zwei ist eine Drei ist eine Vier. In: Valtin Valtin, R. (2002b): Die Note als Giftpilz des Haus- und Schullebens?
(2002a, 67-76). In: Valtin (2002a, 11-16).
Thomas, L. (2001): Moderne Kopfnoten - am Beispiel Niedersachsen Valtin, R. (2002c): Grundschule und Leistungsbeurteilung - Anspruch und
können erste Ergebnisse und Erfahrungen berichtet werden. In: Wirklichkeit. In: Valtin (2002a, 139-146).
Schulmanagement, 32. Jg., H. 6, 36-40. Valtin, R. (2002d): Informationen zum Projekt NOVARA. In: Valtin (2002a,
Thüringer Kultusministerium (Hrsg.) (2002a): »Einschätzung zur Kompe- 147-151).
tenzentwicklung« - ein Beispiel für Schulentwicklung in Thüringen. Valtin, R. (2003): Das Projekt NOVARA. Schulische Sozialisation und
Kultusministerium: Erfurt. Leistungsbeurteilung. In: Speck-Hamdan u.a. (2003, 155-158).
Thüringer Kultusministerium (Hrsg.) (2003): »Einschätzung zur Kom- Valtin, R. (2004): »Durch Wiegen wird die Sau nicht fett«. Die Grund-
petenzentwicklung«. Teil II: Praktische Handreichung zum Einschät- schulpädagogin Renate Valtin sagt, warum sie nichts von Schulnoten
zungsbogen. Red./Inhalt: Behr, U./Beutel, S.-I./Getschmann, K. u.a. hält. In: Die Zeit, Nr. 8 v.12.2.04, 71
Kultusministerium: Erfurt. Valtin, R./Rosenfeld, H. (1997): Zur Präferenz von Noten- oder Verbal-
Thurn, S. (1997): Lernen, Leistung, Zeugnisse - eine Schule (fast) ohne beurteilung - Ein Vergleich Ost- und Westberliner Eltern. In: Zeitschrift
Noten. In: Thurn/Tillmann (1997, 63-78). für Pädagogik, 37. Beiheft, 293-304.
Thurn, S. (1998): Entwickeln, erstellen, austauschen, reflektieren, Valtin, R./Rosenfeld, H. (2002): Welche Erfahrungen, Einstellungen und
vergewissern, bilanzieren, bewerten, weiterentwickeln: 25 Jahre Wünsche haben Eltern in Bezug auf Notengebung und Verbalbeurtei-
Evaluationsarbeit an Lernberichten. In: Tillmann/Wischer (1998, 74-84). lung? In: Valtin (2002a, 37-47).
Thurn, S./Tillmann, K.-J. (1997): Unsere Schule ist ein Haus des Valtin, R./Schmude, C. (2002): Wofür braucht man ein Zeugnis? Zur
Lernens. Das Beispiel Laborschule Bielefeld. Rowohlt: Reinbek. Funktion von Zeugnissen aus der Sicht von Experten und Betroffenen.
Tillmann, K. J. (1997): Ist die Schule ewig? Ein schultheoretischer Essay. In: Valtin (2002a, 17-26).
In: Pädagogik, 49. Jg., H. 6, 6 10 (nachgedruckt in: Baumgart/Lange Valtin, R./Wagner, C. (2002): Wie wirken sich Notengebung und verbale
1999, 305 314). Beurteilung auf die leistungsbezogene Persönlichkeitsentwicklung aus?
Tillmann, K.-J. (2004): Wenig Leistung und viel Selektion: Der PISA-Blick In: Valtin (2002a, 113-137).
auf deutsche Schulen. Vortrag bei der Jahrestagung der Gesellschaft Valtin, R., u.a. (1996): Zeugnisse auf dem Prüfstand. Noten- oder
zur Förderung Pädagogischer Forschung im Mai 2004. Vervielf. als Verbalbeurteilung im Ost-West-Vergleich. In: Benner u.a. (1996a,
PISA-INFO 02/2006 von der Gewerkschaft Erziehung und Wissen- 122-164).
schaft: Frankfurt. Valtin, R., u.a. (2004): SchülerInnen und Schüler am Ende der vierten
Tillmann, K.-J./Vollstädt, W. (1999): Die Funktion der Leistungsbeurtei- Klasse - schulische Leistungen, lernbezogene Einstellungen und
lung in unterschiedlichen Schulstufen und Bildungsgängen - eine außerschulische Lernbedingungen. In: Bos u.a. (2004, 187-238).
schultheoretische Einordnung. In: Beutel u.a. (1999, 8-39). Vierlinger, R. (1999): Leistung spricht für sich selbst. »Direkte Leistungs-
Tillmann, K.-J./Vollstädt, W. (2000): Funktionen der Leistungsbewertung. vorlage« (Portfolio) statt Ziffernzensuren und Notenfetischismus. Dieck:
Eine Bestandsaufnahme. In: Beutel/Vollstädt (2000, 27-38). Heinsberg.
Tillmann, K.-J./Wischer, B. (Hrsg.) (1998): Schulinterne Evaluation an Vögeli-Mantovani, U. (1999): Mehr fördern, weniger auslesen: Zur Ent-
Reformschulen. Positionen, Konzepte, Praxisbeispiele. Impuls 30. wicklung der schulischen Beurteilung in der Schweiz. SKBF/CSRE,
Laborschule an der Universität: Bielefeld. Trendberichte Nr. 3. Schweizerische Koordinationsstelle für Bildungs-
Travers, C.J./Cooper, C.L. (1996): Teachers under Pressure. Stress in forschung: Aarau.
the Teaching Profession. Routledge: London/New York. Vollstädt, W./Jachmann, M. (2000): Leistungsbeurteilung, Zeugnisse und
Trost, G., u.a. (1998): Evaluation des Tests für medizinische Studien- Lernkultur aus der Sicht Hamburger Sekundarschülerinnen und
gänge (TMS): Synopse der Ergebnisse. Institut für Test und -schüler. In: Beutel u.a. (2000, 111-154).
Begabungsforschung: Bonn. Wagener, M. (2002): Sind LehrerInnen, die verbal beurteilen, reform-
Trudewind, C./Krohne, W. (1982): Bezugsnorm-Orientierung der Lehrer orientierter? Zu Unterrichtsorganisation und Rückmeldeverhalten. In:
und Motiventwicklung: Zusammenhänge mit Schulleistung, Intelligenz Valtin (2002a, 101-112).
und Merkmalen der häuslichen Umwelt in der Grundschulzeit. In: Wagener, M. (2003): Ziffernzensuren oder verbale Beurteilung? Beltz
Rheinberg (1982, 115-141). Wissenschaft: Weinheim.
Ubben, L. (1992): Grundschule ohne Noten - Entwicklungslinien zum Walcher, U. (1997): Sind Schulnoten und Aufnahmetests Prädiktoren für
Entwicklungsbericht in allen vier Grundschuljahren. Vervielf. Ms. den weiteren Schulerfolg? Eine empirische Untersuchung. Diplom-
Senator für Bildung: Bremen (dazu: Rundverfügung Nr. 65/92). arbeit. Universität: Wien.
Ulbricht, H. (1993): Wortgutachten auf dem Prüfstand. Eine empirische Wallrabenstein, K. (1992): Berichtszeugnisse auch in Klasse 3 und 4 -
Untersuchung zur verbalen Beurteilung in der 1. und 2. Klasse der Erfahrungen aus Hamburg. In: Bartnitzky/Portmann (1992, 120-127).
Grundschule mittels Elternbefragung und Zeugnisanalyse. Münster/ Wang, M.C., et al. (1993): Toward a knowledge base for school learning.
New York. In: Review of Educational Research, Vol. 63, No. 3 (Fall), 249-294.
71
Wehr, D. (1992): Grundschulkinder schätzen sich und ihre Leistung ein. Würscher, I./Schmude, C. (1997): Für wen sind Zeugnisse, und zu
In: Bartnitzky/Portmann (1992, 61-83). welchem Zweck werden sie verfasst? Was Zweitkläßler, Lehrkräfte und
Weinert, F.E. (Hrsg.) (1997): Psychologie des Unterrichts und der Eltern darüber denken. In: Deutsche Lehrerzeitung, No. 29-30, 11.
Schule. Hogrefe: Göttingen u.a. Würscher, I., u.a. (1999): Noten- oder Berichtszeugnisse? Ergebnisse
Weinert, F.E. (Hrsg.) (1998): Entwicklung im Kindesalter. Psychologie aus dem Forschungsprojekt NOVARA. In: Giest/Scheerer-Neumann
Verlags Union: Weinheim. (1999, 284-298).
Weinert, F.E. (Hrsg.) (2001): Leistungsmessungen in Schulen. Beltz/ Yung, B. (2002) Same assessment, different practice; professional cons-
Weinheim. ciousness as a determinant of teachers; practice in a school-based
Weinert, F.E./Helmke, A. (Hrsg.) (1997a): Entwicklung im Grundschulalter. assessment scheme. In: Assessment in Education, Vol. 9, 97-117.
Beltz Psychologie Verlags Union: Weinheim. ZEPF (Hrsg.) (2005): Die wichtigsten Ergebnisse der dritten Befragung
Weinert, F.E./Helmke, A. (1997b): Theoretischer Ertrag und praktischer des Bildungsbarometers Bildungsbarometer. Newsletter 2/2005.
Nutzen der SCHOLASTIK Studie zur Entwicklung im Grundschulalter. Zentrum für empirische pädagogische Forschung. Universität: Landau.
In: Weinert/ Helmke (1997a, 457 474). www.bildungsbarometer.de/informationen/downloads.html
Weinert, F.E./Schneider, W. (eds.) (1999): Individual development from Ziegenspeck, J.W. (1999): Handbuch Zensur und Zeugnis in der Schule.
3 to 12: Findings from the Munich Longitudinal Study. Cambridge Historischer Rückblick, allgemeine Problematik, empirische Befunde
University Press: New York, NY, et al. und bildungspolitische Implikationen. Klinkhardt: Bad Heilbrunn.
Weinert, F.E., u.a. (Hrsg.) (1974): Funk Kolleg Pädagogische Psycho- Zielinski, W. (1974a): Die Beurteilung von Schülerleistungen. In: Weinert
logie. Bd. 1 und 2. Fischer Taschenbücher 6115/ 6116: Frankfurt. u.a. (1974, 877, 900).
Weingardt, E. (1971a): Die Verteilung der Noten von Sexta bis Ober- Zielinski, W. (1974b): Verfahren zur Beurteilung des Unterrichts. In:
prima. In: Ingenkamp (1971, 205-215). Weinert u.a. (1974, 901 923).
Weingardt, E. (1971b): Untersuchungen über Korrelationen zwischen Zielinski, W. (1980): Lernschwierigkeiten. Ursachen - Diagnostik -
Reifeprüfungsnoten und Erfolg auf der Universität. In: Ingenkamp Intervention. Kohlhammer: Stuttgart.
(1971, 252-255). Zielinski, W. (1995): Lernschwierigkeiten. Ursachen - Diagnostik - Inter-
Weiss, R. (1965a): Über die Zuverlässigkeit der Ziffernbenotung bei vention. Kohlhammer: Stuttgart (1. Aufl. 1980).
Aufsätzen. In: Schule und Psychologie, H. 9/1965, 257-269. Zinnecker, J. (1995): Pädagogische Ethnographie. Ein Plädoyer. In:
Weiss, R. (1965b): Zensur und Zeugnis. Haslinger: Linz. Behnken/Jaumann (1995, 21-38).
Weiss, R. (1966a): Über die Zuverlässigkeit der Ziffernbenotung bei
Rechenarbeiten. In: Schule und Psychologie, H. 5/1966, 144-151. Abbildungen
Weiss, R. (1966b): Über die Auswirkung bestimmter Einstellungen auf Abb. 1, S. 10-12: Zeugnisbestimmungen in den Bundesländern. Nach
Zensuren. In: Unser Weg, 166-177. Müller (2005).
Weiss, R. (1971): Über die Strenge der Benotung in verschiedenen Abb. 2, S. 14: Erstellt für diese Expertise von Backhaus (2006).
Unterrichtsgegenständen. In: Ingenkamp (1971, 186-190). Abb. 3, S. 32: Bezugsnormen im Vergleich. Zum Modellversuch in zwei
Weiss, R. (1977): Die Zuverlässigkeit der Ziffernbenotung bei Aufsätzen Luzerner Gymnasien. In: Roos (2000, 14).
und Rechenarbeiten. Ingenkamp (1977, 104-116). Abb. 4, S. 37: Die größten Ängste der Kinder. In: pro Kids (2004, 25).
Weiß, R.A. (1985): Prognostische Validität von Schullaufbahnberatungen Abb. 5, S. 41: Einstellung zu Noten. EFF-Schulbefragung: Ergebnisse der
in 4. Grundschulklassen. Eine Langzeitstudie. In Greuer-Werner u.a. repräsentativen Lehrer-Befragung. In: Pohl/Beekmann (Sept. 2005, 85).
(1985, 84-107). Abb. 6, S. 45: Einstellung zu Noten - nach Klasse des Kindes.
Weiß, W.W. (1991): Lehrerbefragung zur Leistungsbeurteilung in der EFF-Schulbefragung: Ergebnisse der repräsentativen Eltern-Befragung.
Grundschule. In: Schwark u.a. (1991, 59-102). In: Pohl/Beekmann (Sept. 2005, 109).
Weston, P. (ed.) (1991): Assessment of pupils achievement: Motivation Abb. 7, S. 48: Heilige Kühe des deutschen Schulsystems. In: ZEPF (2005).
and school success. Swets and Zeitlinger: Amsterdam. Abb. 8, S. 57: Systematische Notengebung. In: Reich (2003).
Weuster, A./Scheer, B. (2005): Arbeitszeugnisse in Textbausteinen.
Richard Boorberg Verlag: Stuttgart u.a.
Whetton, C., et al. (1991): A report on teacher assessment. School
Examinations and Assessment Council: London.
Wilson M (ed.) (2004): Towards coherence between classroom assess- © 2014 Grundschulverband e.V.
ment and accountability, 103rd Yearbook of the National Society for the
Study of Education. Part II. National Society for the Study of Education: Niddastraße 52
Chicago, Ill. 60329 Frankfurt am Main
Winter, F. (1991): Schüler lernen Selbstbewertung. Ein Weg zur Verände- Telefon (069) 77 60 06
rung der Leistungsbeurteilung und des Lernens. Lang: Frankfurt a.M. Fax (069) 7 07 47 80
Winter, F. (1996): Schülerselbstbewertung. Die Kommunikation über [email protected]
Leistung verbessern. In: Bambach u.a. (1996, 34-37). www.grundschulverband.de
Winter, F. (2004): Leistungsbewertung. Eine neue Lernkultur braucht
einen anderen Umgang mit den Schülerleistungen. Schneider Hohen- Gestaltung
gehren: Baltmannsweiler 2004. www.hek-design.de
Winter, F. (2006, im Druck): Wir sprechen über Qualitäten - das Portfolio Dr. Helmuth Krieg, Frankfurt am Main
als Chance für eine Reform der Leistungsbewertung. In: Brunner u.a. Druck und Bindung
(2006, im Druck). Beltz Druckpartner GmbH & Co. KG, 69502 Hemsbach
Winter, F., u.a. (Hrsg.) (2002): Leistung sehen, fördern, werten: Neue
Wege für die Schule. Klinkhardt: Bad Heilbrunn. 3. aktualisierte Auflage 2014
Wolschner, K. (2005): Streit um Zensuren. Die Bildungsdeputation will nur
einer von 26 antragsstellenden Grundschulen genehmigen, auf eine Bestell-Nr. 2040
Notengebung zu verzichten. In: taz Bremen, Nr. 7826 v. 22.11.05, 22 ISBN 978-3-941649-12-5
> www.taz.de/pt/2005/11/22/a0279.nf/text [Abruf: 5.12.05].
72