Examens Nederlands: al minstens drie jaar slecht, maar niemand grijpt in. Zou het niet handig zijn om te weten hoe goed een examenvraag gemaakt is? Je kunt dan in de voorexamenklassen díe vragen al eens gebruiken en zo de moeilijkheidsgraad opvoeren naar de examens toe. Met deze vraag ging ik op zoek naar een betrouwbare bron en die vond ik op de Cito-site zelf. Ieder jaar (vanaf 2014) publiceert Cito voor ieder examenvak een Toets- en itemanalyse (Tia) (Cito, sd). Prachtig. Per vraag staat aangegeven hoeveel leerlingen op deze vraag gescoord hebben, welke scores ze daarbij haalden en bij meerkeuzevragen staat van elke afleider vermeld hoeveel leerlingen ervoor kozen. Na een vraag over deze scores op de Facebookgroep Leraar Nederlands tipte Christine Brackmann een artikel van Hans Goosen over dit onderwerp. In Gebruik de TIA’s (Goosen, 2015) waarschuwt hij ervoor om in examentrainingen kritiekloos oude examens te gebruiken: In het examen Nederlands vwo 2013- 1 haalden zeven van de zeventien vragen bij de eerste tekst een Rit-waarde van minder dan 0.20. Als je zo’n examen gebruikt bij de examenvoorbereidingen, mag je wel voorzichtig zijn. Nou had ik nog nooit van een Rit-waarde gehoord, dus ik ging maar eens wat lezen. De Rit geeft aan hoe goed een vraag het verschil aangeeft tussen ‘goede’ en ‘slechte’ kandidaten. Eenvoudig gezegd gaat het bij de Rit-waarde om de vraag of de kandidaten met een hoge score voor de toets als geheel ook de moeilijke vragen beter gemaakt hebben dan de kandidaten met een lage score. Als vooral zwakke leerlingen een ‘moeilijke’ opgave goed doen, mag je twijfelen over de betrouwbaarheid van de vraag. (Goosen, 2015) En gelukkig biedt ook hier de site van Cito zelf uitkomst. In Toets- en itemanalyse met TIA (Goldebeld, 1992) noteert P. Goldebeld op pagina 49 het volgende schema: Ik lees hierin dat een item met een Rit-waarde onder de 0,20 beoordeeld moet worden als slecht. 7 van de 17 vragen van tekst 1 van het vwo-examen Nederlands was dus slecht: 41%. Een incident, mag ik hopen. Ik schrik me kapot Nu is wel mijn argwaan gewekt. Zou de kritiek op de Cito-toetsing terecht kunnen zijn? Met name de examens Nederlands zijn de laatste jaren in de media uitgebreid gefileerd en de klachtenlijn raakt ieder jaar weer overbelast. Ik pak de TIA van 2014 er eens bij en schrik me kapot: ik zie dat 14 van de 28 items (alleen de tekstverklaring, overige items betroffen samenvatting) een Rit-waarde van 0.19 of lager hebben. 50% van de items is in dit opzicht slecht. In het schema hieronder zie je hoe in 2014 de kwaliteit van de examenvragen per vak was. ‘Gelukkig’ is het probleem alleen bij Nederlands echt groot. Helaas wel structureel: 56,4 % in 2015: Meer dan de helft van de vragen wordt niet goed gemaakt door de betere leerling. En realiseer je nu nog eens dat dit alleen nog maar het percentage vragen met een score onder de 0,20 is. Dan komt er nog een bak vragen die beoordeeld moeten worden als “twijfelgeval”. De gemiddelde Rit-waarde voor het examen Nederlands is 0.24 in 2014, 0.21 in 2015 en 0.23 in 2016. Jaar in jaar uit ook de allerlaagste gemiddelde Rit-waarde van alle afgenomen havo-examens. Als Hans Goosen zegt dat je voorzichtig moet zijn om oude examens te gebruiken in de examentraining ben je in eerste instantie geneigd om te denken: dan nemen we alleen de ‘goede’ of ‘zeer goede’. Alleen: het havo-examen Nederlands had er daar in 2014 maar 5 van, dat van 2015 had er 9 en in 2016 waren er weer maar 5 (van de 42). Dan ben je snel uitgeoefend. Maar dat is wel wat je zou moeten doen: neem je een toets voor de tweede keer af, dan verwijder je de slechte items. En misschien is het maar beter dat je ook oefent in de slechte en de twijfelgevallen, want voorlopig zijn we er nog niet van af. Ook van de cijfers van 2016 word je niet vrolijk. Al zien we daar wel een mooie ontwikkeling: de verschillen tussen de diverse examens worden kleiner. Gedeelde smart … Complimenten voor de filosofie-examenmakers: drie jaar op rij geen slechte items, maar dit terzijde. Als ik een tweede correctie doe, controleer ik of mijn collega de boel niet belazert. Heeft hij normaal (correct dus) nagekeken, dan respecteer ik zijn mening en kan ik het soms niet eens zijn met hem, maar laat ik hem zijn eigen leerlingen beoordelen. Ik corrigeer nog wel de taalfouten die er zeker nog zijn (ook ik zie ze niet altijd allemaal) en laat het daarbij. De meeste tweede correctoren zijn echter betweters (want leraar, én leraar Nederlands: muggenzifters van de ergste soort dus) en je moet over elk twistpuntje (± 0,025 van het eindcijfer) steggelen. Nu ik dit Rit-waardeverhaal tot me door laat dringen, vind ik onze tweedecorrectieritueledans nog triester. Telefoongesprekken en zelfs bijeenkomsten van een uur of vier bekvechten zijn vrij normaal. De uitkomst verschilt in de regel echt weinig van de eerste correctie. Achterhoedegevechten. Hier is de echte winst te halen: een examen afnemen dat vragen heeft die door iedereen maar op een manier opgevat kunnen worden, zodat je echt test of iemand de tekst heeft begrepen, niet of iemand de vraag opvat op de manier die de examenmakers bedoelen. Zwartepieten (excusez le mot)
Maar ik ben wel geschrokken. Wat als de Rit-waarde wel enige betekenis heeft? Gaan ouders van wie de kinderen op een puntje of 3 zakken op Nederlands nu rechtszaken aanspannen vanwege de ondeugdelijke toetsing? Het zou zomaar kunnen. Een van mijn zwartepietvragen was Waarom reageerde tot nu toe niemand op deze cijfers. Natuurlijk ook gewoon mijn eigen stomme schuld. Waarom heb ik die TIA’s niet eerder gelezen? Waarschijnlijk omdat ik lesgaf en die lessen ook voorbereidde en verwerkte. Werkdruk lijkt me een mooi excuus. Is er misschien een onderwijsjournalist die het de moeite waard vindt om hier eens naar te kijken? Ook naar vmbo en vwo kijken, de productielijn examen langslopen. Van die dingen. Bronnen Centraal schriftelijke examens havo en vwo Goldebeld, P. (1992, Maart). Toets- en Itemanalyse met TIA, Toelichting bij het lezen en interpreteren van toetsen itemanalyses voor gesloten en/of open vragen. Goosen, H. (2015). Gebruik de TIA's. Levende Talen Magazine (2), 18-23. Dit bericht werd overgenomen door onderwijstijdschrift DIDACTIEF, ook daar reacties.
5 Comments
Alex Reuneker
17/6/2017 11:12:52
Die RIT-waarden zijn inderdaad zorgwekkend, maar ze moeten wel altijd in relatie tot andere waarden, zoals de p-waarde en het geheel van de toets worden bekeken.Je hebt zeker een punt in je stuk, maar eigenlijk moeten we ons vooral zorgen maken over vragen met een lage RIT-waarde en een heel hoge p-waarde (bijna iedereen heeft de vraag goed) of juist een lage (bijna iedereen heeft de vraag fout). Kijk je alleen naar RIT-waarden, dan verlies je nuance. Wat we eigenlijk zouden moeten doen - en ik wil me daar best voor inzetten - is een analyse op de ruwe data, want we hebben nu alleen afgeleide gegevens. (Overigens vind ik het, net als jij, Michel, erg goed dat Cito deze gegevens beschikbaar stelt.) Wat je dan kunt doen, is problematische vragen (zoals die hierboven geschetst) stapsgewijs schrappen, om te kijken of de discriminerende waarde van de toets als geheel omhoog gaat. We hebben dan wel die ruwe data nodig.
Reply
Emile Heussen
17/6/2017 12:57:45
Lijkt me dat de universiteiten hierin een proactieve rol te spelen hebben.
Reply
26/6/2017 19:52:58
Vandaag reageerde het CvTE met een uitgebreid antwoord op het blog hierboven. Titel: Reflectie op blog Pijpers (https://www.cvte.nl/actueel/nieuws/2017/06/26/hoe-goed-is-een-centraal-examen)
Reply
Leave a Reply. |
De Leraarontwikkelt motiverend onderwijs en begeleidt scholen, secties en individuele leraren. Archieven
|