Het begon zo onschuldig ...

16/6/2017

Examens Nederlands: al minstens drie jaar slecht, maar niemand grijpt in.

Zou het niet handig zijn om te weten hoe goed een examenvraag gemaakt is? Je kunt dan in de voorexamenklassen díe vragen al eens gebruiken en zo de moeilijkheidsgraad opvoeren naar de examens toe.
Met deze vraag ging ik op zoek naar een betrouwbare bron en die vond ik op de Cito-site zelf. Ieder jaar (vanaf 2014) publiceert Cito voor ieder examenvak een Toets- en itemanalyse (Tia) (Cito, sd). Prachtig. Per vraag staat aangegeven hoeveel leerlingen op deze vraag gescoord hebben, welke scores ze daarbij haalden en bij meerkeuzevragen staat van elke afleider vermeld hoeveel leerlingen ervoor kozen.

Na een vraag over deze scores op de Facebookgroep Leraar Nederlands tipte Christine Brackmann een artikel van Hans Goosen over dit onderwerp. In Gebruik de TIA’s (Goosen, 2015) waarschuwt hij ervoor om in examentrainingen kritiekloos oude examens te gebruiken: In het examen Nederlands vwo 2013- 1 haalden zeven van de zeventien vragen bij de eerste tekst een Rit-waarde van minder dan 0.20. Als je zo’n examen gebruikt bij de examenvoorbereidingen, mag je wel voorzichtig zijn.
Nou had ik nog nooit van een Rit-waarde gehoord, dus ik ging maar eens wat lezen. De Rit geeft aan hoe goed een vraag het verschil aangeeft tussen ‘goede’ en ‘slechte’ kandidaten. Eenvoudig gezegd gaat het bij de Rit-waarde om de vraag of de kandidaten met een hoge score voor de toets als geheel ook de moeilijke vragen beter gemaakt hebben dan de kandidaten met een lage score. Als vooral zwakke leerlingen een ‘moeilijke’ opgave goed doen, mag je twijfelen over de betrouwbaarheid van de vraag. (Goosen, 2015)
En gelukkig biedt ook hier de site van Cito zelf uitkomst. In Toets- en itemanalyse met TIA (Goldebeld, 1992) noteert P. Goldebeld op pagina 49 het volgende schema:
Ik lees hierin dat een item met een Rit-waarde onder de 0,20 beoordeeld moet worden als slecht. 7 van de 17 vragen van tekst 1 van het vwo-examen Nederlands was dus slecht: 41%. Een incident, mag ik hopen.

Ik schrik me kapot

Nu is wel mijn argwaan gewekt. Zou de kritiek op de Cito-toetsing terecht kunnen zijn? Met name de examens Nederlands zijn de laatste jaren in de media uitgebreid gefileerd en de klachtenlijn raakt ieder jaar weer overbelast.
Ik pak de TIA van 2014 er eens bij en schrik me kapot: ik zie dat 14 van de 28 items (alleen de tekstverklaring, overige items betroffen samenvatting) een Rit-waarde van 0.19 of lager hebben. 50% van de items is in dit opzicht slecht.
In het schema hieronder zie je hoe in 2014 de kwaliteit van de examenvragen per vak was.

‘Gelukkig’ is het probleem alleen bij Nederlands echt groot. Helaas wel structureel:

56,4 % in 2015: Meer dan de helft van de vragen wordt niet goed gemaakt door de betere leerling. En realiseer je nu nog eens dat dit alleen nog maar het percentage vragen met een score onder de 0,20 is. Dan komt er nog een bak vragen die beoordeeld moeten worden als “twijfelgeval”. De gemiddelde Rit-waarde voor het examen Nederlands is 0.24 in 2014, 0.21 in 2015 en 0.23 in 2016. Jaar in jaar uit ook de allerlaagste gemiddelde Rit-waarde van alle afgenomen havo-examens.

Als Hans Goosen zegt dat je voorzichtig moet zijn om oude examens te gebruiken in de examentraining ben je in eerste instantie geneigd om te denken: dan nemen we alleen de ‘goede’ of ‘zeer goede’. Alleen: het havo-examen Nederlands had er daar in 2014 maar 5 van, dat van 2015 had er 9 en in 2016 waren er weer maar 5 (van de 42). Dan ben je snel uitgeoefend. Maar dat is wel wat je zou moeten doen: neem je een toets voor de tweede keer af, dan verwijder je de slechte items.
En misschien is het maar beter dat je ook oefent in de slechte en de twijfelgevallen, want voorlopig zijn we er nog niet van af. Ook van de cijfers van 2016 word je niet vrolijk. Al zien we daar wel een mooie ontwikkeling: de verschillen tussen de diverse examens worden kleiner. Gedeelde smart …

Complimenten voor de filosofie-examenmakers: drie jaar op rij geen slechte items, maar dit terzijde.

Als ik een tweede correctie doe, controleer ik of mijn collega de boel niet belazert. Heeft hij normaal (correct dus) nagekeken, dan respecteer ik zijn mening en kan ik het soms niet eens zijn met hem, maar laat ik hem zijn eigen leerlingen beoordelen. Ik corrigeer nog wel de taalfouten die er zeker nog zijn (ook ik zie ze niet altijd allemaal) en laat het daarbij. De meeste tweede correctoren zijn echter betweters (want leraar, én leraar Nederlands: muggenzifters van de ergste soort dus) en je moet over elk twistpuntje (± 0,025 van het eindcijfer) steggelen.
Nu ik dit Rit-waardeverhaal tot me door laat dringen, vind ik onze tweedecorrectieritueledans nog triester. Telefoongesprekken en zelfs bijeenkomsten van een uur of vier bekvechten zijn vrij normaal. De uitkomst verschilt in de regel echt weinig van de eerste correctie.
Achterhoedegevechten. Hier is de echte winst te halen: een examen afnemen dat vragen heeft die door iedereen maar op een manier opgevat kunnen worden, zodat je echt test of iemand de tekst heeft begrepen, niet of iemand de vraag opvat op de manier die de examenmakers bedoelen.

Zwartepieten (excusez le mot)

Hoe kan het dat (minstens) vanaf 2014 de havo-examens Nederlands zo veel slecht beoordeelde items hebben?
Is het examenprogramma Nederlands zo moeilijk te vertalen naar een examen?
Waarom wijkt het beeld bij Nederlands zo af van dat bij de andere vakken?
Leest het CvTE de TIA’s niet?
Geeft het CvTE aan Cito wel een duidelijke opdracht?
Hoeft Cito geen verantwoording af te leggen?
Krijgt Cito ondanks deze matige prestatie betaald?
Én een syllabus, én referentieniveaus, is dat misschien verwarrend?
Moet SLO in actie komen?
Waarom reageerde tot nu toe niemand op deze cijfers?
Waar blijven de Kamervragen?
Van wie moeten de koppen rollen?

Of lees ik al die cijfers verkeerd? Ik ben geen toetsdeskundige en misschien is het helemaal niet erg dat een Rit-waarde aangeeft dat een item slecht is. Als je me gerust kunt stellen, graag.
Maar ik ben wel geschrokken. Wat als de Rit-waarde wel enige betekenis heeft? Gaan ouders van wie de kinderen op een puntje of 3 zakken op Nederlands nu rechtszaken aanspannen vanwege de ondeugdelijke toetsing? Het zou zomaar kunnen.

Een van mijn zwartepietvragen was Waarom reageerde tot nu toe niemand op deze cijfers. Natuurlijk ook gewoon mijn eigen stomme schuld. Waarom heb ik die TIA’s niet eerder gelezen? Waarschijnlijk omdat ik lesgaf en die lessen ook voorbereidde en verwerkte. Werkdruk lijkt me een mooi excuus.
Is er misschien een onderwijsjournalist die het de moeite waard vindt om hier eens naar te kijken? Ook naar vmbo en vwo kijken, de productielijn examen langslopen. Van die dingen.

Bronnen
Centraal schriftelijke examens havo en vwo

Goldebeld, P. (1992, Maart). Toets- en Itemanalyse met TIA, Toelichting bij het lezen en interpreteren van toetsen itemanalyses voor gesloten en/of open vragen.

Goosen, H. (2015). Gebruik de TIA's. Levende Talen Magazine (2), 18-23.

Dit bericht werd overgenomen door onderwijstijdschrift DIDACTIEF, ook daar reacties.

4 Comments

Alex Reuneker

17/6/2017 11:12:52

Die RIT-waarden zijn inderdaad zorgwekkend, maar ze moeten wel altijd in relatie tot andere waarden, zoals de p-waarde en het geheel van de toets worden bekeken.Je hebt zeker een punt in je stuk, maar eigenlijk moeten we ons vooral zorgen maken over vragen met een lage RIT-waarde en een heel hoge p-waarde (bijna iedereen heeft de vraag goed) of juist een lage (bijna iedereen heeft de vraag fout). Kijk je alleen naar RIT-waarden, dan verlies je nuance. Wat we eigenlijk zouden moeten doen - en ik wil me daar best voor inzetten - is een analyse op de ruwe data, want we hebben nu alleen afgeleide gegevens. (Overigens vind ik het, net als jij, Michel, erg goed dat Cito deze gegevens beschikbaar stelt.) Wat je dan kunt doen, is problematische vragen (zoals die hierboven geschetst) stapsgewijs schrappen, om te kijken of de discriminerende waarde van de toets als geheel omhoog gaat. We hebben dan wel die ruwe data nodig.

Michel link

17/6/2017 12:27:52

Kijk, dat is nou precies waar ik op hoopte: iemand met meer verstand van zaken die er eens serieus naar kijkt. Ik lees dan dat Cito zelf zegt Dit is slecht, maar ik zie geen verbetering. En waarom springt Nederlands er zo enorm uit? Succes.

Emile Heussen

17/6/2017 12:57:45

Lijkt me dat de universiteiten hierin een proactieve rol te spelen hebben.
Ik zie een proefschrift over de kwaliteit van het examen Nederlands in wording: een analyse van hoe er getoetst wordt, wat en waarom. Daarnaast uiteraard een verkenning naar wat en hoe er beter getoetst zou kunnen worden.
Daarbovenop natuurlijk een eigen gedegen onderzoek vanuit de beroepsgroep om het blikveld ruim te houden en de praktische toepasbaarheid te bewaken.

Michel Pijpers link

26/6/2017 19:52:58

Vandaag reageerde het CvTE met een uitgebreid antwoord op het blog hierboven. Titel: Reflectie op blog Pijpers (https://www.cvte.nl/actueel/nieuws/2017/06/26/hoe-goed-is-een-centraal-examen)
Mooi dat het CvTE al binnen een week reageert, maar voor mij als toetsnovice roept het antwoord meer vragen op dan het beantwoordt.
Wat moet ik met een opmerking als: "De populatie havo-leerlingen is relatief homogeen als het gaat om kennis van de Nederlandse taal." Ten eerste doet iedere leerling examen in het vak Nederlands, terwijl bij bijna alle andere examenvakken de zwakkeren afvallen; leerlingen kiezen nauwelijks vakken waar ze slecht in zijn. Daarnaast: als leerlingen van wie Nederlands niet de moedertaal is ergens last ondervinden van een mindere woordenschat dan is dat wel bij Nederlands, een examen met teksten die voor native speakers al vrij heavy stuff zijn.
Ook "Aangezien leerlingen niet in elk onderdeel even goed hoeven te zijn, is de correlatie tussen de vragen (items) en de toets als geheel niet al te hoog." bevreemdt. Een vak als wiskunde B heeft ook zeer verschillende onderdelen (Vergelijkingen en ongelijkheden, Evenredigheidsverbanden, Periodieke functies, Afstanden en hoeken in concrete situaties Algebraïsche methoden, Veranderingen, Afgeleide functies, Bepaling afgeleide functies, Toepassing afgeleide functies) verspreid over 3 domeinen (Nederlands 2): Het lijkt me dat ook daar verschillen per onderdeel een rol spelen.

Het antwoord dat CvTE geeft op mijn blog zou wel een fantastische examenvorm zijn: Schrijf een persoonlijke reactie op een betoog. Als leraar beoordeel je dan de kwaliteit van de taal en de mate waarin de reactie ingaat op de essentie van de tekst. Over de kwaliteit van de taal zou ik in dezen dik tevreden zijn. Wat echt een interpretatieblunder is: de reactie neemt mijn aanleiding als hoofdvraag. Terwijl mijn verhaal eindigde met een fiks aantal gewoon te beantwoorden vragen, die volgens mij nog steeds beantwoord moeten worden. Ik wil geen gelijk halen, ik wil dat mensen die ervoor doorgeleerd hebben eens met verklaringen komen die niet zo overduidelijk uit de duim zijn gezogen.

Het begon zo onschuldig ...

Leave a Reply.

De Leraar

Archieven
vanaf 2016

Het begon zo onschuldig ...

Leave a Reply.

De Leraar

Archievenvanaf 2016

Archieven
vanaf 2016