dinsdag 7 augustus 2018

Kun je taalverloedering wel onderzoeken?

In het stuk van Marten van der Meulen dat ik in de vorige blogpost besprak komt nog een interessante opmerking voor. In zijn beschouwing van de onderbouwing van het begrip taalverloedering merkt Marten op dat je daar eigenlijk onderzoek naar zou moeten doen: "Maar hier zit het probleem: dat onderzoek is er niet. Er is (voor zover ik weet) nog nóóit een onderzoek geweest dat twee punten in de tijd heeft genomen en heeft laten zien dat er meetbaar meer slordige fouten worden gemaakt dan vroeger." In een reactie op mijn vorige blogpost voegt hij daaraan toe: "Ik had het ook met een collega over dat onderzoek: dat kán wel. We hebben alleen een berg essays enzo nodig uit Vroeger Tijden. Heb jij niet nog wat liggen, of contacten?" Dat lijkt me wat te optimistisch.

Ik kan me van een jaar of tien geleden herinneren dat we in de redactie van Onze Taal ook eens hebben geprobeerd om een soortgelijk onderzoek van de grond te krijgen. Het idee was nog simpeler: neem een steekproef uit kranten van verschillende periodes, en vergelijk de fouten. Dan heb je een factcheck van de populaire bewering "Er staan tegenwoordig veel meer taalfouten in de krant." Dat onderzoek is nooit van de grond gekomen, en hoe langer we ermee bezig waren, hoe meer problemen we bedachten.

Ik neig nu een beetje naar het idee dat zo'n onderzoek helemaal niet kan (alleen misschien in een heel beperkte vorm, waarin je alleen naar een heel specifieke soort fouten kijkt), en, wat nog belangrijker is: het is mij volslagen onduidelijk wat welk resultaat dan ook zou kunnen betekenen.

Ik zet even een paar overwegingen op een rijtje, for future reference.

Verloedering
Om te beginnen, waar Marten het ook al over had, de term taalverloedering is een onmogelijk begrip. Het wordt gemakshalve gebruikt om een toenemend aantal fouten tegen de taalnorm mee aan te duiden, maar het woord verloedering heeft daarbij een aparte lading, die te maken heeft met attitude: de term verloedering impliceert een soort verwaarlozing, of slordigheid, en die is gekenmerkt door het ontbreken van een aandacht voor verzorging, wat in de literatuur over spelling ook wel het spellinggeweten genoemd wordt. Om te onderzoeken of er echt sprake is van verloedering zou je dus attitude-onderzoek moeten doen. Je zou dan de opvattingen van mensen uit verschillende periodes uit de geschiedenis van de taal moeten onderzoeken, en de vraag is dan al snel welke data je daarvoor zou kunnen gebruiken. Gepubliceerde data hebben waarschijnlijk al een bias, want je moet per slot van rekening een reden hebben om over taal of taalnorm te publiceren, en die reden is meestal niet dat alles prima in orde is.

Je kunt ook de opvattingen van ouderen met die van jongeren vergelijken, maar dit zegt natuurlijk niets over hoe die ouderen dachten toen ze zelf jong waren. Daar kun je wel naar informeren, maar de vraag is of je daar ooit een betrouwbaar beeld uit krijgt.

Echt gericht onderzoek naar verloedering is dus waarschijnlijk te lastig. Kun je dan geen objectief onderzoek doen naar het aantal taalfouten dat mensen nu maken in vergelijking met vroeger? Daarmee zou je het aantal taalfouten als een effect van een kleinere of grotere aandacht voor taalverzorging zien. Daar zitten ook wel een aantal haken en ogen aan.

Taalfouten
Je zou natuurlijk, net zoals we bij Onze Taal een tijdje geleden bedachten, gewoon twee kranten (of twee samples) kunnen nemen uit verschillende perioden, en het aantal fouten vergelijken. Dat lijkt op het eerste oog best te doen. Probleem is wel dat je de taalfout moet relateren aan de taalnorm die geldig was op het moment van het publiceren. Dus als je een krant uit pakweg 1958 neemt, dan moet je de taalnorm uit 1958 erbij nemen. Probleempje: die taalnorm ligt niet vast. Oké, er bestaan spellingregels, en daarmee kun je een groot aantal correcte spellingen verifiëren, maar net als nu zullen die spellingregels niet helemaal dekkend zijn. Dan kun je wel een gezaghebbend woordenboek erbij nemen dat de officiële spellingregels zegt te respecteren, maar gezien het feit dat ongeveer 10% van alle woorden in de krant niet in het woordenboek staan mis je dan toch al een behoorlijk deel. Neologismen, bastaardwoorden, aaneenschrijven, dat is allemaal nattevingerwerk. En dan heb ik het alleen nog maar over spelling.

Wat is (of eigenlijk: was) een taalfout op grammaticaal gebied, laat staan op stilistisch gebied? Dat is uitermate problematisch. In 1958 bestond zelfs de ANS nog niet, dus welke autoriteit ga je gebruiken? Charivarius? Die is uit 1940, is dat nog wel actueel? Taalcolumnisten? Die kunnen elkaar tegenspreken. Schoolboeken? Die zullen uit didactische motieven eerder voor strenge eenvoud dan voor realiteit kiezen. En ze zullen elkaar tegenspreken. Je hebt dus bijna geen referentiekader voor taalfouten in een oudere taalfase. Je zou op basis van big data nog kunnen kijken naar afwijkingen van het gemiddelde, maar dan definieer je een taalfout als een afwijking van wat normaal is. Daarmee doe je juist geen uitspraak over al die gepercipieerde taalfouten waar mensen zich aan ergeren, want dat zijn juist de gevallen die zo vaak voorkomen dat ze opvallen. Ook dit lijkt me dus een doodlopende weg.

Stel dat je taalfouten zou willen onderzoeken, dan lijkt de enige kans om je te beperken tot een klein, niet-controversieel en tamelijk stabiel onderdeel van de taalnorm (bijvoorbeeld de werkwoordspelling, dat is misschien nog net te doen).

Context
Marten vroeg mij in het citaat dat ik boven al aanhaalde: 'Heb jij niet nog wat liggen?' Daarmee doelde hij waarschijnlijk op materiaal uit een onderwijscontext. Volgens hem en een collega zou er 'alleen een berg essays' nodig zijn. Dat lijkt me wat te eenvoudig gedacht.

Stel dat je de beschikking zou hebben over een berg opstellen van leerlingen uit 1958. Ik weet niet of die bestaat, maar het zou kunnen. En stel (ik ga nu ook even voorbij aan privacy-overwegingen) dat je die zou willen vergelijken met een vergelijkbare berg opstellen van vergelijkbare leerlingen uit 2018. Dat zou om een aantal redenen al meteen problematisch zijn.

Ten eerste zal het hier dan zeker in 1958 over handgeschreven opstellen gaan. Dat betekent dat je ze zou moeten vergelijken met handgeschreven opstellen van hedendaagse leerlingen, omdat sommige taalfouten misschien te maken hebben met het feit dat je met de hand schrijft (bijvoorbeeld de neiging om woorden los of aaneen te schrijven). Voor de leerlingen uit 1958 is het handschrift het enige medium om zich op schrift uit te drukken, maar de hedendaagse leerlingen zijn ook bekend met andere media. Zijn handgeschreven teksten van die twee categorieën leerlingen dan wel vergelijkbaar? Misschien voelden die leerlingen uit 1958 zich veel zekerder bij het met de hand schrijven van teksten, want ze deden niet anders.

Ten tweede zou je ervoor moeten zorgen dat de opstellen onder vergelijkbare omstandigheden tot stand zijn gekomen. Worden de opstellen in de klas, tijdens de lestijd geschreven? Is er een tijdsdruk? Krijgen de leerlingen de kans (of de opdracht) om een kladje in het net over te schrijven? Dat zijn allemaal omstandigheden die een dramatische invloed op het aantal taalfouten kunnen hebben. Het is uit onderzoek bekend dat fouten tegen de werkwoordspelling bijvoorbeeld vaak het gevolg zijn van statistisch gedreven automatismen, die pas in tweede instantie, na reflectie worden opgemerkt en verbeterd. Welnu, gesteld dat je al informatie hebt over de omstandigheden waaronder de opstellen uit 1958 werden geschreven, kun je die omstandigheden wel gelijk krijgen? En dan heb ik het nog niet eens over allerlei andere contextuele omstandigheden (dag van de week, tijd van het jaar, was het mooi weer, zijn alle leraren soms streng op taalfouten).

Deze problematiek speelt niet eens alleen bij zo'n historische vergelijking. In het onderzoek van Van Eerden en Van Es uit 2014 (waar indertijd veel discussie over was) werden ook handgeschreven teksten van studenten gebruikt. Van de gesignaleerde taalfouten (wat je hier verder ook van kunt zeggen) bestond het grootste gedeelte uit leesteken-, spatie- en alineafouten. Typisch de fouten die je bij handgeschreven, niet-geredigeerde teksten zou verwachten.

Betekenis
Maar goed. Stel dat je twee enigszins vergelijkbare samples kunt verkrijgen, en dat je een enigszins betrouwbare subset van taalfouten hebt gevonden (bijvoorbeeld werkwoordspelling, eventueel nog beperkt tot de uitgang van persoonsvorm en voltooid deelwoord). Dan krijg je getallen waar je een of andere vorm van statistiek op kunt doen, en wie weet krijg je dan een significant resultaat. Het zou kunnen dat je eruit krijgt dat de leerlingen uit 1958 significant minder, of juist meer fouten tegen de onderzochte werkwoordspelling maken. Dan rijst meteen de grote vraag: Wat betekent dit?

Ik heb eigenlijk geen idee. Zoals ik al opmerkte is een deel van die spelfouten te wijten aan statistisch gedreven automatismen die niet opgemerkt worden. Je schrijft 'betaald' omdat 'betaald' vaker voorkomt dan 'betaalt' en die statistische kennis zit in je hoofd. Pas als je reflecteert op de grammaticale vorm van wat je schrijft merk je dat op, en herstel je het eventueel. Maar dat betekent dat een eventueel verschil in het fout schrijven van 'betaalt/betaald' in 1958 en 2018 ook terug te voeren kan zijn op een verschil in statistische verdeling tussen 'betaalt' en 'betaald' in de taalwerkelijkheid in die beide periodes. Of eigenlijk: de taalwerkelijkheid waar die leerlingen aan blootgesteld zijn. Maar hoe bepaal je die?

Een andere oorzaak van fouten tegen de werkwoordspelling (eigenlijk vooral congruentiefouten) is volgens onderzoek gelegen in de afstand tussen onderwerp en persoonsvorm: in een bijzin staan onderwerp en persoonsvorm verder uit elkaar en zullen congruentiefouten vaker voorkomen. Maar dat betekent dat je eventuele verschillen in het aantal congruentiefouten ook zou moeten relateren aan de verhouding hoofd- en bijzin in de opstellen van de leerlingen uit 1958 en 2018. Dat is misschien nog wel te doen, maar het compliceert het onderzoek wel aanzienlijk. En wat betekent het als leerlingen van nu meer fouten zouden maken omdat ze meer bijzinnen zouden gebruiken? Geen idee.

Maar ook al die onbekende contextuele factoren kunnen een verklaring zijn van verschillen. Aangezien veel spelfouten aan ongeconcentreerdheid kunnen worden toegeschreven kan een verschil in concentratie een heel goede verklaringsgrond zijn voor verschillen. Maar hoe precies kun je de concentratie van de leerlingen uit 1958 bij het schrijven van een opstel vaststellen, en hoe kun je die vergelijken met leerlingen uit 2018?

En daarmee houdt het niet op: voor opletten heb je ook werkgeheugen nodig. Dat betekent dat je waarschijnlijk eerder spelfouten maakt in een tekst waar je alle aandacht voor de inhoud nodig hebt. Je zou dus de moeilijkheidsgraad van de opstellen in de analyse moeten betrekken. Dat wil zeggen: niet de objectieve moeilijkheidsgraad, maar de mate waarin de complexiteit van de inhoud het werkgeheugen van de respectievelijke leerlingen uit 1958 en 2018 belast.

Ook de externe motivatie om taalfouten te vermijden is moeilijk vast te stellen: worden taalfouten gewoonlijk zwaar aangerekend? Streept ook de leraar geschiedenis taalfouten aan? (Ik ga er gemakshalve van uit dat de 'berg essays' uit de lessen Nederlands komen, maar het kan natuurlijk heel goed zijn dat je voor geschiedenis of aardrijkskunde ook weleens een essay moet schrijven) Hoe wordt er in de omgeving van de leerlingen gereageerd op taalfouten? Leerlingen uit 2018 hebben althans de mogelijkheid om via het internet in allerlei taalkibbelarijen terecht te komen, dat zullen leerlingen uit 1958 veel minder hebben. In hoeverre wordt het spellinggeweten van leerlingen uit 1958 beïnvloed door hun externe motivatie?

Terug naar wat je eigenlijk zou willen onderzoeken. Dat is of er sprake is van toenemende taalverloedering. Daarvoor zou je moeten vaststellen of taalverzorging de leerlingen uit 2018 inderdaad minder interesseert dan de leerlingen uit 1958. Zoals gezegd kun je de leerlingen uit 1958 daar niet meer naar vragen, en de eventuele effecten (meer taalfouten) lijken bij nader inzien aan te veel factoren toe te schrijven waar we geen toegang toe hebben om met ook maar een kleine mate van zekerheid te kunnen zeggen of minder taalfouten ook zou betekenen dat leerlingen destijds meer geïnteresseerd waren in taalverzorging.

De vraag is wat een getalsmatig resultaat dan wél zou kunnen betekenen. Daar heb ik vooralsnog geen antwoord op.

2 opmerkingen:

  1. Ik heb dergelijk onderzoek nog nooit gedaan, maar ik zie eerlijk gezegd niet waarom hier nu zulke grote moeilijkheden mee zouden zijn.

    De definitie van een taalfout lijkt me eenvoudig: je maakt gewoon een lijst waarin je ze een voor een beschrijft, en je laat menselijke beoordelaars teksten doornemen en de fouten uit de lijst aankruisen. Dat doe je gewoon online met een speciale webapplicatie. De verzameling teksten en de verzameling fouten zijn niet vast, ze groeien in de loop der tijd. Op elk moment heb je een bepaalde verzameling teksten op bepaalde (mogelijk niet altijd dezelfde) fouten nagekeken.

    Wat voor teksten gebruik je? Het lijkt me hier uit praktisch oogpunt goed om je te beperken tot tekstbronnen die online beschikbaar zijn en waarvan de kale tekst ook online beschikbaar is. Je wilt die brontekst namelijk automatisch in je applicatie importeren. Ook wil je dat de datum van schrijven en/of publiceren erbij gegeven is, en liefst ook de auteur. Geschikt zijn dan allerlei online te raadplegen archieven van kranten en tijdschriften, digitaal ontsloten boeken zoals in Google Books en het Project Laurens Jz. Coster, enzovoorts. Je zou ook wat met webpagina's in de Wayback Machine of met online fora, USENET etc. kunnen doen, maar dergelijke alleen-online bronnen gaan de taalzuiveraars vast niet ver genoeg terug.

    Je wilt misschien ook een classificatie op stijl/register. Ik denk dat je dat heel aardig kunt doen door puur naar de gebruikte woordenschat te kijken. Definieer een of andere zinnige afstandsmaat op teksten op basis van hoeveel gemeenschappelijke woorden ze hebben. Dit is vast al uitgebreid gedaan. Je hoeft dan niet expliciet aan te wijzen wat voor stijl of register een tekst heeft, maar je kunt bijvoorbeeld alle teksten in de buurt van teksten met het woord 'verdulleme' vergelijken met alle teksten in de buurt van teksten met het woord 'chillen'.

    En nu ga je kijken of er correlaties zichtbaar worden. Welke woorden correleren het meest met taalfouten en welke het minste? Zijn er taalfouten die met de leeftijd van de tekst afnemen of toenemen? Enzovoorts.

    Wat hier ook uitkomt, je zult er niet uit kunnen concluderen dat de taalverloedering toeneemt, of juist afneemt, want iemand die dat beweert kan zich altijd beroepen op de onvolledigheid van de gekozen tekstverzameling; maar als er sterke correlaties zichtbaar worden zul je die als voorspellers voor taalfouten of een gebrek eraan kunnen hanteren, en dat kan nuttig zijn. Er kunnen genuanceerdere uitspraken over taalverloedering uitkomen die wèl wetenschappelijk onderbouwd zijn.

    Mij lijkt zoiets heel interessant onderzoek.

    BeantwoordenVerwijderen
    Reacties
    1. Zoals ik al opmerkte kun je het onderzoek zeker in beperkte vorm doen. Dan beperk je de taalfouten die je bekijkt. Ik suggereerde een categorie, jij hebt het over een verzameling. Je stelt het wel erg eenvoudig voor, door te suggereren dat het bijna automatisch kan gebeuren. Dat lijkt me niet juist. Het wezen van de taalfout is namelijk dat hij alle taalvormen behalve de juiste kan betreffen. Dat is bij spelling misschien nog net te doen (al zal een computer niet zo snel 'heet zout' als een spelfout van 'het zout' aanstrepen), maar voor andere fouten is het onmogelijk. Dan zou je een lijstje moeten aanleggen van foute vormen en dat lijstje is helaas oneindig. Ik beweer dus niet dat onderzoek onmogelijk is, maar dat het alleen beperkt kan. En ik denk nog iets beperkter dan jij het nu voorstelt. Maar probeer maar eens een stukje, dan ben je er snel achter.

      Het relateren van een taalfout (of het aantal van de onderzochte taalfouten) aan de leeftijd van een tekst lijkt me met dezelfde kanttekeningen in beperkte mate te doen. Ik geef graag toe dat dit interessant onderzoek kan zijn.

      Een illustratie van de problemen die je tegenkomt is het onderzoek van De Rooij naar 'omdat' en 'doordat'. Best de moeite waard om eens door te nemen.

      Zoals je zelf al concludeert kan zo'n onderzoek nooit de conclusie opleveren dat de taalverloedering toe- of afneemt. Het is dus geen onderzoek naar taalverloedering. Daarmee bevestig je het punt van de blogpost.

      Verwijderen