zondag 6 juni 2010

E = MC2



In de Volkskrant van zaterdag staat een artikel getiteld "Twitteren voor de wetenschap." Daarin wordt het probleem besproken dat computers niet kunnen lezen. Dat wil zeggen, ze kunnen geen chocola maken van wetenschappelijke artikelen. Goed zo, zou je zeggen, maar nee. De Leidse bio-informaticus Barend Mons heeft de oplossing: nanopublicaties.
In wetenschappelijke publicaties, aldus Mons, zit informatie "verstopt in ambigue taal. Het wemelt in een tekst van de synoniemen en homoniemen." Goed gezien, want dit geldt ook voor niet-wetenschappelijke taal: ook in Jip en Janneke of de Nederlandse Grondwet wemelt het van de ambiguïteiten. Wij mensen zijn echter heel goed in het over het hoofd zien van alle onzin. Dat doen we automatisch.


Maar gelukkig, er is een oplossing: we moeten nanopublicaties gaan maken. Wat zijn dat? Nou ja, eerst moeten alle wetenschappelijke begrippen een nummer krijgen. Ha, nummers, lekker ondubbelzinnig. Wie houdt de lijst bij, als er eens een nieuw begrip verzonnen wordt (je weet het nooit met die wetenschappers)? Vrijwilligers? En trouwens: wat staat er in de tweede kolom van de lijst? De Engelse vertaling? Maar dan kunnen we toch net zo goed die gebruiken?


Maar let op, nu komt het: we gaan wetenschappelijke publicaties automatisch screenen op "triples." Wat zijn dat? Nou, ze bestaan uit "de driepoot onderwerp, gezegde, lijdend voorwerp." Dat levert dan nanopublicaties op: korte beweringen die een bepaalde graad van waarschijnlijkheid krijgen. Hoe vaker genoemd, hoe zekerder de bewering.

Dit idee is niet nieuw: al tientallen jaren proberen taaltechnologen of computerlinguïsten op deze manier informatie uit teksten te halen, maar tot nu toe zijn de problemen altijd groter gebleken dan de bedrieglijke eenvoud van deze gedachte. Gelukkig kent het idee een vangnet: het is de bedoeling dat de nanopublicaties, wanneer ze aangetroffen worden, aan menselijke deskundigen worden voorgelegd (met een groene knop voor als ze de nanopublicatie geloven en een rode als ze denken dat hij niet klopt; dat kan iedereen die niet kleurenblind is).


Jammer dat de nanopublicaties van een "driepoot" uitgaan. Want de taal bestaat niet uit driepoten. De taal bestaat alleen uit tweepoten. Het werkwoord vormt met zijn voorwerp een tweepoot, en het onderwerp met zijn predicaat is een andere. Arsenicum is giftig is dezelfde tweepoot als het giftige arsenicum. Dat in beide constructies een vrijwel betekenisloos element staat is voor de nanopublicatie niet zo relevant.


Welke nanopublicaties zitten er volgens Mons in de voorgaande alinea's? Ik som even alle driepoten van onderwerp gezegde en lijdend voorwerp op, dan kunnen deskundigen desgewenst op rode en groene knoppen drukken. Hun tijd gaat nu in:
  • ze (4245) [maken] chocola (56743)
  • Mons (1) [heeft] oplossing (77834)
  • we (321) [doen] dat (305756)
  • we (321) [moeten gaan maken] nanopublicaties (487535)
  • begrippen (5487) [moeten krijgen] nummer (888902)
  • wie (?) [houden bij] lijst (2772)
  • je (322) [weet] het (319)
  • we (321) [kunnen gebruiken] die (305757)
  • we (321) [gaan screenen] publicaties (487534)
  • dat (305756) [levert op] nanopublicaties (487535)
  • die (305757) [krijgen] graad (24667)
  • taaltechnologen of computerlinguïsten (58423 of 245800) [proberen te halen] informatie (737856)
  • idee (24255) [kent] vangnet (2048590)
  • ze (4245) [geloven] nanopublicatie (487534)
  • iedereen (9999999) [kan] dat (305756)
  • werkwoord (24050) [vormt] tweepoot (83473)

Je ziet eigenlijk meteen wat het probleem is: het oplossen van de voornaamwoordelijke verwijzing, de voorwerpen zijn vaak voorzetselvoorwerpen, vaak zijn de bepalingen belangrijk voor de betekenis (Het werkwoord vormt met zijn voorwerp een tweepoot levert de driepoot werkwoord vormt tweepoot op), nevenschikkingen en samentrekkingen zijn lastig (taaltechnologen of computerlinguïsten), soms is het lijdend voorwerp een bijzin (als ze denken dat hij niet klopt), enfin, de klassieke problemen van de automatische ontleding. En je laat de meeste predicaties liggen: naamwoordelijke gezegdes, bijvoeglijke bepalingen, bepalingen van gesteldheid.

Misschien denk je dat dit allemaal komt omdat dit stukje geen wetenschappelijk artikel is. Maar in wetenschappelijke artikelen zijn deze problemen allemaal nog een graadje erger.

6 opmerkingen:

  1. Maar het gaat helemaal niet om het ontleden van taal. Het gaat erom de stukjes kennis die in tekst zitten er uit te halen. Met het oog op het scheppen van een ruw overzicht van wat nu de kennispatronen zijn die zijn opgesloten in grote aantallen – duizenden – artikelen. Om vervolgens in de hoekjes van zo'n ruw patroon die interessant lijken te gaan kijken wat de details zijn. Door terug te gaan naar de oorspronkelijke artikelen. Maar dan geen duizenden, maar wellicht enkele tientallen. Eerst een luchtfoto, dan gaan graven, zeg maar, als je een vergelijking zou maken met archeologie.
    Bovendien worden alleen concepten van belang meegenomen. Dus niet "je (322) [weet] het (319)". Maar wel "begrippen (5487) [moeten krijgen] nummer (888902)". Nogmaals, het gaat niet om grote nauwkeurigheid, maar om patroonherkenning. Een beetje 'sneeuw' op het scherm is geen echt probleem. De afwezigheid van het 'grote plaatje' wel.

    BeantwoordenVerwijderen
  2. @Jan Velterop: Ik vrees ook dat het niet om ontleding gaat, maar om een beetje aangeklede datamining. Het punt is dat er een ontleedsausje overheen wordt gegoten door net te doen alsof die "triples" echt afgeleid zijn van combinaties van onderwerp - gezegde - lijdend voorwerp. Dat zou om te beginnen al onverstandig zijn omdat de meeste relaties tussen twee concepten met andere grammaticale middelen worden uitgedrukt (voorzetselvoorwerpen, naamwoordelijke gezegdes met voorwerpen, combinaties met voorzetsel).
    Ik zie hier drie dingen die me verontrusten, en die ik al talloze malen heb zien mislukken: (1) er wordt een nieuw idee met veel optimisme gelanceerd dat al onze problemen gaat oplossen; (2) dat idee veegt alle principiële problemen die vanaf de zestiger jaren in de computerlinguïstiek zijn opgeworpen achteloos van tafel ("beetje sneeuw op het scherm"); (3) er wordt net gedaan of de oplossing een grammaticale basis heeft terwijl het uiteindelijk waarschijnlijk toch gewoon om een statistische clustering van dicht bij elkaar staande woorden zal gaan.
    Alsof je zegt dat je een speld in een hooiberg wilt vinden door enkele tientallen strootjes met ongeveer de lengte van een speld te verzamelen en die door experts te laten beoordelen. Van die strootjes zijn er dan wel duizenden (miljoenen), maar dat is dan een beetje sneeuw op het scherm.

    BeantwoordenVerwijderen
  3. (1) Het zal zeker niet 'al onze problemen' oplossen, en dat wordt ook niet beweerd, denk ik. Ik kan dat niet verifiëren want ik kan niet bij het artikel in De Volkskrant zonder abonnement, en ik heb geen abonnement omdat ik niet in Nederland woon. Het belangrijke probleem dat het wel helpt oplossen, speciaal voor de natuurwetenschapper, is dat van het vinden van patronen in de overdaad aan gegevens die zijn ingebed in de literatuur (een nieuw artikel elke 35 sekonden). Voor dit doel is het helemaal niet nodig dat wordt vastgesteld wat de nauwkeurige grammaticale relatie is van de termen die worden aangetroffen. Het volstaat om vast te stellen dat er een waarschijnlijke relatie is tussen de concepten aangeduid met die termen, alleen al doordat ze bijvoorbeeld in dezelfde zin voorkomen (het 'predicate' is dan 'co-occurrence'). Als er een preciezere relatie wordt gevonden (of door lezers aangegeven), die bijvoorbeeld de richting van de relatie bepaalt (wat is onderwerp en wat lijdend voorwerp) dan is dat een bo
    Vergelijk het maar met een hologram. Het hologram zelf ziet eruit als 'ruis'. Met de juiste manier van lezen, echter, kan een driedimensionaal beeld worden geschapen dat al naar gelang de informatiedichtheid van de 'ruis' scherp is of minder scherp. Zo ook met de duizenden 'triples', die, mits 'gelezen' met de juiste methode, eveneens een scherp of minder scherp beeld kunnen creëren dat wetenschappers dichter bij de oplossing van hun probleem brengt, zonder dat ze al de artikelen waaruit de duizenden 'triples' zijn geëxtraheerd hoeven te lezen. Een goede hint is goud waard voor onderzoekers. En dat is wat de techniek levert: uitstekende hints. En ja, die moeten vervolgens worden getest in laboratorium experimenten.
    Het is niet het vinden van spelden in een hooiberg "door enkele tientallen strootjes met ongeveer de lengte van een speld te verzamelen en die door experts te laten beoordelen", maar eerder, als je al in die beeldspraak wilt blijven, door het juiste gebruik van een sterke magneet.

    BeantwoordenVerwijderen
  4. @Jan Velterop: Waar we hier over praten is Information Extraction (of Data Mining). Het stelt me enigszins gerust als je zegt dat dit geen computerlinguïstiek is, maar als in het artikel in de Volkskrant gesproken wordt over onderwerp - gezegde - lijdend voorwerp dan wordt toch op zijn minst de suggestie gewekt dat hier een grammaticale basis aan ten grondslag ligt. Maar goed, dat is dus allemaal niet zo: het is "een gevorderde vorm van statistische clustering." Ik hoop van harte dat niet toch de principiële problemen van de computerlinguïstiek (synonymie, voornaamwoordelijke verwijzing, idiomen) de kop opduiken, want dat is in het verleden bij taaltechnologische projecten altijd wel het geval geweest. Ook dat wetenschappers die geen verstand hebben van taaltechnologie het allemaal zeer innovatief en veelbelovend vinden klinkt me bekend in de oren.
    Ik ben blij dat je mijn retorische vergelijking van de speld in de hooiberg beantwoordt met maar liefst twee tegenvergelijkingen (hologram en sterke magneet). Daardoor wordt des te duidelijker dat geen van de drie vergelijkingen enige bewijskracht heeft.

    BeantwoordenVerwijderen
  5. Hebben jullie The Ureasonable Effectiveness of Data gelezen?
    Dat gaat erover dat relatief simpele algoritmen, mits van een geschikt soort, toch goed kunnen werken, beter dan heel ingewikkelde op de tekentafel bedachte zinsanalyse:
    http://googleresearch.blogspot.com/2009/03/unreasonable-effectiveness-of-data.html

    BeantwoordenVerwijderen
  6. @Reinier: Ik had deze link nog niet gelezen, maar ik ken uit de taaltechnologie wel het gegeven dat eenvoudige statistische modellen ("bag of words") vaak beter scoren dan ingewikkelde grammaticale analyse. Maar goed, doe dan niet net alsof je grammaticale analyse doet.

    BeantwoordenVerwijderen