nrc
ZATERDAG�17�JUNI�&ZONDAG�18�JUNI�2�02�3
nrc
ZATERDAG�17�JUNI�&ZONDAG�18�JUNI�2�02�3 Wetenschap W3
W2We t e n sch a p
Slim maar
nog niet echt
i nte l l i ge nt
KUNSTMATIGE�INTELLIGENTIE
Hoe goed is ChatGPT in Nederlands, rechten, biologie
en programmeren? Vier hoogleraren zochten het uit.
Door�onze�medewerker�Bennie�Mols
Afgelopen maart schreven Micro-
soft-onderzoekers in het nog
niet peerreviewed artikel S p a rk s
of Artificial General Intelligence:
Early experiments with GPT-4:
„Wij tonen aan dat GPT-4 niet
alleen taal beheerst, maar ook nieuwe en
moeilijke taken kan oplossen op het gebied
van wiskunde, programmeren, geneeskunde,
recht, psychologie en nog veel meer, zonder
dat daarvoor speciale aanwijzingen nodig
zijn. Bovendien komen de prestaties van GPT-
4 in al deze taken opvallend dicht in de buurt
van prestaties op menselijk niveau.”
GPT-4 is het taalmodel dat aan de basis ligt
van de meest recente versie van ChatGPT, een
AI-systeem dat teksten schrijft op basis van
een stukje invoertekst en dat sinds de lance-
ring in november 2022 voor een storm aan op-
winding heeft gezorgd. Die storm is inmiddels
wat geluwd en onderzoekers uit talloze we-
tenschapsgebieden hebben ermee kunnen ex-
perimenteren. N RC vroeg hoogleraren uit vier
vakgebieden naar hun eerste experimenten
met ChatGPT en de betekenis ervan voor hun
we te n s c h a p sge b i e d .
Marc van Oostendorp,
hoogleraar Nederlands en acade-
mische communicatie aan de
Radboud Universiteit, legde het
centrale vwo-eindexamen Ne-
derlands voor aan ChatGP T.
„Mijn eerste experiment deed ik met ChatGP T
gebaseerd op GPT-3.5. Dit systeem haalde 33
FOTO�GETTY�IMAGES
van de 60 punten en is daarmee op net gezakt.
Maar toen ik het experiment opnieuw deed met
de op GPT-4 gebaseerde ChatGPT slaagde het
programma wel, met iets van een 8 of zelfs 8,5.
Voor het vwo-eindexamen Frans haalde Chat-
GPT ook ruim een 8, maar de sessie voor Fries
was heel bedroevend met zelfs bizarre antwoor-
den.
„Ik had een jaar geleden niet voorspeld dat er
nu een computer zou zijn die het vwo-eindexa-
men Nederlands min of meer haalt. De antwoor-
den varieerden wel tussen ‘ik ben verbaasd dat
een computer dit goed heeft’en ‘wat een rare
fo u t ’. Het systeem is betrekkelijk goed in het
analyseren van de vragen, maar niet zo goed in
het begrijpen van het genre van het examen zelf.
„Het centraal examen gaat over meetbare as-
pecten van omgaan met teksten zoals het her-
kennen van argumentatieschema’s, drogrede-
nen en verbanden tussen alinea’s. Natuurlijk
kun je de vraag stellen of ChatGPT de tekst echt
begrijpt als deze dat allemaal kan, maar die
vraag werd ook vóór ChatGPT al gesteld als het
gaat over scholieren. ‘Begrijpend lezen’van het
eindexamen is misschien niet écht begrip. Dat is
bijvoorbeeld ook een tekst in de context kunnen
plaatsen, zoals aan welk debat de auteur van dit
stuk meedoet, of nog wat ingewikkelder tek-
sten lezen dan de opiniestukken uit het centraal
eindexamen: literaire teksten bijvoorbeeld.
„Op wetenschappelijk niveau zie je dat Chat-
GPT de taalkunde op zijn kop zet. Decennia-
lang woedt er al een debat of en in hoeverre
taal aangeboren is. Sommige wetenschappers
zeggen dat ChatGPT laat zien dat het idee van
aangeborenheid onzin is. Andere wetenschap-
pers zeggen weer dat ChatGPT weliswaar men-
selijke taal kan leren, maar net zo goed onmen-
selijke taal, bijvoorbeeld een taal waarin je elke
lettergreep nummert, en dan de klemtoon legt
op lettergrepen die een priemgetal zijn. Men-
sen kunnen dat niet, computers wel.
„Bij kunstmatige intelligentie zijn er altijd
verschuivende grenzen: eerst gold schaken als
de hoogste vorm van menselijke intelligentie,
daarna het spel go, en als dat ook blijkt opge-
lost, kiezen we weer een nieuwe grens. Zoiets
gebeurt er nu ook bij tekstbegrip. Ik vind het
heel interessant hoe ons denken over ons den-
ken steeds preciezer wordt doordat we het
moeten afzetten tegen wat computers wel of
niet kunnen.”
Anne Meuwese
is hoogleraar public law and
governance of artificial intelligen-
ce aan de Universiteit Leiden.
Zij experimenteerde met ChatGP T
als schrijver van wetten.
„Ik gaf ChatGPT de volgende opdracht: schrijf
een wetsbepaling die gevaarlijke honden ver-
biedt. Over dit onderwerp bestaat nog geen
wetgeving in Nederland, maar het is niet
vreemd om er wetgeving over te maken. Chat-
GPT kwam met een artikel verdeeld in negen
s u b a r t i ke l e n .
„Wat direct opviel, is dat het een korte en
sterk gesimplificeerde wettekst is die relatief
slecht is in formele, juridische aspecten. Zo
luidt het achtste subartikel: ‘Overtreding van
de bepalingen van deze wet is strafbaar en kan
leiden tot een boete of het intrekken van de
ve rg u n n i ng ’. Een begrip als ‘strafbaar ’zou na-
der gespecificeerd moeten worden. Wat ont-
breekt zijn verwijzingen naar artikelen in het
Wetboek van Strafrecht. Het intrekken van een
vergunning geldt ook niet als straf.
„Tegelijkertijd komt ChatGPT inhoudelijk
met best interessante suggesties, zoals het idee
van een vergunning. In het tweede subartikel
schrijft ChatGPT: ‘Het is verboden om een ge-
vaarlijke hond in Nederland te houden, te be-
zitten of onder zijn controle te hebben, tenzij
de eigenaar of verzorger in het bezit is van een
geldige vergunning, afgegeven door de ge-
meente waarin de hond verblijft.’Aan de ande-
re kant is het cruciale punt hoe je definieert
wat een gevaarlijke hond is, en dat werkt Chat-
GPT helemaal niet uit.
„Mijn belangrijkste kritiekpunt is dat het
moeilijke aan het maken van een wetsbepaling
niet het schrijven van de tekst is, maar het na-
denken over hoe de wet past in het juridische
systeem, welke definities je hanteert en welke
regels je precies wilt maken. De meest ingewik-
kelde wetgeving moet nieuwe problemen op-
lossen, denk aan wetgeving over stikstofuit-
stoot, en daarvoor is vaak een nieuwe manier
van denken nodig. Dat kan een systeem zoals
C h at GPT niet, want het is alleen getraind op
data uit het verleden. Ik denk daarom niet dat
C h at GPT voor het schrijven van wetten veel
tijd kan besparen.
„Misschien kan ChatGPT wel voor inspiratie
zorgen door opties op een rij te zetten of door
te putten uit vergelijkbare buitenlandse wetge-
ving, maar dat is altijd iets wat er al is. Waar
C h at GPT ook bij kan helpen, is het herschrijven
van minder formele teksten, bijvoorbeeld in
een iets andere stijl. Ik vind wel dat organisa-
ties, en zeker overheden, goed moeten naden-
ken of ze hun werknemers überhaupt willen
toestaan ChatGPT te gebruiken, vanwege de
ondoorzichtigheid van het model en de data
die je ermee prijsgeeft.”
Sanne Abeln
is hoogleraar AI technology for l i fe
aan de Universiteit Utrecht en te-
vens geaffilieerd aan de Vrije Uni-
versiteit. Zij legde examenvragen
voor masterstudenten biologie
voor aan ChatGPT en onderzoekt
wat de onderliggende grote
taalmodellen kunnen betekenen
voor biologisch onderzoek.
„Bij kennisvragen op het niveau van master-
studenten doet ChatGPT het vrij goed, bijvoor-
beeld als ik vraag welk type lokale vouwing ei-
witten kunnen hebben. Maar wanneer ik vraag
om die kennis te koppelen aan wetenschappe-
lijke literatuur, dan geeft het systeem referen-
ties naar niet-bestaande artikelen.
„Ook het redeneren over bestaande kennis
gaat behoorlijk mis. Ik stelde bijvoorbeeld twee
keer op een iets andere manier de vraag om een
maat te bedenken voor de lokale vouwing van
een eiwit. De ene keer ging het goed, de andere
keer ging het totaal fout. Toen heb ik ook ge-
vraagd of die maat al bestaat. Daar kwam geen
goed antwoord op. Toen vroeg ik: is die maat er-
gens aan gerelateerd? Dat kon ChatGPT ook niet
bedenken. Vervolgens vroeg ik het de andere
kant op: er bestaat een maat voor lokale vou-
wing, kun je dat uitleggen? En ja, gegeven een
beschrijving van die maat, kon het systeem het
uitleggen. Wat je ziet is dus dat je al behoorlijk
wat domeinkennis moet hebben om het sys-
teem bij te sturen richting het juiste antwoord.
„In mijn eigen wetenschappelijk onderzoek
experimenteren we sinds enkele maanden met
een onderdeel van ESMFold, een AI-program-
ma dat eiwitstructuren kan voorspellen en ge-
baseerd is op hetzelfde soort modellen als
C h at GPT. Wanneer je veel beschikbare trai-
ningsdata hebt, hebben zulke AI-programma’s
een goede voorspellende kracht. Wat echter
ontbreekt, is inzicht of begrip waarom een ei-
wit vouwt zoals het programma voorspelt.
Daarnaast heb je in de biologie vaak maar wei-
nig data, bijvoorbeeld als het gaat om zeldzame
ziektes. Daarom blijven we behoefte hebben
aan andere modellen die ook begrip
ge ve n .
„Op de universiteit hebben we inmiddels
richtlijnen gemaakt wat studenten wel en niet
mogen doen met ChatGPT. Maar op de middel-
bare school van mijn man leverde ineens drie-
kwart van de havo-leerlingen door ChatGP T
gegenereerde antwoorden in. Ik vind dat Chat-
GPT voor alle lagen van het onderwijs disrup-
tief is. Het heeft in het afgelopen half jaar veel
extra werk opgeleverd voor onderwijzend per-
soneel. Eigenlijk vind ik het onverantwoord
dat ChatGPT openbaar is gemaakt zonder dat
de onderwijssector zich erop heeft kunnen
vo o r b e re i d e n .”
Arie van Deursen,
hoogleraar software engineering
aan de TU Delft, gaat in op de
vraag hoe goed ChatGPT is in
p ro g r a m m e re n .
„Taalmodellen zoals GPT kunnen goed helpen
bij programmeren. Programmeurs gebruiken
dit soort modellen nu al als gereedschap dat
meeleest met de code die ze schrijven en sug-
gesties kan doen. Alle grote techbedrijven
werken aan dit soort technologie. Zij hebben
veel ontwikkelaars in dienst en willen graag
dat die zo productief mogelijk zijn.
„Een recente studie van Meta over hun
instr ument CodeCompose rapporteert dat
8 procent van het totaal aantal te schrijven
regels code voorspeld kan worden door Code-
Compose. Maar dat betekent niet dat Code-
Compose alleen maar correcte suggesties
doet. Slechts een kwart van de suggesties
wordt daadwerkelijk geaccepteerd. Dus als
ontwikkelaar moet je wel bij de les zijn, en
kiezen wat wel en niet goed is. Een studie van
GitHub rapporteert dat ontwikkelaars die zo’n
zogeheten co-pilot gebruiken meer plezier in
hun werk hebben en daarom productiever
zijn.
„Al deze studies hebben nog wel een ‘w ij
van wc-eend’-gehalte, waarbij de bedrijven
zelf roepen hoe nuttig hun gereedschap is.
Onafhankelijke evaluaties op open data zijn er
nog niet, maar die zullen wel komen.
„GPT als programmeerassistent is maar één
van de mogelijke toepassingen. Er zijn er
meer denkbaar, bijvoorbeeld een continu
open chat-window waarin zowel de ontwik-
kelaar als GPT vragen kan stellen. Op dit mo-
ment is het nog wel een probleem dat je niet
weet waar de antwoorden vandaan komen, en
of ze kloppen. Op termijn zal GPT ook ge-
bruikt worden in combinatie met zoekmachi-
nes, zoals nu al in Bing.
„Een andere toepassing van GPT is als hulp
bij het testen van software, in het bijzonder
bij het formuleren van interessante testge-
vallen. Ook denk ik dat GPT kan helpen om
programmeren toegankelijker te maken voor
iedereen. Denk aan een ChatGPT-dialoog ge-
koppeld aan een spreadsheet, waarbij je in
de dialoog vertelt wat je wilt, en GPT je helpt
de gewenste spreadsheet interactief te bou-
we n .
„De afstand tot het bouwen van complexe
software is wel nog heel groot. Het is een leu-
ke oefening om met ChatGPT te proberen een
systeem voor de inkomstenbelasting te ma-
ken. ChatGPT waarschuwt dan dat belastin-
gen heel ingewikkeld kunnen zijn, met heel
veel uitzonderingsgevallen. En al die regels en
uitzonderingen zullen wel precies geformu-
leerd moeten worden. En dan ben je toch
weer aan het programmeren.”
Ik gaf ChatGP T
de opdracht:
schrijf een
wetsbepaling die
g e v a a r l i j ke
honden verbiedt
Wat een weerapp
wel en niet kan
Nog even en Nederland
loopt leeg op weg naar de
camping in Frankrijk, de
blokhut in Noorwegen
en het appartementje op
Kreta dat er op de foto’s
toch groter uitzag. Tegenwoordig zijn
veel vakantiegangers druk met allerlei
weerapps, hoewel weinigen begrijpen
wat het eigenlijk is. Daarom deze veld-
gids met acht adviezen, dilemma’s uit
de wetenschapscommunicatie, én een
viering van de wetenschappelijke voor-
u itg a ng .
1. Zorg voor een goede weerapp
De informatie in een weerapp wordt vol-
automatisch gegenereerd. Er komt geen
meteoroloog aan te pas. De gegevens
komen uit een weermodel, dat het aard-
oppervlak opdeelt in gridcellen. Een
computer berekent de atmosferische
stroming tussen die cellen, en p ro c e s s e n
zoals zonneschijn en verdamping bin-
nen iedere gridcel. Daarom is het cruci-
aal om een weerapp te gebruiken die
een weermodel gebruikt met een zo fijn-
mazig mogelijk grid. Ik kan hier natuur-
lijk geen reclame maken, maar (kuch)
Météo France, Met Office (VK) en
Yr. n o. . .
2. Neem je weerapp niet te letterlijk
Meteorologische informatie gaat altijd
over kansen. Waar een weerman met
woorden over zijn weerbericht nog een
probabilistisch sausje kan gieten (waar-
schijnlijk, misschien, af en toe), geven
weerapps je schijnbaar absolute zekerhe-
den. Een app versimpelt kanseninforma-
tie tot een enkel weersymbool en een en-
kel getal. Dat is duidelijk maar ook incom-
pleet. Een telkens terugkerend dilemma
in wetenschapscommunicatie. Gebruik
je app als een leidraad, niet als orakel.
3. Verwacht niet te veel
Je stelt jezelf teleur als je denkt over-
morgen tot 16.59 uur te kunnen kanoën
omdat je telefoon zegt dat het pas om
17.00 uur gaat regenen. Dat komt door-
dat de atmosfeer een uiterst complex,
niet-lineair systeem is. De atmosfeer is
n i e t- d e te r m i n i s t i s c h : zelfs als je van ie-
der luchtmolecuul de precieze locatie
en energie zou kunnen bepalen, dan nog
staat het toekomstige verloop van het
weer niet vast. Het weer is chaotisch, en
wat meteorologen proberen is die wille-
keur enigszins te temmen.
4. Kijk niet meer dan 7 dagen vooruit
Een weerapp geeft vaak verwachtingen
tot 14 dagen vooruit, soms nog verder.
Dat is volksverlakkerij. Een week vooruit
is al heel wat. Als het volgens je telefoon
over vijf en zeven dagen regent, maar
dag 6 droog blijft, dan kan dat ook heel
goed andersom blijken te zijn. De bood-
schap die je uit je weerapp moet halen is
dat het tegen die tijd wisselvallig is.
5. Verwonder je wat vaker
De betrouwbaarheid een week vooruit is
in twintig jaar spectaculair verbeterd.
Dat komt door snellere computers, bete-
re fysica, kleinere gridcellen, maar ook
door de ensembleverwachting. Die geeft
een beeld van de zekerheid van de ver-
wachting, en maakt de kans op een sterk
afwijkende weersverwachting kleiner.
Het werkt zo: je geeft aan een weermo-
del meetgegevens met zestig keer een
andere onzekerheidsmarge. In wiskun-
determen: speciaal voor jou wordt met
zestig vectoren geprobeerd de oplos-
singsruimte van enkele honderdduizen-
den dimensies zo orthogonaal mogelijk
op te spannen. Gaaf hè?
6. Gebruik nooit de regenradar
voor de komende uren
Veel weerapps hebben een grafiek die
aangeeft of het in de komende uren gaat
regenen. Die functie heb ik echt nog
nooit gebruikt. Zeker in de zomer is het
een recept voor teleurstelling. Dat zit zo:
een regenradar werkt op basis van waar-
nemingen, niet van modelverwachtin-
gen. Het enige dat een regenradar doet is
de koers van bestaande regen in de heer-
sende windrichting extrapoleren. Vooral
in de zomer gaat dat mis, omdat neer-
slag dan meestal lokaal ontstaat, door
convectie. Buien kunnen dus ontstaan
vanuit het niks, en verdwijnen ook zo-
maar. Regenradars missen daardoor bui-
en, of berekenen regen van buien die
ondertussen alweer oplossen. Kijk liever
naar het radarbeeld van het afgelopen
uur en maak zelf een inschatting.
7. Wees kritisch in de bergen
Het allermoeilijkste terrein voor een
weermodel zijn de bergen. Daar gebeu-
ren dingen op een kleinere ruimtelijke
schaal dan de gridcellen zelf. Bovendien
zijn de bergen in een weermodel slecht
nagebootst, een beetje zoals de Alpen in
duploblokken. In het echt kan het in het
ene dal onweren maar in het andere
niet. Dat het in het dal mistig is maar op
de bergtop zonnig. Een weermodel
heeft hier grote moeite mee.
8. Let ook op de windverwachting
Gebruikers van weerapps kijken vooral
naar temperatuur en symbolen. Dat leidt
soms tot een totaal verkeerde interpre-
tatie van het weer, zeker aan de kust. Let
ook op de wind. Als je niet ziet dat er
windkracht 6 van zee waait dan denk je
ten onrechte dat het heerlijk is om met
een parasol te gaan zonnebaden.
9. Geniet van je vakantie
Zeker in Zuid-Europa, want over dertig
jaar ga je daar echt niet meer voor de lol
in juli en augustus naar toe.
C�O�LU�M�N
PETER�KUIPERS�MUNNEKE
Peter�Kuipers�Munneke�is�glacioloog�bij�de�Universiteit�Utrecht�en�weerman�bij�de�NOS