Kunstmatige Intelligentie NRC - nrc ZATERDAG�17�JUNI�& ZONDAG�18�JUNI�2�02� nrc W2 Wetenschap - Studeersnel (2024)

nrc

ZATERDAG�17�JUNI�&ZONDAG�18�JUNI�2�02�3

nrc

ZATERDAG�17�JUNI�&ZONDAG�18�JUNI�2�02�3 Wetenschap W3

W2We t e n sch a p

Slim maar

nog niet echt

i nte l l i ge nt

KUNSTMATIGE�INTELLIGENTIE

Hoe goed is ChatGPT in Nederlands, rechten, biologie

en programmeren? Vier hoogleraren zochten het uit.

Door�onze�medewerker�Bennie�Mols

Afgelopen maart schreven Micro-

soft-onderzoekers in het nog

niet peerreviewed artikel S p a rk s

of Artificial General Intelligence:

Early experiments with GPT-4:

Wij tonen aan dat GPT-4 niet

alleen taal beheerst, maar ook nieuwe en

moeilijke taken kan oplossen op het gebied

van wiskunde, programmeren, geneeskunde,

recht, psychologie en nog veel meer, zonder

dat daarvoor speciale aanwijzingen nodig

zijn. Bovendien komen de prestaties van GPT-

4 in al deze taken opvallend dicht in de buurt

van prestaties op menselijk niveau.

GPT-4 is het taalmodel dat aan de basis ligt

van de meest recente versie van ChatGPT, een

AI-systeem dat teksten schrijft op basis van

een stukje invoertekst en dat sinds de lance-

ring in november 2022 voor een storm aan op-

winding heeft gezorgd. Die storm is inmiddels

wat geluwd en onderzoekers uit talloze we-

tenschapsgebieden hebben ermee kunnen ex-

perimenteren. N RC vroeg hoogleraren uit vier

vakgebieden naar hun eerste experimenten

met ChatGPT en de betekenis ervan voor hun

we te n s c h a p sge b i e d .

Marc van Oostendorp,

hoogleraar Nederlands en acade-

mische communicatie aan de

Radboud Universiteit, legde het

centrale vwo-eindexamen Ne-

derlands voor aan ChatGP T.

Mijn eerste experiment deed ik met ChatGP T

gebaseerd op GPT-3.5. Dit systeem haalde 33

FOTO�GETTY�IMAGES

van de 60 punten en is daarmee op net gezakt.

Maar toen ik het experiment opnieuw deed met

de op GPT-4 gebaseerde ChatGPT slaagde het

programma wel, met iets van een 8 of zelfs 8,5.

Voor het vwo-eindexamen Frans haalde Chat-

GPT ook ruim een 8, maar de sessie voor Fries

was heel bedroevend met zelfs bizarre antwoor-

den.

Ik had een jaar geleden niet voorspeld dat er

nu een computer zou zijn die het vwo-eindexa-

men Nederlands min of meer haalt. De antwoor-

den varieerden wel tussen ik ben verbaasd dat

een computer dit goed heeften wat een rare

fo u t . Het systeem is betrekkelijk goed in het

analyseren van de vragen, maar niet zo goed in

het begrijpen van het genre van het examen zelf.

Het centraal examen gaat over meetbare as-

pecten van omgaan met teksten zoals het her-

kennen van argumentatieschemas, drogrede-

nen en verbanden tussen alineas. Natuurlijk

kun je de vraag stellen of ChatGPT de tekst echt

begrijpt als deze dat allemaal kan, maar die

vraag werd ook vóór ChatGPT al gesteld als het

gaat over scholieren. Begrijpend lezenvan het

eindexamen is misschien niet écht begrip. Dat is

bijvoorbeeld ook een tekst in de context kunnen

plaatsen, zoals aan welk debat de auteur van dit

stuk meedoet, of nog wat ingewikkelder tek-

sten lezen dan de opiniestukken uit het centraal

eindexamen: literaire teksten bijvoorbeeld.

Op wetenschappelijk niveau zie je dat Chat-

GPT de taalkunde op zijn kop zet. Decennia-

lang woedt er al een debat of en in hoeverre

taal aangeboren is. Sommige wetenschappers

zeggen dat ChatGPT laat zien dat het idee van

aangeborenheid onzin is. Andere wetenschap-

pers zeggen weer dat ChatGPT weliswaar men-

selijke taal kan leren, maar net zo goed onmen-

selijke taal, bijvoorbeeld een taal waarin je elke

lettergreep nummert, en dan de klemtoon legt

op lettergrepen die een priemgetal zijn. Men-

sen kunnen dat niet, computers wel.

Bij kunstmatige intelligentie zijn er altijd

verschuivende grenzen: eerst gold schaken als

de hoogste vorm van menselijke intelligentie,

daarna het spel go, en als dat ook blijkt opge-

lost, kiezen we weer een nieuwe grens. Zoiets

gebeurt er nu ook bij tekstbegrip. Ik vind het

heel interessant hoe ons denken over ons den-

ken steeds preciezer wordt doordat we het

moeten afzetten tegen wat computers wel of

niet kunnen.

Anne Meuwese

is hoogleraar public law and

governance of artificial intelligen-

ce aan de Universiteit Leiden.

Zij experimenteerde met ChatGP T

als schrijver van wetten.

Ik gaf ChatGPT de volgende opdracht: schrijf

een wetsbepaling die gevaarlijke honden ver-

biedt. Over dit onderwerp bestaat nog geen

wetgeving in Nederland, maar het is niet

vreemd om er wetgeving over te maken. Chat-

GPT kwam met een artikel verdeeld in negen

s u b a r t i ke l e n .

Wat direct opviel, is dat het een korte en

sterk gesimplificeerde wettekst is die relatief

slecht is in formele, juridische aspecten. Zo

luidt het achtste subartikel: Overtreding van

de bepalingen van deze wet is strafbaar en kan

leiden tot een boete of het intrekken van de

ve rg u n n i ng . Een begrip als strafbaar zou na-

der gespecificeerd moeten worden. Wat ont-

breekt zijn verwijzingen naar artikelen in het

Wetboek van Strafrecht. Het intrekken van een

vergunning geldt ook niet als straf.

Tegelijkertijd komt ChatGPT inhoudelijk

met best interessante suggesties, zoals het idee

van een vergunning. In het tweede subartikel

schrijft ChatGPT: Het is verboden om een ge-

vaarlijke hond in Nederland te houden, te be-

zitten of onder zijn controle te hebben, tenzij

de eigenaar of verzorger in het bezit is van een

geldige vergunning, afgegeven door de ge-

meente waarin de hond verblijft.Aan de ande-

re kant is het cruciale punt hoe je definieert

wat een gevaarlijke hond is, en dat werkt Chat-

GPT helemaal niet uit.

Mijn belangrijkste kritiekpunt is dat het

moeilijke aan het maken van een wetsbepaling

niet het schrijven van de tekst is, maar het na-

denken over hoe de wet past in het juridische

systeem, welke definities je hanteert en welke

regels je precies wilt maken. De meest ingewik-

kelde wetgeving moet nieuwe problemen op-

lossen, denk aan wetgeving over stikstofuit-

stoot, en daarvoor is vaak een nieuwe manier

van denken nodig. Dat kan een systeem zoals

C h at GPT niet, want het is alleen getraind op

data uit het verleden. Ik denk daarom niet dat

C h at GPT voor het schrijven van wetten veel

tijd kan besparen.

Misschien kan ChatGPT wel voor inspiratie

zorgen door opties op een rij te zetten of door

te putten uit vergelijkbare buitenlandse wetge-

ving, maar dat is altijd iets wat er al is. Waar

C h at GPT ook bij kan helpen, is het herschrijven

van minder formele teksten, bijvoorbeeld in

een iets andere stijl. Ik vind wel dat organisa-

ties, en zeker overheden, goed moeten naden-

ken of ze hun werknemers überhaupt willen

toestaan ChatGPT te gebruiken, vanwege de

ondoorzichtigheid van het model en de data

die je ermee prijsgeeft.

Sanne Abeln

is hoogleraar AI technology for l i fe

aan de Universiteit Utrecht en te-

vens geaffilieerd aan de Vrije Uni-

versiteit. Zij legde examenvragen

voor masterstudenten biologie

voor aan ChatGPT en onderzoekt

wat de onderliggende grote

taalmodellen kunnen betekenen

voor biologisch onderzoek.

Bij kennisvragen op het niveau van master-

studenten doet ChatGPT het vrij goed, bijvoor-

beeld als ik vraag welk type lokale vouwing ei-

witten kunnen hebben. Maar wanneer ik vraag

om die kennis te koppelen aan wetenschappe-

lijke literatuur, dan geeft het systeem referen-

ties naar niet-bestaande artikelen.

Ook het redeneren over bestaande kennis

gaat behoorlijk mis. Ik stelde bijvoorbeeld twee

keer op een iets andere manier de vraag om een

maat te bedenken voor de lokale vouwing van

een eiwit. De ene keer ging het goed, de andere

keer ging het totaal fout. Toen heb ik ook ge-

vraagd of die maat al bestaat. Daar kwam geen

goed antwoord op. Toen vroeg ik: is die maat er-

gens aan gerelateerd? Dat kon ChatGPT ook niet

bedenken. Vervolgens vroeg ik het de andere

kant op: er bestaat een maat voor lokale vou-

wing, kun je dat uitleggen? En ja, gegeven een

beschrijving van die maat, kon het systeem het

uitleggen. Wat je ziet is dus dat je al behoorlijk

wat domeinkennis moet hebben om het sys-

teem bij te sturen richting het juiste antwoord.

In mijn eigen wetenschappelijk onderzoek

experimenteren we sinds enkele maanden met

een onderdeel van ESMFold, een AI-program-

ma dat eiwitstructuren kan voorspellen en ge-

baseerd is op hetzelfde soort modellen als

C h at GPT. Wanneer je veel beschikbare trai-

ningsdata hebt, hebben zulke AI-programmas

een goede voorspellende kracht. Wat echter

ontbreekt, is inzicht of begrip waarom een ei-

wit vouwt zoals het programma voorspelt.

Daarnaast heb je in de biologie vaak maar wei-

nig data, bijvoorbeeld als het gaat om zeldzame

ziektes. Daarom blijven we behoefte hebben

aan andere modellen die ook begrip

ge ve n .

Op de universiteit hebben we inmiddels

richtlijnen gemaakt wat studenten wel en niet

mogen doen met ChatGPT. Maar op de middel-

bare school van mijn man leverde ineens drie-

kwart van de havo-leerlingen door ChatGP T

gegenereerde antwoorden in. Ik vind dat Chat-

GPT voor alle lagen van het onderwijs disrup-

tief is. Het heeft in het afgelopen half jaar veel

extra werk opgeleverd voor onderwijzend per-

soneel. Eigenlijk vind ik het onverantwoord

dat ChatGPT openbaar is gemaakt zonder dat

de onderwijssector zich erop heeft kunnen

vo o r b e re i d e n .

Arie van Deursen,

hoogleraar software engineering

aan de TU Delft, gaat in op de

vraag hoe goed ChatGPT is in

p ro g r a m m e re n .

Taalmodellen zoals GPT kunnen goed helpen

bij programmeren. Programmeurs gebruiken

dit soort modellen nu al als gereedschap dat

meeleest met de code die ze schrijven en sug-

gesties kan doen. Alle grote techbedrijven

werken aan dit soort technologie. Zij hebben

veel ontwikkelaars in dienst en willen graag

dat die zo productief mogelijk zijn.

Een recente studie van Meta over hun

instr ument CodeCompose rapporteert dat

8 procent van het totaal aantal te schrijven

regels code voorspeld kan worden door Code-

Compose. Maar dat betekent niet dat Code-

Compose alleen maar correcte suggesties

doet. Slechts een kwart van de suggesties

wordt daadwerkelijk geaccepteerd. Dus als

ontwikkelaar moet je wel bij de les zijn, en

kiezen wat wel en niet goed is. Een studie van

GitHub rapporteert dat ontwikkelaars die zon

zogeheten co-pilot gebruiken meer plezier in

hun werk hebben en daarom productiever

zijn.

Al deze studies hebben nog wel een w ij

van wc-eend-gehalte, waarbij de bedrijven

zelf roepen hoe nuttig hun gereedschap is.

Onafhankelijke evaluaties op open data zijn er

nog niet, maar die zullen wel komen.

GPT als programmeerassistent is maar één

van de mogelijke toepassingen. Er zijn er

meer denkbaar, bijvoorbeeld een continu

open chat-window waarin zowel de ontwik-

kelaar als GPT vragen kan stellen. Op dit mo-

ment is het nog wel een probleem dat je niet

weet waar de antwoorden vandaan komen, en

of ze kloppen. Op termijn zal GPT ook ge-

bruikt worden in combinatie met zoekmachi-

nes, zoals nu al in Bing.

Een andere toepassing van GPT is als hulp

bij het testen van software, in het bijzonder

bij het formuleren van interessante testge-

vallen. Ook denk ik dat GPT kan helpen om

programmeren toegankelijker te maken voor

iedereen. Denk aan een ChatGPT-dialoog ge-

koppeld aan een spreadsheet, waarbij je in

de dialoog vertelt wat je wilt, en GPT je helpt

de gewenste spreadsheet interactief te bou-

we n .

De afstand tot het bouwen van complexe

software is wel nog heel groot. Het is een leu-

ke oefening om met ChatGPT te proberen een

systeem voor de inkomstenbelasting te ma-

ken. ChatGPT waarschuwt dan dat belastin-

gen heel ingewikkeld kunnen zijn, met heel

veel uitzonderingsgevallen. En al die regels en

uitzonderingen zullen wel precies geformu-

leerd moeten worden. En dan ben je toch

weer aan het programmeren.

Ik gaf ChatGP T

de opdracht:

schrijf een

wetsbepaling die

g e v a a r l i j ke

honden verbiedt

Wat een weerapp

wel en niet kan

Nog even en Nederland

loopt leeg op weg naar de

camping in Frankrijk, de

blokhut in Noorwegen

en het appartementje op

Kreta dat er op de fotos

toch groter uitzag. Tegenwoordig zijn

veel vakantiegangers druk met allerlei

weerapps, hoewel weinigen begrijpen

wat het eigenlijk is. Daarom deze veld-

gids met acht adviezen, dilemmas uit

de wetenschapscommunicatie, én een

viering van de wetenschappelijke voor-

u itg a ng .

1. Zorg voor een goede weerapp

De informatie in een weerapp wordt vol-

automatisch gegenereerd. Er komt geen

meteoroloog aan te pas. De gegevens

komen uit een weermodel, dat het aard-

oppervlak opdeelt in gridcellen. Een

computer berekent de atmosferische

stroming tussen die cellen, en p ro c e s s e n

zoals zonneschijn en verdamping bin-

nen iedere gridcel. Daarom is het cruci-

aal om een weerapp te gebruiken die

een weermodel gebruikt met een zo fijn-

mazig mogelijk grid. Ik kan hier natuur-

lijk geen reclame maken, maar (kuch)

Météo France, Met Office (VK) en

Yr. n o. . .

2. Neem je weerapp niet te letterlijk

Meteorologische informatie gaat altijd

over kansen. Waar een weerman met

woorden over zijn weerbericht nog een

probabilistisch sausje kan gieten (waar-

schijnlijk, misschien, af en toe), geven

weerapps je schijnbaar absolute zekerhe-

den. Een app versimpelt kanseninforma-

tie tot een enkel weersymbool en een en-

kel getal. Dat is duidelijk maar ook incom-

pleet. Een telkens terugkerend dilemma

in wetenschapscommunicatie. Gebruik

je app als een leidraad, niet als orakel.

3. Verwacht niet te veel

Je stelt jezelf teleur als je denkt over-

morgen tot 16.59 uur te kunnen kanoën

omdat je telefoon zegt dat het pas om

17.00 uur gaat regenen. Dat komt door-

dat de atmosfeer een uiterst complex,

niet-lineair systeem is. De atmosfeer is

n i e t- d e te r m i n i s t i s c h : zelfs als je van ie-

der luchtmolecuul de precieze locatie

en energie zou kunnen bepalen, dan nog

staat het toekomstige verloop van het

weer niet vast. Het weer is chaotisch, en

wat meteorologen proberen is die wille-

keur enigszins te temmen.

4. Kijk niet meer dan 7 dagen vooruit

Een weerapp geeft vaak verwachtingen

tot 14 dagen vooruit, soms nog verder.

Dat is volksverlakkerij. Een week vooruit

is al heel wat. Als het volgens je telefoon

over vijf en zeven dagen regent, maar

dag 6 droog blijft, dan kan dat ook heel

goed andersom blijken te zijn. De bood-

schap die je uit je weerapp moet halen is

dat het tegen die tijd wisselvallig is.

5. Verwonder je wat vaker

De betrouwbaarheid een week vooruit is

in twintig jaar spectaculair verbeterd.

Dat komt door snellere computers, bete-

re fysica, kleinere gridcellen, maar ook

door de ensembleverwachting. Die geeft

een beeld van de zekerheid van de ver-

wachting, en maakt de kans op een sterk

afwijkende weersverwachting kleiner.

Het werkt zo: je geeft aan een weermo-

del meetgegevens met zestig keer een

andere onzekerheidsmarge. In wiskun-

determen: speciaal voor jou wordt met

zestig vectoren geprobeerd de oplos-

singsruimte van enkele honderdduizen-

den dimensies zo orthogonaal mogelijk

op te spannen. Gaaf hè?

6. Gebruik nooit de regenradar

voor de komende uren

Veel weerapps hebben een grafiek die

aangeeft of het in de komende uren gaat

regenen. Die functie heb ik echt nog

nooit gebruikt. Zeker in de zomer is het

een recept voor teleurstelling. Dat zit zo:

een regenradar werkt op basis van waar-

nemingen, niet van modelverwachtin-

gen. Het enige dat een regenradar doet is

de koers van bestaande regen in de heer-

sende windrichting extrapoleren. Vooral

in de zomer gaat dat mis, omdat neer-

slag dan meestal lokaal ontstaat, door

convectie. Buien kunnen dus ontstaan

vanuit het niks, en verdwijnen ook zo-

maar. Regenradars missen daardoor bui-

en, of berekenen regen van buien die

ondertussen alweer oplossen. Kijk liever

naar het radarbeeld van het afgelopen

uur en maak zelf een inschatting.

7. Wees kritisch in de bergen

Het allermoeilijkste terrein voor een

weermodel zijn de bergen. Daar gebeu-

ren dingen op een kleinere ruimtelijke

schaal dan de gridcellen zelf. Bovendien

zijn de bergen in een weermodel slecht

nagebootst, een beetje zoals de Alpen in

duploblokken. In het echt kan het in het

ene dal onweren maar in het andere

niet. Dat het in het dal mistig is maar op

de bergtop zonnig. Een weermodel

heeft hier grote moeite mee.

8. Let ook op de windverwachting

Gebruikers van weerapps kijken vooral

naar temperatuur en symbolen. Dat leidt

soms tot een totaal verkeerde interpre-

tatie van het weer, zeker aan de kust. Let

ook op de wind. Als je niet ziet dat er

windkracht 6 van zee waait dan denk je

ten onrechte dat het heerlijk is om met

een parasol te gaan zonnebaden.

9. Geniet van je vakantie

Zeker in Zuid-Europa, want over dertig

jaar ga je daar echt niet meer voor de lol

in juli en augustus naar toe.

C�O�LU�M�N

PETER�KUIPERS�MUNNEKE

Peter�Kuipers�Munneke�is�glacioloog�bij�de�Universiteit�Utrecht�en�weerman�bij�de�NOS

Kunstmatige Intelligentie NRC - nrc ZATERDAG�17�JUNI�& ZONDAG�18�JUNI�2�02� nrc W2 Wetenschap - Studeersnel (2024)
Top Articles
Latest Posts
Article information

Author: Reed Wilderman

Last Updated:

Views: 6718

Rating: 4.1 / 5 (72 voted)

Reviews: 95% of readers found this page helpful

Author information

Name: Reed Wilderman

Birthday: 1992-06-14

Address: 998 Estell Village, Lake Oscarberg, SD 48713-6877

Phone: +21813267449721

Job: Technology Engineer

Hobby: Swimming, Do it yourself, Beekeeping, Lapidary, Cosplaying, Hiking, Graffiti

Introduction: My name is Reed Wilderman, I am a faithful, bright, lucky, adventurous, lively, rich, vast person who loves writing and wants to share my knowledge and understanding with you.