TNO, een van de grootste onafhankelijke onderzoeksorganisaties van Nederland, heeft bekendgemaakt dat ze een eigen Nederlandse versie van ChatGPT gaan ontwikkelen. TNO zal samen met twee andere non-profitpartijen (NFI en SURF) dit AI-taalmodel gaan bouwen. Het doel hiervan is een model creëren dat veilig gebruikt kan worden door Nederlandse academische instellingen, onderzoekers en overheden. Die veiligheid is belangrijk, omdat het onduidelijk is wat er precies met je data gebeurd wanneer je ChatGPT gebruikt. Daarnaast kan er dan ook meer onderzoek naar grote taalmodellen gedaan worden, iets wat met de huidige ChatGPT lastig is omdat het closed-source is (de “binnenkant” van het model is niet inzichtelijk gemaakt).
Naast het doen van onderzoek, kan er met een eigen taalmodel ook meer rekening worden gehouden met de Europese en Nederlandse maatschappelijke, ethische en juridische waarden. Onderzoeker Selmar Smit van TNO zei hierover tegen de Volkskrant: "Als overheid kun je het niet maken om te leunen op de modellen van big tech waarbij er zo slordig wordt omgegaan met trainingsdata."
Het taalmodel zal alleen data gebruiken met toestemming van de auteur en daarmee komt het niet in het geding met het auteursrecht. Het nadeel hiervan kan wel zijn dat er minder data beschikbaar is. GPT-3 is bijvoorbeeld getraind op 45TB aan tekstdata, dat is vergelijkbaar met 300 miljoen woordenboeken! Minder data kan zorgen voor minder nauwkeurige resultaten en dus een minder accuraat model. Daarnaast moet Nederland het doen met een budget van 13,5 miljoen euro, terwijl Amerikaanse profit tech-bedrijven miljarden aan budget inzetten. Het is daarom belangrijk om uiteindelijk in te zetten op een Europees model, zodat het kan concurreren met andere wereldwijde modellen.
Een andere belangrijke waarde in het Nederlandse GPT model, is dat er rekening wordt gehouden met duurzaamheidsaspecten. Wat veel mensen namelijk niet weten, is dat dergelijke modellen enorm veel energie verbruiken. Nu al slurpen datacentra zo'n drie procent van alle elektriciteit wereldwijd op, en één procent van de CO2-uitstoot komt van diezelfde datacentra. In het geval van ChatGPT kost één enkele trainingssessie zo'n 500 ton CO2-uitstoot. Dat is gelijk aan duizend auto's die duizend kilometer rijden. Een duurzamer model kan bijvoorbeeld gecreëerd worden door efficiëntere hardware of door het gebruik van groene energie.
In het aankomende jaar zal het Nederlandse taalmodel worden ontwikkeld, waarbij ook universiteiten betrokken zijn. De mate van openbaarheid van het uiteindelijke model blijft vooralsnog onzeker, omdat TNO, NFI en SURF terughoudend zijn vanwege de mogelijkheid van misbruik, met name door partijen die het zouden kunnen gebruiken voor het verspreiden van desinformatie.