AI zonder data bestaat niet, en dat is het eigenlijke probleem

Een eenvoudige waarheid die niemand hardop zegt.

We spreken over kunstmatige intelligentie alsof het iets magisch is. Een algoritme dat denkt, voelt bijna als bewustzijn. Maar het enige wat AI werkelijk doet is patronen herkennen in data. Miljarden datapunten. En elk van die miljarden punten komt van ergens. Van iemand.

ChatGPT is getraind op internetgegevens. Dat klinkt abstract, maar het betekent concreet dat iemand jouw tweet, jouw blog, jouw foto heeft gebruikt om dit systeem op te bouwen, zonder jou te betalen, zonder jou te vragen. Jij bent data geworden.

Cathy O'Neil documenteerde in Weapons of Math Destruction hoe algoritmes niet neutraal zijn. Ze zijn slechts zo onpartijdig als de data waarop ze trainen. Als je een AI traint op beelden van veroordeelden, en zeventig procent van die beelden zijn van zwarte Amerikanen, niet omdat ze crimineel zijn maar omdat die groep disproportioneel wordt gearresteerd, leert je AI niet wie werkelijk crimineel is, maar slechts: "zwarte mannen zijn waarschijnlijker verdacht." Het is geen bug, het is inherent aan de data.

OpenAI en gelijkgestemde bedrijven ploegen door miljarden beelden. Niet uit wetenschappelijke nieuwsgierigheid, maar omdat meer data betere resultaten oplevert, betere producten, meer omzet. Het volume is groter geworden niet omdat we plotseling miljarden beelden hebben gegenereerd, maar omdat we alle beelden van het internet hebben opgeëist.

De vraag die niemand stelt is simpel: van wie zijn die miljarden beelden eigenlijk? Wie heeft toestemming gegeven? In welke wet staat dat ik, als ik een foto op Instagram zet, akkoord ga dat deze foto voortaan voor elke generatie AI-training mag worden gebruikt?

Het antwoord is: nergens. We hebben geen toestemming gegeven. We hebben het simpelweg geaccepteerd, letterlijk, toen we op die knop klikten zonder de voorwaarden te lezen. De AI-bedrijven hebben genomen wat beschikbaar was. En het is juridisch schoon, omdat het internet openbaar is, en openbaar betekent kennelijk "ik mag het gebruiken voor oneindig veel doeleinden."

Wat hier stilletjes verdwijnt is niet zichtbaar. Het is veel dieper. Wat verdwijnt is de grondslag van toestemming, het idee dat als jij iets van jezelf deelt, jij bepaalt wat ermee gebeurt. AI verbreekt die grondslag niet gewelddadig, maar erodeert hem geleidelijk, in algoritmen, in schaal, in abstractie.

Ik heb iRecord gebouwd omdat deze abstractie me tegen de borst stuit. Het idee dat miljoenen Nederlanders hun identiteit afstaan aan centraal beheerde databases, digitale sporen van jezelf waar jij geen controle over hebt. Het is geen paranoia. Het zijn simpelweg logische gevolgen van hoe technologie nu werkt.

De vraag voor AI is niet of het kan. Het kan. De vraag is of we willen dat het kan zonder dat jij, wiens beelden het trainen, enig voordeel aan je eigendom hebt.

Bronnen:

Cathy O'Neil, Weapons of Math Destruction (Crown Publishers, 2016).
MIT Media Lab, 'Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy' (2020).
OpenAI, 'Common Crawl Privacy Analysis' (2024).