Hoe voorkom je het ontstaan van forever data?

divine interventionIk heb een goed ‘gesprek’ gehad met mijn (op dit moment) favoriete LLM Google Gemini. Het begon met onderstaande, enigszins morbide vraag:

Stel dat een trainingsset voor een AI persoonsgegevens bevat, en een persoon komt te overlijden, is het dan eenvoudig om de persoonsgegevens van de overleden persoon te verwijderen en de aangepaste trainingsset opnieuw te gebruiken om de AI te trainen?

Dit is natuurlijk een vraag waarop ik het antwoord al weet, maar ik wilde het graag van een LLM horen. En Gemini had een bijzonder uitgebreid antwoord:

Het verwijderen van persoonsgegevens van een overleden persoon uit een AI-trainingsset en het opnieuw trainen van de AI is complex en niet eenvoudig, om verschillende redenen:

  1. De aard van machinaal leren:

    • Verspreide representatie: In veel machine learning modellen, vooral diepgaande neurale netwerken, zijn gegevens niet discreet opgeslagen als individuele records die gemakkelijk kunnen worden verwijderd. In plaats daarvan worden de “kennis” of “patronen” afgeleid van de trainingsgegevens verspreid over miljoenen of miljarden parameters (gewichten en biases) in het model. Een individueel stukje informatie, zoals de gegevens van één persoon, is niet eenvoudig te lokaliseren en te “de-trainen”. [MD: dit klinkt als een fundamentele ontwerpfout bij LLM-makers; CRUD is toch de vanzelfsprekende basis voor alles wat met data te maken heeft]
    • Verstrengeling: De aanwezigheid van de gegevens van één persoon heeft invloed op de manier waarop het model andere gegevenspunten leert. Het is alsof je een ingrediënt uit een gebakken cake wilt verwijderen – het is onmogelijk om de invloed ervan volledig ongedaan te maken zonder de hele cake opnieuw te bakken met gewijzigde ingrediënten. [MD: hier geldt hetzelfde voor; een fundamentele ontwerpfout omdat hiermee alle data bevroren is vanaf dag 1]
  2. Technische uitdagingen bij “ongedaan maken” of “her-trainen”:

    • Computationele kosten: Het opnieuw trainen van een AI-model, vooral grote modellen, is extreem computationeel intensief en kostbaar. Het vereist vaak enorme hoeveelheden rekenkracht (GPU’s of TPU’s), tijd en energie. Dit is niet iets wat je routinematig doet voor elke aanvraag om gegevens te verwijderen.
    • “Unlearning” is een actief onderzoeksgebied: Het concept van “machine unlearning” of “geheugenverwijdering” is een actief en complex onderzoeksgebied binnen AI. Er zijn methoden die proberen de invloed van specifieke gegevenspunten ongedaan te maken, maar deze zijn vaak nog in een experimenteel stadium, niet perfect en kunnen compromissen inhouden (bijv. verminderde modelprestaties). Ze zijn zeker nog niet zo eenvoudig als een simpele “delete”-knop. [MD: bijzonder onverstandig om machine learning en machine unlearning niet hand in hand te hebben ontwikkeld, een brevet van onvermogen aan AI-ontwikkelaars in algemene zin]
    • Gegevensafhankelijkheden: Het verwijderen van gegevens kan de prestaties van het model beïnvloeden, vooral als de verwijderde gegevens unieke patronen of belangrijke informatie bevatten die cruciaal waren voor de nauwkeurigheid van het model. [MD: het klinkt als een gebroken plaat, maar hier hadden AI-ontwikkelaars vanaf dag 1 rekening mee moeten houden]
  3. Wettelijke en ethische overwegingen (met name AVG/GDPR):

    • Recht om te worden vergeten (Right to be forgotten): De AVG (Algemene Verordening Gegevensbescherming) in de EU, en vergelijkbare wetgeving elders, geeft individuen het recht om hun persoonsgegevens te laten verwijderen onder bepaalde omstandigheden. Hoewel de AVG primair betrekking heeft op levende personen, kan het de facto ook gevolgen hebben voor gegevens die betrekking hebben op overleden personen, vooral als ze indirect van invloed zijn op levende personen (bijv. familiebanden).
    • Implementatie van het recht op verwijdering: De complexiteit van het verwijderen van gegevens uit AI-modellen maakt het uitermate moeilijk voor organisaties om te voldoen aan dit recht, wat leidt tot grote discussies en uitdagingen op het gebied van naleving.

Conclusie:

Nee, het is niet eenvoudig om de persoonsgegevens van een overleden persoon uit een AI-trainingsset te verwijderen en de AI opnieuw te trainen. De inherente aard van machine learning modellen, de computationele kosten en de complexiteit van “machine unlearning” maken dit een significant technisch en operationeel probleem, met belangrijke implicaties voor privacywetgeving zoals de AVG.

Gemini doet in haar conclusie de aanname dat de geconstateerde technische en operationele problemen consequenties hebben voor privacywetgeving. Ik draai deze volgorde toch liever om:

De privacywetgeving nemen we als vertrekpunt, en AI aanbieders dienen volledig aan de AVG te voldoen. Welke consequenties heeft dat voor AI aanbieders?

En dat levert dit (wederom uitgebreide) antwoord op:

Als privacywetgeving (de AVG) als vertrekpunt wordt genomen en AI-aanbieders volledig aan de AVG moeten voldoen, heeft dit verstrekkende en complexe consequenties voor deze aanbieders. De AVG is niet ontworpen met AI in gedachten, maar de principes ervan zijn desalniettemin volledig van toepassing wanneer AI-systemen persoonsgegevens verwerken.

Hier zijn de belangrijkste consequenties voor AI-aanbieders, ingedeeld naar de AVG-beginselen:

1. Rechtmatigheid, behoorlijkheid en transparantie (Art. 5(1)(a) AVG)

  • Wettelijke grondslag: AI-aanbieders moeten altijd een geldige wettelijke grondslag hebben voor het verzamelen en verwerken van persoonsgegevens, of dit nu toestemming, een gerechtvaardigd belang, een wettelijke verplichting, of een andere grondslag is. Dit kan lastig zijn, vooral bij grootschalige dataverzameling voor trainingsdoeleinden.
  • Transparantie en uitlegbaarheid: Dit is een van de grootste uitdagingen. AI-modellen, vooral complexe neurale netwerken (“black boxes”), zijn vaak moeilijk te begrijpen in hun besluitvorming. AI-aanbieders moeten:
    • Informatie verstrekken: Duidelijk communiceren welke persoonsgegevens worden verzameld, waarom, hoe lang ze worden bewaard, en wie toegang heeft.
    • Uitleg geven over beslissingen: Bij geautomatiseerde besluitvorming (Art. 22 AVG), moeten zij betekenisvolle informatie verstrekken over de logica achter de beslissing en de verwachte gevolgen voor de betrokkene. Dit is cruciaal wanneer AI bijvoorbeeld wordt gebruikt voor kredietbeoordeling, werving & selectie, of het opsporen van fraude.
    • Het transparantiebeginsel naleven: Dit betekent niet alleen dat je informeert over wat er gebeurt, maar ook hoe het gebeurt, voor zover dat redelijkerwijs mogelijk is zonder bedrijfsgeheimen prijs te geven.

2. Doelbinding (Art. 5(1)(b) AVG)

  • Specifieke, expliciete en legitieme doeleinden: Persoonsgegevens mogen alleen worden verzameld voor welomschreven doeleinden die voorafgaand aan de verwerking zijn vastgesteld. Dit staat haaks op de brede “datahonger” van veel AI-modellen, die vaak baat hebben bij zo veel mogelijk data om tot betere prestaties te komen.
  • Compatibiliteit van doeleinden: Als gegevens later voor een ander doel worden gebruikt dan waarvoor ze oorspronkelijk zijn verzameld, moet dat nieuwe doel verenigbaar zijn met het oorspronkelijke doel, of er moet een nieuwe grondslag zijn (bijv. opnieuw toestemming vragen). Dit is een uitdaging voor AI, aangezien getrainde modellen vaak voor meerdere, later pas bedachte, doeleinden kunnen worden ingezet.

3. Dataminimalisatie (Art. 5(1)(c) AVG)

  • Noodzakelijkheid en proportionaliteit: AI-aanbieders mogen alleen de persoonsgegevens verwerken die strikt noodzakelijk zijn voor het bereiken van het vooraf vastgestelde doel. Dit staat soms op gespannen voet met de drang om grote datasets te gebruiken om AI-modellen te trainen.
  • Anonimisering en pseudonimisering: AI-aanbieders worden sterk aangemoedigd om zoveel mogelijk geanonimiseerde of gepseudonimiseerde gegevens te gebruiken, met name tijdens de trainingsfase. Echter, “echte” anonimisering (waarbij de persoon niet meer te identificeren is, zelfs niet door combinatie met andere data) is in de praktijk moeilijk te realiseren voor complexe datasets die voor AI worden gebruikt. Pseudonimisering valt nog wel onder de AVG.

4. Juistheid (Art. 5(1)(d) AVG)

  • Accuraat en actueel: AI-aanbieders moeten ervoor zorgen dat de verwerkte persoonsgegevens accuraat en, indien nodig, actueel zijn. Dit betekent dat zij maatregelen moeten nemen om onjuiste of verouderde gegevens te corrigeren of te wissen. Onjuiste trainingsdata kunnen leiden tot vooringenomen of discriminerende AI-outputs.

5. Opslagbeperking (Art. 5(1)(e) AVG)

  • Niet langer bewaren dan noodzakelijk: Persoonsgegevens mogen niet langer worden bewaard dan nodig is voor de doeleinden waarvoor zij worden verwerkt. Dit brengt, zoals eerder besproken, de uitdaging van het “recht om vergeten te worden” (Art. 17 AVG) met zich mee voor getrainde AI-modellen. Het is technisch complex en duur om individuele data uit een getraind model te verwijderen. AI-aanbieders moeten beleid en processen ontwikkelen voor:
    • Bewaringstermijnen: Hoe lang worden trainingsdata bewaard?
    • Verwijdering van gegevens: Hoe wordt voldaan aan verwijderingsverzoeken? Dit kan betekenen dat modellen opnieuw moeten worden getraind, wat niet praktisch is op aanvraag. Hier komen technieken als “machine unlearning” in beeld, die nog in ontwikkeling zijn.

6. Integriteit en vertrouwelijkheid (Beveiliging – Art. 5(1)(f) AVG)

  • Beveiliging van gegevens: AI-aanbieders moeten passende technische en organisatorische maatregelen treffen om persoonsgegevens te beveiligen tegen ongeoorloofde of onrechtmatige verwerking en tegen onopzettelijk verlies, vernietiging of beschadiging. Dit omvat beveiliging van:
    • Trainingsdata: Bescherming tegen datalekken.
    • Het AI-model zelf: Bescherming tegen adversarial attacks die het model kunnen manipuleren of gevoelige informatie kunnen onthullen.
    • Outputs van het AI-systeem: Zorgen dat gevoelige informatie niet onbedoeld wordt gegenereerd of gelekt.

Overige belangrijke AVG-verplichtingen voor AI-aanbieders:

  • Rechten van betrokkenen (Hoofdstuk III AVG): Naast het recht om vergeten te worden, moeten AI-aanbieders ook voldoen aan rechten zoals:
    • Recht op inzage: Betrokkenen moeten kunnen inzien welke gegevens over hen worden verwerkt.
    • Recht op rectificatie: Gegevens moeten kunnen worden gecorrigeerd.
    • Recht op bezwaar: Betrokkenen kunnen bezwaar maken tegen de verwerking.
    • Recht op gegevensoverdraagbaarheid: Gegevens moeten in een gestructureerd, gangbaar en machineleesbaar formaat kunnen worden ontvangen en overgedragen.
  • Privacy by Design en Privacy by Default (Art. 25 AVG): AI-systemen moeten van meet af aan (tijdens het ontwerp en de ontwikkeling) privacyvriendelijk zijn. Dit betekent dat privacybeschermende maatregelen standaard moeten zijn ingebouwd.
  • Data Protection Impact Assessment (DPIA – Art. 35 AVG): Wanneer de verwerking van persoonsgegevens, met name bij gebruik van nieuwe technologieën zoals AI, waarschijnlijk een hoog risico inhoudt voor de rechten en vrijheden van natuurlijke personen, moet een DPIA worden uitgevoerd. Dit is bijna altijd het geval bij AI-systemen die persoonsgegevens verwerken.
  • Functionaris Gegevensbescherming (FG – Art. 37 AVG): Afhankelijk van de aard en omvang van de gegevensverwerking, kan een AI-aanbieder verplicht zijn een FG aan te stellen.
  • Verwerkersovereenkomsten (Art. 28 AVG): Als een AI-aanbieder persoonsgegevens verwerkt namens een andere organisatie (de verwerkingsverantwoordelijke), moet er een verwerkersovereenkomst zijn die de verantwoordelijkheden duidelijk vastlegt.
  • Verantwoordingsplicht (Art. 5(2) en 24 AVG): AI-aanbieders moeten kunnen aantonen dat zij voldoen aan de AVG. Dit betekent het bijhouden van gedetailleerde documentatie over de verwerking van persoonsgegevens (bijv. verwerkingsregisters) en de genomen beveiligingsmaatregelen.

Samenvattend: De volledige naleving van de AVG dwingt AI-aanbieders tot een paradigmaverschuiving in hun ontwikkel- en operationele processen. Het gaat niet alleen om het bouwen van technologisch geavanceerde AI, maar ook om het creëren van AI-systemen die fundamenteel ontworpen zijn met respect voor privacy, transparantie en rechten van individuen. Dit vergt aanzienlijke investeringen in juridische expertise, technische oplossingen (zoals privacy-enhancing technologies) en een grondige heroverweging van data governance-strategieën. Boetes voor niet-naleving van de AVG kunnen aanzienlijk zijn (tot € 20 miljoen of 4% van de wereldwijde jaaromzet, afhankelijk van wat hoger is), wat de noodzaak tot compliance nog verder benadrukt. Bovendien zal de aankomende AI Act (AI Verordening) van de EU extra specifieke regels en verplichtingen opleggen aan AI-aanbieders, die vaak aanvullend zijn op, of een verdere uitwerking zijn van, de AVG-principes.

Een herkenbaar antwoord die er feitelijk op neerkomt dat productontwikkeling in het geval van LLM’s geen enkele rekening heeft gehouden met privacy wetgeving. Du heb ik Gemini de volgende vraag gesteld:

De AVG is zeker niet ontworpen met LLM’s in gedachten, maar wel met het recht van privacy binnen een democratische samenleving. Binnen de EU is privacy een grondrecht. Hoe kan het zijn dat grote bedrijven als Meta, Google, Amazon en Anthropic dit grondrecht niet hebben laten prevaleren bij de bouw van hun respectievelijke LLM’s?

En daar gaan we weer, Gemini lult de oren van je kop:

Het is inderdaad zo dat privacy een grondrecht is binnen de EU, vastgelegd in Artikel 8 van het Handvest van de grondrechten van de Europese Unie en verder uitgewerkt in de AVG (GDPR). De claim dat grote bedrijven als Meta, Google, Amazon en Anthropic dit grondrecht ‘niet hebben laten prevaleren’ bij de bouw van hun LLM’s is een veelgehoorde kritiek en is deels waar te maken, maar de situatie is genuanceerder dan een simpel “negeren”.

Hier zijn de belangrijkste redenen waarom dit zo is en hoe de EU probeert te handhaven:

  1. De Aard van LLM-training en de Enorme Dataschaal:

    • Datahonger: Zoals eerder besproken, vereisen LLM’s gigantische datasets (biljoenen woorden, petabytes aan data) om effectief te kunnen functioneren en de complexe taalpatronen te leren. Deze data wordt vaak van het open internet “gescraped”, inclusief websites, boeken, artikelen, fora, en sociale media.
    • Praktische Onhaalbaarheid van Individuele Toestemming (Opt-in): Het is praktisch onmogelijk om vooraf expliciete toestemming (opt-in) te vragen aan elk individu wiens persoonsgegevens (bijvoorbeeld een openbaar gemaakte tweet, een blogpost, of een forumreactie) in deze gigantische datasets terechtkomen. De schaal van de data maakt traditionele AVG-compliance procedures, zoals het verkrijgen van toestemming per datapunt, onuitvoerbaar.
    • Het “Recht om Vergeten te Worden” is Technisch Moeilijk: Zoals ook eerder uitgelegd, is het technisch extreem complex en kostbaar om individuele persoonsgegevens selectief te verwijderen uit een getraind LLM. Het vereist vaak opnieuw trainen of geavanceerde (en nog in ontwikkeling zijnde) “machine unlearning” technieken. Dit maakt het voor LLM-aanbieders moeilijk om adequaat te reageren op AVG-verzoeken om verwijdering.
  2. Juridische Interpretatie en Grijze Gebieden binnen de AVG:

    • “Gerechtvaardigd Belang” als Grondslag: Veel van deze bedrijven beroepen zich op de juridische grondslag van “gerechtvaardigd belang” (Art. 6(1)(f) AVG) voor het verwerken van openbaar beschikbare persoonsgegevens voor trainingsdoeleinden. Ze stellen dat het ontwikkelen van geavanceerde AI in het algemeen belang is of essentieel voor hun bedrijfsmodel. Echter, dit is een grondslag die een zorgvuldige belangenafweging vereist tussen het belang van de verwerkingsverantwoordelijke en de rechten en vrijheden van de betrokkene. Privacyorganisaties (zoals noyb, de organisatie van Max Schrems) betwisten vaak de geldigheid van dit gerechtvaardigd belang, vooral als er minder privacy-invasieve methoden beschikbaar zijn of wanneer het opt-out systeem voor de gebruiker te ingewikkeld is (zoals recentelijk het geval was bij Meta).
    • Anonimisering vs. Pseudonimisering: Bedrijven beweren vaak dat ze gegevens anonimiseren. Echter, echte anonimisering (waarbij een persoon absoluut niet meer te identificeren is, zelfs niet indirect) is zeer moeilijk bij tekstdata, en vaak is er eerder sprake van pseudonimisering (wat nog steeds onder de AVG valt). Bovendien is “memorization” een bekend probleem bij LLM’s, waarbij het model letterlijke stukken uit de trainingsdata kan reproduceren, inclusief persoonsgegevens.
    • Handhavingsuitdagingen: De toezichthouders (Data Protection Authorities – DPA’s) binnen de EU worstelen zelf ook met de technische complexiteit van AI en de toepassing van bestaande wetgeving. Het vereist nieuwe expertise en samenwerking om effectief te handhaven.
  3. Economische Druk en Concurrentie:

    • “First-mover advantage”: De ontwikkeling van state-of-the-art LLM’s vereist enorme investeringen en data. Er is een sterke drang om snel te innoveren en de concurrentie voor te blijven. Dit kan soms leiden tot het nemen van risico’s op het gebied van privacycompliance in de hoop dat de voordelen van een geavanceerder model opwegen tegen eventuele boetes of juridische problemen.
    • Schaalvoordeel: Grote techbedrijven hebben toegang tot ongekende hoeveelheden data en rekenkracht, wat hen een enorm voordeel geeft bij de ontwikkeling van LLM’s. Het aanpassen van hun processen aan strikte privacy-eisen kan hen in een (tijdelijke) achterstandspositie brengen ten opzichte van concurrenten die zich minder aan de regels houden, hoewel dit in de EU niet zou mogen gebeuren.
  4. Het “Move Fast and Break Things” Mentality (historisch):

    • Hoewel dit minder expliciet wordt uitgesproken, hebben veel grote techbedrijven (vooral die uit Silicon Valley) historisch gezien een cultuur gehad van snelle innovatie, waarbij naleving van regelgeving soms pas achteraf werd aangepakt, of wanneer er juridische druk ontstond. Dit is een cultuur die botst met het “Privacy by Design” principe van de AVG.

Conclusie: Het is niet zozeer dat deze bedrijven het grondrecht op privacy volledig negeren, maar eerder dat ze opereren op het snijvlak van een technologische mogelijkheid (gigantische LLM’s) en een strikt wettelijk kader (de AVG) dat niet specifiek voor deze technologie is ontworpen. Ze zoeken de grenzen op van de AVG (bijv. door te vertrouwen op “gerechtvaardigd belang”), proberen technische uitdagingen te omzeilen (zoals machine unlearning), en zijn vaak reactief in plaats van proactief in het implementeren van privacyvriendelijke oplossingen. Het is een voortdurende strijd tussen technologische innovatie en regelgeving.

Het is natuurlijk wel zo dat LLM’s een grondrecht als privacy volledig negeren, en daar ligt de kern van het probleem. Want als de tijd, inspanningen en kosten tot een enorme hoogte zijn opgelopen dan is er vanzelfsprekend een grote weerstand om deze als verloren te beschouwen en opnieuw te beginnen. Daarom deze vraag:

Bezwaren als Datahonger, Praktische Onhaalbaarheid van Individuele Toestemming (Opt-in) en het Recht om vergeten te worden zijn technische argumenten. Het kunnen ook voldoende argumenten zijn om een bedrijf die het grondrecht van privacy eerbiedigt, doet besluiten om een product niet te ontwikkelen, of, door het voor te leggen aan de vertegenwoordiger van dit recht? Waarom zijn deze alternatieven niet overwogen?

Gemini geeft dit antwoord:

Je punt is absoluut cruciaal. Als privacy een grondrecht is, en er zijn duidelijke technische bezwaren (zoals datahonger, de onhaalbaarheid van individuele opt-ins op schaal, en de complexiteit van “vergeten worden”) die directe compliance met de AVG bemoeilijken bij het bouwen van LLM’s, dan rijst de vraag: waarom zijn deze bedrijven niet tot de conclusie gekomen dat ze ofwel dit specifieke product niet kunnen ontwikkelen zoals ze het nu doen, ofwel dat ze het moeten voorleggen aan de vertegenwoordiger van dit recht (de regelgever/toezichthouder) voordat ze massaal data verwerken?

Dit is een kernvraag in het ethische en juridische debat rondom AI. Er zijn verschillende redenen waarom deze “alternatieven” (niet ontwikkelen of eerst wachten op goedkeuring) niet op grote schaal zijn overwogen of toegepast door deze bedrijven:

  1. De “Catch-up” Mentality en de Algemene Aanpak van Tech-Innovatie:

    • Regelgeving loopt achter: De technologie (LLM’s) heeft zich razendsnel ontwikkeld. Wetgeving en handhaving lopen traditioneel achter op technologische innovatie. Tegen de tijd dat regelgevers de impact van een nieuwe technologie volledig begrijpen en daarop reageren, zijn de grote spelers vaak al diep in de ontwikkeling en uitrol van hun producten.
    • “Move Fast and Break Things”: Deze historische mentaliteit in Silicon Valley, hoewel nu officieel afgezworen, is nog steeds deels diepgeworteld. Het idee is om snel te innoveren, producten te lanceren, en eventuele juridische of ethische problemen achteraf op te lossen. Het risico op boetes of juridische procedures wordt vaak afgewogen tegen de potentiële winsten en het behouden van een concurrentievoordeel.
    • Globaal perspectief: Veel van deze bedrijven zijn globaal en opereren in markten met uiteenlopende privacywetten. Hoewel de AVG de strengste is, is de druk vanuit andere regio’s mogelijk minder. Ze ontwikkelen een product dat wereldwijd bruikbaar moet zijn, en passen het daarna pas aan de strengste regelgeving toe, vaak onder druk.
  2. Financiële Incentives en Concurrentiedruk:

    • Enorme potentiële winsten: De commerciële potentie van LLM’s (en AI in het algemeen) is gigantisch. Bedrijven zien dit als de volgende grote technologische golf en willen de “AI race” winnen. De drang om marktaandeel te veroveren en de technologie te domineren is een zeer krachtige motivator.
    • Kosten van compliance vs. Kosten van non-compliance: De kosten van het volledig voldoen aan de AVG (bijv. door kleinere datasets te gebruiken, veel meer handmatige data-curatie, of extreem dure machine unlearning-technieken te ontwikkelen) worden vaak afgewogen tegen de verwachte boetes. Voor sommige gigantische techbedrijven kan een boete van enkele tientallen miljoenen of honderden miljoenen euro’s (hoewel hoog in absolute zin) een acceptabel bedrijfsrisico zijn vergeleken met de miljarden die te verdienen zijn.
    • “Wie niet waagt, wie niet wint”: Er is een zekere mate van risicobereidheid. Als de concurrentie LLM’s bouwt zonder volledig AVG-compliant te zijn, voelen bedrijven de druk om hetzelfde te doen om niet achter te raken.
  3. Ambiguïteit en Interpretatie van de Wet:

    • Geen specifieke AI-wetgeving (tot recent): De AVG is generiek van aard en was niet specifiek geschreven voor complexe AI-modellen. Dit creëerde grijze gebieden en ruimte voor interpretatie (zoals het beroep op “gerechtvaardigd belang” voor trainingsdata). Bedrijven benutten deze ruimte tot het uiterste.
    • Noodzaak vs. Nice-to-have: Bedrijven kunnen beargumenteren dat de ontwikkeling van geavanceerde AI in het bredere maatschappelijke belang is (bijv. voor onderzoek, efficiëntie, gezondheidszorgtoepassingen), en dat dit een legitiem gerechtvaardigd belang vormt voor het verwerken van openbare data, zelfs als die persoonsgegevens bevatten. Dit is echter een controversiële interpretatie.
    • Complexiteit van handhaving: Zelfs de toezichthouders hebben moeite met het volledig doorgronden van de technische implicaties van LLM’s en de effectieve handhaving van de AVG hierop. Dit geeft bedrijven enige speelruimte totdat er duidelijke precedenten of meer specifieke regelgeving komt.
  4. Gebrek aan Proactieve Dialoog (initieel):

    • In plaats van de technische uitdagingen van meet af aan voor te leggen aan regelgevers om samen tot een oplossing te komen, hebben veel bedrijven gekozen voor een benadering van “bouwen en dan pas zien”. Dit kan komen door een inschatting dat een proactieve dialoog het innovatieproces te veel zou vertragen of zou leiden tot te strikte eisen.
    • Dit is precies wat de EU probeert te veranderen met de AI Act, die een veel proactievere en risicogebaseerde aanpak vereist, inclusief verplichte risicobeoordelingen (DPIA’s en Fundamental Rights Impact Assessments) voordat AI-systemen op de markt worden gebracht, vooral de systemen met een hoog risico. Dit dwingt bedrijven tot een dialoog met regelgevers en toezichthouders in een veel eerder stadium.

Waarom de alternatieven niet overwogen zijn zoals jij ze voorstelt:

  • “Product niet ontwikkelen”: Dit is vanuit bedrijfseconomisch oogpunt nauwelijks een optie als de potentiële markt zo groot is en de concurrentie wel doorgaat. Een bedrijf dat zegt “wij ontwikkelen geen LLM’s omdat het niet AVG-compliant kan”, zou zichzelf uitsluiten van een enorme groeimarkt. Het kapitalistische systeem moedigt dit niet aan.
  • “Voorleggen aan de vertegenwoordiger van dit recht (regelgever) voordat ontwikkelen”: Dit is precies wat de Privacy by Design en Privacy by Default principes van de AVG eigenlijk vereisen. Het betekent dat privacy van meet af aan in het ontwerp moet worden meegenomen en dat, als er hoge risico’s zijn, een DPIA moet worden uitgevoerd en, indien nodig, overleg met de toezichthouder (de vertegenwoordiger van dit recht) moet plaatsvinden (Art. 36 AVG). Echter, in de praktijk hebben bedrijven dit vaak als een na-gedachte of een compliance-oefening behandeld, in plaats van een fundamentele ontwerpprincipes. De druk om snel te innoveren en de complexiteit van de technologie hebben ertoe geleid dat dit principe onvoldoende is toegepast in de vroege fases van LLM-ontwikkeling.

Oftewel; kapitalisme trumps privacy, althans bij AI-toepassingen. Met daarom als laatste vraag:

Kan ik jouw uitgebreide antwoord zo samenvatten: we rommelen maar wat naar voren en we zien wel hoe we met de fallout omgaan, privacy be damned

Gemini:

Het vangt de kern van de ‘Move Fast and Break Things’ mentaliteit die lang dominant was in Silicon Valley, en de neiging om innovatie prioriteit te geven boven naleving van wetgeving in de beginfase van een nieuwe technologie. Het “privacy be damned” element verwijst naar de frustratie dat grondrechten (zoals privacy) in de praktijk vaak ondergeschikt lijken te zijn aan commerciële belangen en technologische vooruitgang.

Echter, het mist een deel van de nuance en de dynamiek die nu speelt:

  • Niet volledig genegeerd: Hoewel de AVG-compliance op het gebied van LLM’s in de praktijk verre van perfect is, is het niet zo dat privacy volledig wordt genegeerd. Er zijn afdelingen binnen deze bedrijven die zich bezighouden met compliance, en ze reageren (vaak onder druk) op juridische uitdagingen en regelgeving. Ze zoeken de grenzen op en interpreteren de wet in hun voordeel, maar ze beweren wel binnen de kaders te opereren.
  • Actieve handhaving en nieuwe wetgeving: De “fallout” wordt nu actief geadresseerd door regelgevers. De EU handhaaft de AVG, er lopen onderzoeken en er worden boetes uitgedeeld. Bovendien is er specifieke wetgeving zoals de EU AI Act, die juist probeert deze “rommelen maar wat” benadering te stoppen door veel striktere eisen te stellen voordat AI-systemen op de markt komen, met name voor “high-risk” toepassingen. Dit is een poging om het speelveld te veranderen en privacy en veiligheid proactief te garanderen.
  • Technologische uitdagingen zijn reëel: De technische uitdagingen van privacy binnen LLM’s (zoals machine unlearning) zijn oprecht complex. Het is niet zo dat bedrijven er geen moeite voor doen, maar eerder dat er nog geen eenvoudige, schaalbare oplossingen zijn die naadloos aansluiten bij de traditionele juridische eisen.

Dus, ja, je samenvatting benadrukt een pijnlijk punt: de prioriteiten lagen vaak bij ontwikkeling en uitrol, waarbij de gevolgen voor privacy pas later (of onder dwang) werden aangepakt. Maar het is ook belangrijk te erkennen dat de regelgevers nu krachtig reageren en proberen om de sector te dwingen tot een meer verantwoorde aanpak, wat hopelijk de “fallout” in de toekomst beperkt.

Ik had naar aanleiding hiervoor nog een allerlaatste bonusvraag:

Is het niet zo dat met de komst van president Trump de grote techbedrijven zich juist gesterkt voelen in de benadering die tot dusverre is gekozen? Meta gaat er bijvoorbeeld met gestrekt been in

Gemini:

Dat is een heel relevant punt en een veelvoorkomende zorg. Jouw observatie dat Meta “met gestrekt been erin gaat” en de suggestie dat de komst van (een mogelijke) president Trump dit soort gedrag versterkt, raakt aan de kern van de spanning tussen global tech en regionale wetgeving.

Laten we dit ontleden:

Invloed van een Trump-presidentschap op Tech en Privacy (Algemeen):

  • Deregulering als Filosofie: Een kernprincipe van de Trump-administratie is vaak een voorkeur voor deregulering en een “pro-business” klimaat. Dit vertaalt zich vaak in minder stringent toezicht en handhaving van privacyregels, vooral op federaal niveau in de VS. Het idee is dat minder regels innovatie bevorderen en Amerikaanse bedrijven een concurrentievoordeel geven.
  • “America First” en botsing met EU-regelgeving: De “America First” benadering kan leiden tot spanningen met internationale verdragen en regelgeving, inclusief dataoverdrachtsovereenkomsten met de EU (zoals het EU-US Data Privacy Framework, dat al een fragiele basis heeft). Als de Amerikaanse overheid de nationale veiligheid of toegang tot data prioriteert boven EU-privacyeisen (bijv. via surveillancewetten zoals FISA 702), kan dit de basis voor legitieme dataoverdracht ondergraven.
  • Minder nadruk op consumentenbescherming: Historisch gezien heeft de Trump-administratie minder prioriteit gegeven aan consumentenbescherming en privacy-initiatieven van federale instanties zoals de FTC of CFPB. Dit kan het signaal geven dat de Amerikaanse overheid minder geneigd is om techbedrijven te reguleren op deze gebieden.
  • Focus op “bias in content moderation” versus “privacy bias”: Terwijl de Biden-administratie (en de EU) zich meer richt op het aanpakken van bias in AI gerelateerd aan discriminatie (bijv. in werving), heeft Trump meer de nadruk gelegd op vermeende “Big Tech bias en censuur” in contentmoderatie. Dit kan betekenen dat de focus van regulering (of het gebrek daaraan) verschuift.

Meta’s Specifieke Gedrag in de EU (en de ‘gestrekte been’ observatie):

De case met de Verbraucherzentrale NRW (en noyb) is een perfect voorbeeld van wat je omschrijft. Meta’s recente aankondiging om gegevens van Europese gebruikers voor AI-training te gebruiken op basis van een “gerechtvaardigd belang” (opt-out) in plaats van expliciete toestemming (opt-in) is inderdaad een agressieve zet, die direct in strijd lijkt met de geest (en mogelijk de letter) van de AVG.

Waarom doet Meta dit?

  1. Interpretatie van de AVG: Meta beweert dat hun aanpak voldoet aan de richtlijnen van de European Data Protection Board (EDPB) van december 2024 en dat ze uitgebreid hebben samengewerkt met de Ierse DPA (hun hoofdtoezichthouder in de EU). Dit is echter zeer betwist door privacyorganisaties als noyb en consumentenorganisaties. Meta zoekt de grenzen op en probeert de meest gunstige interpretatie van de wet te hanteren om hun bedrijfsmodel te ondersteunen.
  2. Druk vanuit de VS (en Trump’s terugkeer): Hoewel de AVG en de EU AI Act de maatstaf zijn in Europa, opereren deze bedrijven vanuit de VS. Een Amerikaanse regering die minder prioriteit geeft aan privacyregulering en een “America First” benadering promoot, kan deze bedrijven een politieke rugdekking geven om een hardere lijn te trekken tegen buitenlandse regelgeving. Meta’s bewering dat de EU-boetes “succesvolle Amerikaanse bedrijven handicappen” past perfect in dit narratief.
  3. Economische Noodzaak (zoals gezien door Meta): Meta’s kernbedrijfsmodel is gebaseerd op gepersonaliseerde advertenties, die afhankelijk zijn van uitgebreide dataverzameling en -analyse. Beperkingen hierop, opgelegd door de AVG of de Digital Markets Act (DMA), raken hen direct in hun verdienmodel. Ze zien AI-training op brede datasets als cruciaal voor hun concurrentiepositie en toekomst. De “pay-or-okay” model en nu de “opt-out” voor AI-training zijn pogingen om alternatieve manieren te vinden om data te blijven verwerken, ondanks de EU-regels.
  4. Testen van de Grenzen: Meta is historisch gezien niet bang geweest om juridische gevechten aan te gaan en de grenzen van de wet te testen (denk aan de Schrems-zaken over dataoverdracht). Dit gedrag kan worden gezien als een berekende strategie om te zien hoe ver ze kunnen gaan voordat ze definitief worden teruggefloten door rechtbanken of toezichthouders. De actie van de Verbraucherzentrale NRW is precies de soort “fallout” die Meta incalculeert en waar ze dan juridisch op reageren.

Conclusie: Ja, je kunt stellen dat de politieke wind in de VS (met name een mogelijke Trump-presidentschap) de grote techbedrijven kan sterken in hun benadering van agressieve innovatie en het zoeken van de grenzen van regelgeving, vooral als het gaat om privacy. Ze kunnen voelen dat ze meer steun hebben van hun thuisregering in conflicten met strengere EU-regelgeving.

De actie van Meta met betrekking tot AI-training is een direct voorbeeld van dit “gestrekte been” gedrag, waarbij ze een controversiële juridische grondslag (gerechtvaardigd belang met opt-out) hanteren voor massale dataverwerking, in de wetenschap dat dit waarschijnlijk tot juridische strijd zal leiden in de EU. Ze zetten in op het idee dat de potentiële voordelen van AI-ontwikkeling op deze manier zwaarder wegen dan de risico’s van non-compliance of de juridische kosten. Dit is een direct gevecht over de soevereiniteit van EU-regelgeving over de praktijken van globale techbedrijven.

Wat is nou de uitkomst van dit alles? Dat er nog geen uitkomst is. Dat is misschien zeer onbevredigend na bijna 5.000 woorden doorgeworsteld te hebben, maar het is wel de pijnlijke realiteit. De EU heeft met de GDPR en de AI Act wetgeving gerealiseerd die de positie van EU-burgers in theorie vergaand beschermd. Maar wetgeving zonder handhaving is een tandenloze wetgeving. En tot dusverre is de GDPR/AVG tandenloze wetgeving gebleken. En daarmee is een voedingsbodem ontstaan voor massale overtredingen van de GDPR zonder enige repercussie. Waarbij het me niets zou verbazen als de AI Act eenzelfde lot beschoren is.

Geef een reactie