In de ondertussen schijnbaar overleden periodiek Totalent stond op 25 september in een artikel over het verkwanselen van de privacy van 450 miljoen Europeanen onder meer de volgende alinea:
‘European privacy regulators are currently blocking the training of A.I. models with European personal data,’ explains Laurens Waling, evangelist at 8vance. ‘This affects Meta, X, and also us. Overly strict privacy interpretations from the Dutch Data Protection Authority make it difficult, for example, to develop technology that helps job seekers connect to new jobs. The AP requires consent, but in practice, that’s not feasible. Consent can always be withdrawn, but once A.I. is trained with data, you can’t remove that data. The European Commission has previously reprimanded the AP for this but to no avail.’
Hoewel bovenstaande alinea uitsluitend leugens en onjuistheden uitstoot, wil ik me vandaag beperken tot het vetgedrukte deel, waar ik in dit artikel
het volgende over te zeggen had:
dit is een technologisch argument, dat na het trainen van een AI-model het zeer omslachtig is om data uit het model te verwijderen. Dat kunnen bouwers alleen zichzelf aanrekenen; er is blijkbaar geen rekening mee gehouden dat content geen eeuwigheidswaarde heeft. Zeur niet en ga terug naar de tekentafel, zou ik zeggen.
Naar nu blijkt dat die tekentafel allang bestaat, onder de noemer machine unlearning. Dat had ik dus kunnen weten. Maar 8vance had dit natuurlijk moeten weten, want als je persoonsgegevens zonder toestemming van social media scrapet (lees: mn. LinkedIn) dan zou het van gezond verstand getuigen om een veiligheidsklep in te bouwen, nu dus bekend onder de naam machine unlearning, een term die overigens in ieder geval al sinds 2019 (Machine Unlearning, 2019, Bourtoule, L., In 42nd IEEE Symposium of Security and Privacy) bestaat…
Ik heb mijn nieuwe beste vriend/in/x Deepseek gevraagd wat machine unlearning is:
Machine unlearning is een opkomend onderwerp binnen kunstmatige intelligentie (AI) en machine learning (ML) dat zich richt op het verwijderen van de invloed van specifieke datapunten of subsets van gegevens uit een getraind model. Dit is vooral belangrijk voor het aanpakken van privacyzorgen, het voldoen aan regelgeving (bijvoorbeeld de “recht om te worden vergeten” in de AVG/GDPR), en het verbeteren van de eerlijkheid of nauwkeurigheid van modellen door bevooroordeelde of verouderde informatie te verwijderen.
Sinds 2019 is er dus literatuur over manieren om data uit een trainingsset te verwijderen… En in 2024 durft een AI evangelist te beweren dat data niet uit een trainingsset te verwijderen is…
Overigens is een nog veel betere (en meer fatsoenlijke) werkwijze om persoonsgegevens sowieso niet te scrapen zonder toestemming van de persoon van wie de gegevens zijn. En dat dit toestemming expliciet, enkelvoudig en bewust is gegeven. Dat scheelt ook machine unlearning…
Ik wil overigens mijn tweede nieuwe beste vriend/in/x Zeta Alpha ook hartelijk bedanken voor zijn/haar/x hulp bij het schrijven van dit artikel. Wat een fantastische toepassing is dat.