Synthetische data, wat is dat eigenlijk?

Gedurende meer dan 10 jaar heeft 8vance geparasiteerd op maar liefst 85 miljoen LinkedIn profielen. En daarmee heeft 8vance grootschalig (voor Nederlandse begrippen) de AVG met voeten getreden, hoewel het bedrijf krampachtige pogingen heeft gedaan om dit te ontkennen. Op 5 oktober 2025 gaf 8vance deze strijd op en bekeerde ze zich met een opmerkelijke about-face tot een fatsoenrakker; ironisch genoeg via een posting op LinkedIn. De redenen hiervoor laten zich eenvoudig raden, maar laat ik eerst maar eens nader ingaan op deze bekering.

Allereerst is er in voornoemde posting deze uitspraak van 8vance:

Opvallend, omdat 8vance altijd een verklaard tegenstander “was” van zowel de AVG (GDPR) als de AI-Act. Zie bijvoorbeeld onderstaande links:

Meta komt uit de kast: GDPR in haar huidige vorm moet verdwijnen, 20 september 2024

De rem op AI: Hoe strikte privacywetgeving Europa’s innovatie vertragen, 20 september 2024

Minstens zo opvallend is dat het bedrijf geen pogingen doet om deze 180-graden draai te verantwoorden. Sterker nog, 8vance doet plotseling alsof ze nog nooit van LinkedIn profielen had gehoord:

[…] while the laws may sound abstract, they directly shape how we build and train AI systems in HR. Take the use of data, for example. Even if something looks public — like a LinkedIn profile — it’s not automatically free to use. Only when people know what their data is used for, it’s compliant.

Hilarisch, een grafrover die plotseling grafrovers van heligschennis beticht! Maar het wordt nog mooier:

That’s why leading HR tech companies, like 8vance, work exclusively with anonymised and synthetic data — patterns, not persons. It allows us to train our models on skills, not identities, and build fair matches without tracking or profiling anyone.

Ik ben benieuwd welke leading HR tech companies met geanonimiseerde data en synthetische data werken… Overigens behoort 8vance in geen velden of wegen tot de leading HR tech companies, anders dan in hun koortsachtige fantasie, maar dit terzijde. Een leading HR tech company who begs to differ is Eightfold. Wat wel interessant is dat 8vance benoemt dat zij uitlsuitend met synthetische data werken. En dat is natuurlijk wel interessant.

De redenen van deze about-face zijn mij niet bekend maar laten zich raden:

UWV is 8vance’s eerste (en tot dusverre enige) klant met enig volume die zich deze data piraat als leverancier heeft gekozen. In drie jaar tijd heeft 8vance geen andere grote partij aan zich weten te binden.
Misschien heeft het ook geholpen dat fringe bloggers de nodige aandacht aan de dubieuze datapraktijken van 8vance hebben besteed waardoor 8vance prospects huiverig zijn geworden.
Misschien, heel misschien is er wel de kwestie van het opdrogen van de primaire databron (LinkedIn). Met als gevolg dat 8vance geen verse persoonsgegevens meer kon scrapen en daarmee haar illegale persoonsdatabase in rap tempo begon te verouderen. Het is nu ondertussen zo’n twee jaar geleden dat LinkedIn de boel in het slot heeft gegooid, en daarmee is de 8vance database ondertussen overdekt met spinnewebben en ander gruis.

De uitkomst van deze about-face is dat 8vance zich presenteert als een een brave “matching”engine voor het HR-domein en de AVG en AI-Act zorgen van zich af kan schudden. Maar is dat wel zo?

Wat is synthetische data eigenlijk?
Volgens mijn trouwe kompaan Gemini is dat het volgende:

Synthetische data is kunstmatig gegenereerde informatie die de statistische eigenschappen en patronen van echte data nabootst, zonder dat de individuele gegevens herleidbaar zijn tot echte personen of gebeurtenissen.

Dat klinkt mooi, maar de term “echte data” baart me zorgen. En dat heb ik aan Gemini duidelijk gemaakt:

Je raakt hier een essentieel en zeer relevant punt aan binnen de data-ethiek en cybersecurity. Je aanname is deels correct: om synthetische data te maken die “nuttig” is, heeft het algoritme (vaak een Generative Adversarial Network of GAN) inderdaad echte data nodig als input om van te leren.

Hieronder leg ik uit hoe dit werkt en waar de privacyrisico’s alsnog kunnen schuilen.

1. Hoe het algoritme leert (Input vs. Output)
Het klopt dat er echte data wordt gebruikt, maar alleen in de trainingsfase. Het algoritme analyseert de bronbestanden om te begrijpen hoe variabelen zich tot elkaar verhouden.
Voorbeeld: Als in de echte data ‘leeftijd’ en ‘inkomen’ sterk gecorreleerd zijn, leert het model dit patroon. De uiteindelijke synthetische dataset bevat echter geen enkele echte persoon uit de bronlijst; het genereert nieuwe, fictieve records die toevallig aan diezelfde correlatie voldoen.
MD: dus niet alleen bestaat er een privacy issue, maar alle mogelijke bias-signalen in de echte data worden ook overgenomen!

2. Is het risico op privacyschending weg?
Nee. Hoewel synthetische data veiliger is dan geanonimiseerde data zijn er drie specifieke risico’s waarbij de privacy alsnog in het geding kan komen:

Overfitting (Memoriseren): Als een AI-model te strak wordt getraind op een kleine dataset, kan het model specifieke records gaan “onthouden” in plaats van patronen te leren. De synthetische output lijkt dan zó sterk op een echt persoon dat deze persoon alsnog herleidbaar is. Dit noemen we identity disclosure.
Outliers (Uitschieters): Als er in de echte data een zeer uniek persoon zit (bijvoorbeeld de enige 100-jarige in een dorp met een specifiek inkomen), kan het algoritme een synthetisch record maken dat bijna identiek is aan deze unieke persoon. Een kwaadwillende die weet dat deze persoon bestaat, zou de data kunnen herleiden.
De bron is echt: Om synthetische data te maken, heb je eerst toegang nodig tot de echte, gevoelige data. Het proces van anonimiseren en het creëren van de synthetische set moet dus in een extreem beveiligde omgeving gebeuren, omdat de ‘bron’ nog steeds alle privacyrisico’s bevat.

Ik heb een half uur zitten sniklachen omdat ik, dankzij Gemini, begreep hoe de vlucht naar voren van 8vance er feitelijk uitziet. Geconfronteerd met een snel verouderende database van geroofde LinkedIn profielen is gekozen voor het maken van een ‘digital twin’ van elk persoonsrecord middels technieken die het mogelijk maken om synthetische data te genereren. Het probleem van veroudering en pseudo privacy is verborgen onder een glanzend synthetisch laagje. En ik heb er geen twijfel over dat UWV (lees: Een lente-schoonmaak voor Vijlbrief? om het niveau van amateurisme binnen UWV beter te begrijpen) hier met open ogen instinkt.

RecruitmentMattersAlles over online recruitment

Synthetische data, wat is dat eigenlijk?

Meta komt uit de kast: GDPR in haar huidige vorm moet verdwijnen, 20 september 2024

Geef een reactie Reactie annuleren

Lusha: jouw data is mijn data tenzij je binnen 14 dagen reageert…

Je loopbaan eindigt hier. Door één klik

Een lente-schoonmaak voor Vijlbrief?

Indeed doet weer een poging met OpenAI

Een korte mededeling van algemeen belang

Adviescollege ICT-toetsing velt negatief oordeel over UWV, 1

Spiegeltje, spiegeltje aan de wand, wie is de grootste data grabber in recruitment land?

Werk.nl ‘vernieuwd’? Nee, natuurlijk niet!

Een reactie van UWV/minister van SZW op de toetsing van BMS

Autoriteit Persoonsgegevens: wat zijn uw prioriteiten?

Werk.nl ‘vernieuwd’? Nee, natuurlijk niet!

Een reactie van UWV/minister van SZW op de toetsing van BMS

Je loopbaan eindigt hier. Door één klik

Een korte mededeling van algemeen belang

Hang op! Klik weg! Bel de werkgever!

Indeed doet weer een poging met OpenAI

Lusha: jouw data is mijn data tenzij je binnen 14 dagen reageert…

Een lente-schoonmaak voor Vijlbrief?

Age bias, jong geleerd – oud gedaan

Adviescollege ICT-toetsing velt negatief oordeel over UWV, 1

cvster.nl liegt (maar is toch goed bezig)

Een reactie van UWV/minister van SZW op de toetsing van BMS

Hang op! Klik weg! Bel de werkgever!

Hang op! Klik weg! Bel de werkgever!

Een reactie van UWV/minister van SZW op de toetsing van BMS

Je loopbaan eindigt hier. Door één klik

Je loopbaan eindigt hier. Door één klik

Age bias, jong geleerd – oud gedaan

Werk.nl ‘vernieuwd’? Nee, natuurlijk niet!

Werk.nl ‘vernieuwd’? Nee, natuurlijk niet!

Synthetische data, wat is dat eigenlijk?

Meta komt uit de kast: GDPR in haar huidige vorm moet verdwijnen, 20 september 2024

Gerelateerde berichten:

Geef een reactie Reactie annuleren

Lusha: jouw data is mijn data tenzij je binnen 14 dagen reageert…

Je loopbaan eindigt hier. Door één klik

Een lente-schoonmaak voor Vijlbrief?

Indeed doet weer een poging met OpenAI

Een korte mededeling van algemeen belang

Adviescollege ICT-toetsing velt negatief oordeel over UWV, 1

Spiegeltje, spiegeltje aan de wand, wie is de grootste data grabber in recruitment land?

Werk.nl ‘vernieuwd’? Nee, natuurlijk niet!

Een reactie van UWV/minister van SZW op de toetsing van BMS

Autoriteit Persoonsgegevens: wat zijn uw prioriteiten?

Werk.nl ‘vernieuwd’? Nee, natuurlijk niet!

Een reactie van UWV/minister van SZW op de toetsing van BMS

Je loopbaan eindigt hier. Door één klik

Een korte mededeling van algemeen belang

Hang op! Klik weg! Bel de werkgever!

Indeed doet weer een poging met OpenAI

Lusha: jouw data is mijn data tenzij je binnen 14 dagen reageert…

Een lente-schoonmaak voor Vijlbrief?

Age bias, jong geleerd – oud gedaan

Adviescollege ICT-toetsing velt negatief oordeel over UWV, 1

cvster.nl liegt (maar is toch goed bezig)

Een reactie van UWV/minister van SZW op de toetsing van BMS

Hang op! Klik weg! Bel de werkgever!

Hang op! Klik weg! Bel de werkgever!

Een reactie van UWV/minister van SZW op de toetsing van BMS

Je loopbaan eindigt hier. Door één klik

Je loopbaan eindigt hier. Door één klik

Age bias, jong geleerd – oud gedaan

Werk.nl ‘vernieuwd’? Nee, natuurlijk niet!

Werk.nl ‘vernieuwd’? Nee, natuurlijk niet!